AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

PropellerAds
Google-Bing-Mediago-Criteo开户
⚡️按条S5代理⚡️静态⚡️独享⚡️5G广告专用虚拟卡/U充值/高返点皇家代理IP⚡️#1性价比⚡️
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利买量投流开户独立站⚡️开户投放
⚡️AdsPower:安全不封号,高效自动化Google FB TK游戏代投⚡️E.PN 虚拟卡⚡️FB BM不限额,短id账单户
BINOM TRACKER 60% OFF!比Adplexity还好用的Spy工具ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理
虚拟信用卡+独立站收款全球虚拟卡, 支持U充值各种主页、账单户、BM户(优势)⚡️TikTok企业户,bm户,账单户
IPCola原生住宅IP⚡️$1.8/条双ISP提供TK企业新户老户、谷歌新户老户海外CL企业户源头PTM虚拟卡[全新卡BIN+高返点]
FB虚拟卡⚡️消费越多返现越多最大欧洲Nutra网盟BA找量 FB个号1块一个寻找顶级电商?AdsBranded等你!
TK老户/国内外端口/预审/加白SX.ORG 高质量代理⚡235+ 地区GG,FB,TK, 欧美源头, 欢迎合作广告位出租
8500万高质量住宅IP,助力各种需求虚拟卡返佣1%,国内持牌机构  
查看: 22556|回复: 16

[闲聊] [求教]Python怎么获取网页中js生成的数据?

[复制链接]

119

主题

2023

广告币

2592

积分

版主

名利权情牢是非成败空大家可以叫我空或空空希望能跟大家成为朋友

Rank: 7Rank: 7Rank: 7

积分
2592

社区QQ达人

发表于 2014-8-4 23:44:47 | 显示全部楼层 |阅读模式
HuiTong虚拟卡
用Python写一个多(忽)说(略)的群发程序,现在遇到一个问题,打开的网页中包含一个js文件
- t9 U7 C1 T2 ?" b8 c+ P$ j
  1. http://static.duoshuo.com/embed.js
复制代码
里面包含了一段参数,; e2 A+ Q+ h* d9 k. ]
  1. h="cb_"+Math.round(Math.random()*1e6)
复制代码
生成6位的随机数字,谁知道我怎么获得这个数据?python的selenium模块效率太低,我要效率高的。" S+ K( d* [: E9 T$ g3 a

  B, Z- m' s6 z* g7 j; V请推荐一个模块或者是其他的什么语言, 最好是能快速上手的。
) b" q, f& ^! S( m4 t8 N4 }9 I- a5 G6 P+ b
4 G6 V, j- z8 G5 v5 r9 t另外最好能详细一点,不甚感激。) g, s4 R) V/ N/ m+ m& p
相关帖子
承蒙骄阳当年提携 感谢河马现今不弃 能在广告中国做版主 我很感恩 | 我没有什么才能 更不是什么大佬 但我喜欢学习和分享 期盼在这里一起成长[我的日记]
回复

使用道具 举报

0

主题

488

广告币

1280

积分

高级会员

Rank: 4

积分
1280
发表于 2014-8-5 00:07:58 | 显示全部楼层
试试casperjs模块? 无界面浏览器 可以解析js
- U4 h+ j) O2 H& s( C官网有很详细文档# j0 K0 y3 _  F3 `
  1. http://casperjs.org/
复制代码

: I6 o( @6 B4 b  Q  ]$ Z. r"CasperJS是一个开源的导航脚本处理和测试工具,基于PhantomJS(前端自动化测试工具)编写。"
$ B/ b( i4 J5 h( M& c
回复 支持 反对

使用道具 举报

54

主题

9

广告币

6010

积分

禁止访问

积分
6010
发表于 2014-8-5 08:27:04 | 显示全部楼层
  1. import random
    7 J, Q4 |% W5 e5 O# {7 ?( Z; ?5 w
  2. rand = random.randint(100000,999999)
    - {% K* m" }, g! h1 I
  3. print rand& F3 c) s3 [- b, a( l7 P/ s
复制代码
: M& O. z/ z! a0 @1 m! @
生成六位随机数
/ n: v) \6 p6 ~9 G# Q3 q/ t1 T7 x3 F  U' v* U. u- e0 C8 c4 F

点评

我需要获取js文件中生成的随机数,不是自己生成一个随机数  详情 回复 发表于 2014-8-5 08:47
回复 支持 反对

使用道具 举报

119

主题

2023

广告币

2592

积分

版主

名利权情牢是非成败空大家可以叫我空或空空希望能跟大家成为朋友

Rank: 7Rank: 7Rank: 7

积分
2592

社区QQ达人

 楼主| 发表于 2014-8-5 08:47:35 | 显示全部楼层
阿百川 发表于 2014-8-5 08:27
$ o- n# V6 t( W/ l- u; s- K生成六位随机数

' Q' _, C( Y1 r0 r0 ?# t我需要获取js文件中生成的随机数,不是自己生成一个随机数
承蒙骄阳当年提携 感谢河马现今不弃 能在广告中国做版主 我很感恩 | 我没有什么才能 更不是什么大佬 但我喜欢学习和分享 期盼在这里一起成长[我的日记]
回复 支持 反对

使用道具 举报

54

主题

9

广告币

6010

积分

禁止访问

积分
6010
发表于 2014-8-5 09:07:01 | 显示全部楼层
fatiery 发表于 2014-8-5 08:47) S8 G9 B' M3 O( b; F
我需要获取js文件中生成的随机数,不是自己生成一个随机数
, H. ]4 v) _8 M1 w, \. v
这个只是随机生成的吧,又没什么验证1 d+ ^; |# b( m* G
1 `, X% q1 _3 Z* h1 K
  1. https://pypi.python.org/pypi/spynner
复制代码
+ @8 X$ }9 V' f
利用webkit解析js

点评

有验证的,我没写,这个是用get方式提交的我现在就是要获取参数5,参数5在 中生成  详情 回复 发表于 2014-8-5 09:18
回复 支持 反对

使用道具 举报

119

主题

2023

广告币

2592

积分

版主

名利权情牢是非成败空大家可以叫我空或空空希望能跟大家成为朋友

Rank: 7Rank: 7Rank: 7

积分
2592

社区QQ达人

 楼主| 发表于 2014-8-5 09:18:01 | 显示全部楼层
阿百川 发表于 2014-8-5 09:07! x  X# |4 M6 G. D- z( w
这个只是随机生成的吧,又没什么验证

% s: f/ W1 I1 H+ y: Z有验证的,我没写,这个是用get方式提交的
  1. http://参数1.duoshuo.com/api/posts/create.jsonp?thread_id=参数2&parent_id=&nonce=参数3&message=参数4&repost=netease&v=140327&_method=POST&callback=DUOSHUO%5B'cb_参数5'%5D
复制代码
我现在就是要获取参数5,参数5在3 `6 `' l* r: @9 K7 X; C7 j
  1. http://static.duoshuo.com/embed.js
复制代码
中生成
2 {( K* n4 I( z- \  x9 C$ ]
承蒙骄阳当年提携 感谢河马现今不弃 能在广告中国做版主 我很感恩 | 我没有什么才能 更不是什么大佬 但我喜欢学习和分享 期盼在这里一起成长[我的日记]
回复 支持 反对

使用道具 举报

54

主题

9

广告币

6010

积分

禁止访问

积分
6010
发表于 2014-8-5 09:33:04 | 显示全部楼层
fatiery 发表于 2014-8-5 09:183 _7 i% l, R& N0 y  F( X; W
有验证的,我没写,这个是用get方式提交的我现在就是要获取参数5,参数5在
; L( ]9 `0 ]! Y7 l中生成
: j8 M+ j$ W' v0 K  o0 f ...
0 O, g* }3 C. i9 Z4 q' `+ s
不解析js不好搞,还是用spynner吧
回复 支持 反对

使用道具 举报

augustye 该用户已被删除
发表于 2014-8-5 09:34:50 | 显示全部楼层
方案1: 内嵌webkit模块运行那个网页(包括js文件),然后用webkit提供的API获取js空间中的变量值。( v( q" A; b( F! W2 W+ [

$ a2 v$ M0 o; O  H方案2: 用你使用的语言重写那个js文件中的相关功能,如果你的程序是服务器端运行用nodejs可以省很多工作量3 R' @4 @7 J% @; h/ d; |+ I

点评

方案1.执行效率比较低 方案2.重写js功能估计没用吧。必须要打开网页的时候,打开那个js,那个js应该是包含网页的相关数据的,然后数据应该已经返回到它的服务器上,我提交的时候和服务器上的数据比对,相同才可以提  详情 回复 发表于 2014-8-6 01:06
回复 支持 反对

使用道具 举报

10

主题

1312

广告币

1374

积分

高级会员

Rank: 4

积分
1374
发表于 2014-8-5 22:25:44 | 显示全部楼层
也可以挂一个ghost.py, 一般做法就是跑个webkit 的内核,浏览器显示什么,你也就能得到什么

点评

ghost.py以及上面提到的一些,还有没有提到的比如phantomjs,我都搜索到然后测试了有些代码我看不懂,有些出错比如你说的ghost.py返回超时,无法下载网页的错误,打开百度就没问题。  详情 回复 发表于 2014-8-6 02:21
回复 支持 反对

使用道具 举报

119

主题

2023

广告币

2592

积分

版主

名利权情牢是非成败空大家可以叫我空或空空希望能跟大家成为朋友

Rank: 7Rank: 7Rank: 7

积分
2592

社区QQ达人

 楼主| 发表于 2014-8-6 00:59:48 | 显示全部楼层
我目前还在研究中,这个问题困扰我2天了。。。
承蒙骄阳当年提携 感谢河马现今不弃 能在广告中国做版主 我很感恩 | 我没有什么才能 更不是什么大佬 但我喜欢学习和分享 期盼在这里一起成长[我的日记]
回复 支持 反对

使用道具 举报

119

主题

2023

广告币

2592

积分

版主

名利权情牢是非成败空大家可以叫我空或空空希望能跟大家成为朋友

Rank: 7Rank: 7Rank: 7

积分
2592

社区QQ达人

 楼主| 发表于 2014-8-6 01:06:21 | 显示全部楼层
本帖最后由 fatiery 于 2014-8-6 01:26 编辑 3 i* a- L( u5 \0 I6 m% ^
augustye 发表于 2014-8-5 09:34
+ n4 }/ g, s4 l. a0 e" m" c方案1: 内嵌webkit模块运行那个网页(包括js文件),然后用webkit提供的API获取js空间中的变量值。
/ ]6 [8 s* V7 B
  p/ @3 o( N- O& F/ T- k7 i方案2: ...
9 E. y0 }% [& R6 g+ ^" F: C* a
方案1.研究中。。。
  P4 S% k1 m4 q, j, V9 O方案2.重写js功能估计没用吧。必须要打开网页的时候,打开那个js,那个js应该是包含网页的相关数据的,然后数据应该已经返回到它的服务器上,我提交的时候和服务器上的数据比对,相同才可以提交成功。(我没学过js,这个是流程是我想象的,不是的话,请指出)
承蒙骄阳当年提携 感谢河马现今不弃 能在广告中国做版主 我很感恩 | 我没有什么才能 更不是什么大佬 但我喜欢学习和分享 期盼在这里一起成长[我的日记]
回复 支持 反对

使用道具 举报

119

主题

2023

广告币

2592

积分

版主

名利权情牢是非成败空大家可以叫我空或空空希望能跟大家成为朋友

Rank: 7Rank: 7Rank: 7

积分
2592

社区QQ达人

 楼主| 发表于 2014-8-6 02:21:54 | 显示全部楼层
darren 发表于 2014-8-5 22:25
  n6 l( z# M' B' {, `也可以挂一个ghost.py, 一般做法就是跑个webkit 的内核,浏览器显示什么,你也就能得到什么 ...

. V& t/ J% f' @) R+ Yghost.py以及上面提到的一些,还有没有提到的比如phantomjs,我都搜索到然后测试了有些代码我看不懂,有些出错比如你说的ghost.py
  1. from ghost import Ghost
    - {; T6 w2 |% R
  2. ghost = Ghost()
    5 q7 f" l3 s, p* i
  3. page, extra_resources = ghost.open("http://sayitout.net/item/10826.html")
复制代码
返回超时,无法下载网页的错误,打开百度就没问题。
承蒙骄阳当年提携 感谢河马现今不弃 能在广告中国做版主 我很感恩 | 我没有什么才能 更不是什么大佬 但我喜欢学习和分享 期盼在这里一起成长[我的日记]
回复 支持 反对

使用道具 举报

augustye 该用户已被删除
发表于 2014-8-6 06:34:01 | 显示全部楼层
fatiery 发表于 2014-8-6 01:06
+ m0 J1 K( D' b1 T: A方案1.研究中。。。6 p* a% G9 u6 R# n
方案2.重写js功能估计没用吧。必须要打开网页的时候,打开那个js,那个js应该是包含网 ...
0 `; j& E& l. t' y' H
那个js里面不包含数据啊,只包含函数,浏览器运行这个js文件的时候会调用其中的函数,发出ajax请求。所以按理说你只需要重写相关部分,模仿下这个ajax请求就好了。1 w& I$ R# ~' Z  ?  T
7 H: E, @% }- n1 O+ j" O
另:如果js文件里包含数据,那岂不是更简单,你直接抓取js文件,正则表达式匹配下就好了。

点评

如果我懂js,按你说的方法肯定是极好的。但是这个js文件对我而言太复杂,它里面还包含了其他的参数,比如thread_id,这个参数其实我是在另外一个页面抓取的。 这个js不直接包含数据,包含的是一个生成随机6位数字的  详情 回复 发表于 2014-8-6 12:12
回复 支持 反对

使用道具 举报

119

主题

2023

广告币

2592

积分

版主

名利权情牢是非成败空大家可以叫我空或空空希望能跟大家成为朋友

Rank: 7Rank: 7Rank: 7

积分
2592

社区QQ达人

 楼主| 发表于 2014-8-6 12:12:30 | 显示全部楼层
本帖最后由 fatiery 于 2014-8-6 12:15 编辑
2 R% G. B3 y% Y$ [
augustye 发表于 2014-8-6 06:342 L3 O- A" ~  g: R6 U! Z
那个js里面不包含数据啊,只包含函数,浏览器运行这个js文件的时候会调用其中的函数,发出ajax请求。所以 ...
/ X+ C& b" C% p/ N" Z. X
如果我懂js,按你说的方法肯定是极好的。但是这个js文件对我而言太复杂,它里面还包含了其他的参数,比如thread_id,这个参数其实我是在另外一个页面抓取的。
3 B3 L. A4 L4 T% f! d, w" q
* p5 w: O# Z, t  k. `这个js不直接包含数据,我现在需要的是这个js打开之后函数生成的6位随机数。我现在还是在用你方案1的方式,找些基于webkit开发的软件。找到一些不错的模块,但是中文的网页就报错。0 k4 r* }, [+ `  R3 _
, K  h5 Y- E4 L, s4 p; D
如果愿意PM我你的QQ,我还有个技术问题求教。
承蒙骄阳当年提携 感谢河马现今不弃 能在广告中国做版主 我很感恩 | 我没有什么才能 更不是什么大佬 但我喜欢学习和分享 期盼在这里一起成长[我的日记]
回复 支持 反对

使用道具 举报

augustye 该用户已被删除
发表于 2014-8-6 15:18:14 | 显示全部楼层
fatiery 发表于 2014-8-6 12:125 a& Z$ s$ Q! Q2 ]; t
如果我懂js,按你说的方法肯定是极好的。但是这个js文件对我而言太复杂,它里面还包含了其他的参数,比如t ...

# B$ R4 S  @* _' R" d% N& I其实吧,那个js文件里生成的随机数真的就是个随机数6 R" `+ g  L' }' t& {. O

' R3 b2 b  s7 R6 Jvar h="cb_"+Math.round(Math.random()*1e6);7 c) u; U9 G% \, w9 V

3 P$ q, C- o6 {( q5 b8 ~没什么特别的。。。你完全可以用python生成。。。
5 E" s2 t2 C) z& j
' x% N2 ?; n  h/ x6 J. T6 u% g' r如果还需要讨论,把你的QQ发给我,我加你
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2026-2-17 20:15 , Processed in 0.057311 second(s), 21 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表