|
发表于 2015-11-4 16:52:59
|
显示全部楼层
feego 发表于 2015-11-4 01:54( h! ~( r) f! H; Q$ q. s: b
我的意思是采集亚马逊做垃圾站,朋友说会被k
% D5 u/ E! p6 J) x. P d# l前辈怎么破亚马逊的反爬虫的?我现在只是定时自动刷新,如果 ... 0 V) D: H7 r V3 T t
量不大的话,楼下 @阿百川 兄弟说的是正解8 ^7 Q, K, S8 N
否则你肯定会碰上RobotCheck,或者0或空字段
2 ^8 _5 S3 H: w2 s. m8 T但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的
+ D$ y% X" O( I' u8 k; Q& r+ u3 E
$ D* |5 f8 I/ X: `$ }& K C8 B; A我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵
8 P2 v- I0 q7 N
2 i+ B( E8 B5 \@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量2 ?' V- x! O8 L! _7 v4 V, x j0 b4 D
, v% _( Q4 q! Y) @# z0 F5 s# B
通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈 |
|