|
|
发表于 2015-11-4 16:52:59
|
显示全部楼层
3 Q) G2 K9 U; s, D9 ]2 g量不大的话,楼下 @阿百川 兄弟说的是正解
; n8 X9 O0 u8 f4 J* M% ~+ H( w否则你肯定会碰上RobotCheck,或者0或空字段
+ g! Y6 [3 [1 }# L! m2 v1 x$ o, @6 d但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的( i t7 c9 {1 g3 s3 _$ \6 p
* m" t8 D6 @! p
我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵& f, Y& F& T2 C8 y- r6 L1 z) |* {
+ j, I6 H X$ T5 g3 ~: [ e4 f" |9 R
@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量! `1 I7 E% t/ |0 _) g/ r% j S$ h
: T, G1 J$ X1 e, x" z( T8 j通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈 |
|