|
|
发表于 2015-11-4 16:52:59
|
显示全部楼层
feego 发表于 2015-11-4 01:549 C: V4 S. t& R5 G, I+ Y
我的意思是采集亚马逊做垃圾站,朋友说会被k$ Q7 z2 c5 q5 ^1 z: ]0 U
前辈怎么破亚马逊的反爬虫的?我现在只是定时自动刷新,如果 ...
8 { l' I. Z$ A \, Y8 J量不大的话,楼下 @阿百川 兄弟说的是正解
$ h4 W- O+ j! p4 d否则你肯定会碰上RobotCheck,或者0或空字段
' x, @" o5 o4 R! r9 K但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的
8 h l" O1 ?7 S* ^
. O8 {% I$ d7 t我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵6 G* n1 _3 o! c7 P- Y
! K; ?. s E4 p5 }: F' b
@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量
3 \ R& H6 t1 m% x, C6 r
; P" K1 r; P5 a7 O2 d% W4 M# w通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈 |
|