|
|
发表于 2015-11-4 16:52:59
|
显示全部楼层
feego 发表于 2015-11-4 01:54
( C6 H- l) L! L) ]+ P我的意思是采集亚马逊做垃圾站,朋友说会被k) r; n4 f# t# R3 E, c* U; \
前辈怎么破亚马逊的反爬虫的?我现在只是定时自动刷新,如果 ...
6 u' V( j" q( L( g9 {( K: p: K量不大的话,楼下 @阿百川 兄弟说的是正解
# g! }, D! H+ p$ G0 D) z- W. @- s否则你肯定会碰上RobotCheck,或者0或空字段& C4 U! r2 ^( P4 R, \3 u
但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的
N) t# _" R/ o- m5 {, [, }2 m4 _, I
我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵" w+ `5 h/ `3 S! f, H
4 E$ e! d6 C- s" Q
@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量2 W! U; {: B, h% _; h) v8 r
7 _* z) s# K* Y1 n' Z( I0 v通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈 |
|