|
|
发表于 2015-11-4 16:52:59
|
显示全部楼层
feego 发表于 2015-11-4 01:54" d. W- D2 u" p* V x( c9 L
我的意思是采集亚马逊做垃圾站,朋友说会被k
0 V, S- G6 W+ }1 B0 {0 |前辈怎么破亚马逊的反爬虫的?我现在只是定时自动刷新,如果 ... 2 ? k% _5 l# I; \; {: W
量不大的话,楼下 @阿百川 兄弟说的是正解" ?- T" k, Z9 ]* n5 Y, y0 W1 M
否则你肯定会碰上RobotCheck,或者0或空字段
* n: ]; e5 {7 F: V但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的$ L* k" l7 c2 v d! m
1 y F t8 n0 z, p( P# p/ `
我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵+ A. s% k) i1 @7 C) y/ T
( q* L& o+ R0 Z! H
@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量
8 z: m& c& U1 ^5 G5 L
" {! U. j5 U$ o通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈 |
|