|
|
发表于 2015-11-4 16:52:59
|
显示全部楼层
feego 发表于 2015-11-4 01:54% U6 H) l% G, Y- c+ [9 u: G% F- B
我的意思是采集亚马逊做垃圾站,朋友说会被k J2 ^, S$ `! H8 g/ S9 s3 ~4 u
前辈怎么破亚马逊的反爬虫的?我现在只是定时自动刷新,如果 ...
$ l; X6 l' k4 l# l0 {( d5 u+ c量不大的话,楼下 @阿百川 兄弟说的是正解( F; N* }& ~" D8 P8 [9 R' W
否则你肯定会碰上RobotCheck,或者0或空字段
3 I1 M+ ]) p$ a但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的
# [! d8 m7 n: m8 c$ e* p! \ a+ H, u) o( F( O
我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵
# X1 q8 c0 d7 F& [
- `; I, H' ~1 l# N8 X/ n@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量
5 T# K. c" ^/ O* M8 @+ H3 ?5 [. N9 G" r% ?" P/ |3 W8 m
通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈 |
|