|
|
发表于 2016-5-3 17:22:28
|
显示全部楼层
我这边公司主业之一是帮人抓数据,我并不是要在这推广我们公司业务,只是提点小建议:
2 t' [9 u, v w( R1. 简单网站的话,用火车头八爪鱼之类的,比较好。简单不简单的判断在于,页面数量,是否更新频率非常高,是否需要分布式抓取,是否ajax网站,对方反爬机制是否很强大。比如说,你打算抓点新闻或者一些博客这种量级的需求,那桌面小软件还是可以的。+ l) {0 m& A C/ D8 |
2. 火车头的好处并不是抓取本身,而是有很多的再发布模块可用,这个确实很省事。如果不考虑发布模块,那其实很多免费的软件可用,包括一些是全可视化操作的,非常方便( r, g$ I+ ]' y. J5 l, e
3. 如果你需要抓取的源网站逻辑比较复杂,而且你的时间成本还比较高的话,那你还是上淘宝找个人帮你做好火车头的规则把,如你时间成本高,那性价比还是不错的
, q% W( q. ?: `2 {1 k9 J4. 对于那些逻辑复杂且极强反爬策略的,那还是考虑换个数据源把,自己做,花大量时间还不见得能成功抓取,如果找别人抓取,那成本也不低 |
|