|
|
发表于 2022-12-29 17:47:24
|
显示全部楼层
个人建议用python搞采集,python的scrapy框架搞采集非常方便。而且python跨平台,可以直接部署到linux的vps上通过cron定时运行。最重要的是python的库非常多,想要的功能直接网上就能找到相应的库,开发效率绝对比易语言高。
, l+ q, ?/ U" K1 [, o7 }翻译github上也有python的谷歌翻译接口,直接拿来用。
( ^ q$ S: p( s0 y1 r# S8 F0 v4 S
7 `- E! [7 _3 W) R& j选定好一个niche再进行采集,感觉现在采集站还是可以搞的,不要追求内容的数量,你的网站采集多了垃圾内容在谷歌眼里也成了垃圾站了,搜录全删光光。
1 |0 Z& d, V& I1 _6 ~& X) b. V) c) c
网站程序直接用wordpress,毕竟是wordpress全世界使用最多的cms,很多坑都别人踩过了,遇到问题也好解决。或者直接用hexo、hugo等直接生成静态网站。
2 X2 V2 z) Q* J) ?. w3 {4 }' m8 h: m/ S3 s% c0 l
前期资金紧张,可以用国外的免费图床,HTTP抓包后自己写接口上传图片。后期发现网站流量不错,再把图片本地化。有的图床有反盗链,自己进行反代,简单可以用 https://wsrv.nl/?url= 代理访问,不行的自己写个接口伪造来路、user-agent后大部分都可以访问。
( z7 R" ^5 ]+ r7 }: l6 F- l: c1 L6 d/ L$ G- K! _$ x3 d9 x+ l
我就是搞的那种小型的采集站,以后准备继续扩大规模,展示下我的采集站, 这是最多的一个每天2000多ip:; T# Y: E; K# n: F5 K
+ v& e! I5 ?) r: E" q纯纯的采集,文章也就几千篇,爬虫放在vps上定时任务去采。4 U @" T! `8 u; f4 ]2 W2 m$ B
+ Z5 q9 P$ Z5 }; }. k; D
2 @& X/ g {4 L1 n/ v5 L
, _* W( q, k6 _4 b' U采集后调用谷歌翻译整的英文垃圾站,内容不到5000,平均每天100多ip,就整了一个翻译的站,感觉批量搞搞应该还行,以后在整。9 [" h. x# m4 Z- m- w
6 u7 |$ ]! _& _, \' A6 N9 P爬虫全部署到vps定时采集,网站基本每天更新,总之一切都要全自动,以后才能批量搞!  
* q% q7 ^- d% A z3 k |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
评分
-
查看全部评分
|