个人建议用python搞采集,python的scrapy框架搞采集非常方便。而且python跨平台,可以直接部署到linux的vps上通过cron定时运行。最重要的是python的库非常多,想要的功能直接网上就能找到相应的库,开发效率绝对比易语言高。% s1 ?. j# A2 J( ?# Q) F
翻译github上也有python的谷歌翻译接口,直接拿来用。 ( w1 |" ]8 @& F- T& M6 f7 F3 M4 _1 A4 c9 h
选定好一个niche再进行采集,感觉现在采集站还是可以搞的,不要追求内容的数量,你的网站采集多了垃圾内容在谷歌眼里也成了垃圾站了,搜录全删光光。 7 e U, ^# y1 I0 A! D* b " a: P8 V2 g3 `4 x网站程序直接用wordpress,毕竟是wordpress全世界使用最多的cms,很多坑都别人踩过了,遇到问题也好解决。或者直接用hexo、hugo等直接生成静态网站。 2 f9 a) J: ^! Y7 x) [ z2 v: O) b1 Z, W8 X) O& t" F
前期资金紧张,可以用国外的免费图床,HTTP抓包后自己写接口上传图片。后期发现网站流量不错,再把图片本地化。有的图床有反盗链,自己进行反代,简单可以用 https://wsrv.nl/?url= 代理访问,不行的自己写个接口伪造来路、user-agent后大部分都可以访问。. J+ h" z& `# h3 W( F- ]# l$ D
+ V' z ]+ H; { t! \; d+ m
我就是搞的那种小型的采集站,以后准备继续扩大规模,展示下我的采集站, 这是最多的一个每天2000多ip: , x* @8 T! O4 u+ R4 }1 n/ a 4 N/ z8 o) ^' g/ H9 }纯纯的采集,文章也就几千篇,爬虫放在vps上定时任务去采。 p" }2 W! P2 N' {/ V' f: K* A2 ~
8 c& p1 ~% e% f& h5 J
) }6 `9 q. o/ `- w# \# A3 V P
, ?1 [/ @/ S. `$ s. ]采集后调用谷歌翻译整的英文垃圾站,内容不到5000,平均每天100多ip,就整了一个翻译的站,感觉批量搞搞应该还行,以后在整。 6 e/ k/ S: l. }! T# _2 S3 i2 D4 s2 t l5 H
爬虫全部署到vps定时采集,网站基本每天更新,总之一切都要全自动,以后才能批量搞!4 X c/ }/ R* F7 B& m* o