|
发表于 2022-12-29 17:47:24
|
显示全部楼层
个人建议用python搞采集,python的scrapy框架搞采集非常方便。而且python跨平台,可以直接部署到linux的vps上通过cron定时运行。最重要的是python的库非常多,想要的功能直接网上就能找到相应的库,开发效率绝对比易语言高。, G, j- K: y d
翻译github上也有python的谷歌翻译接口,直接拿来用。
2 R1 C! u9 z% h' j$ P5 n4 p0 z$ i1 [% E0 u5 G& z& `
选定好一个niche再进行采集,感觉现在采集站还是可以搞的,不要追求内容的数量,你的网站采集多了垃圾内容在谷歌眼里也成了垃圾站了,搜录全删光光。
3 ?2 e- O4 }5 t/ F7 Q: i" B b- G7 I) q, c& U( w1 ?; N' s5 h
网站程序直接用wordpress,毕竟是wordpress全世界使用最多的cms,很多坑都别人踩过了,遇到问题也好解决。或者直接用hexo、hugo等直接生成静态网站。$ u( g6 S7 Q- i# ] p
( t/ a' F! z+ r2 y y) E5 L% D Y
前期资金紧张,可以用国外的免费图床,HTTP抓包后自己写接口上传图片。后期发现网站流量不错,再把图片本地化。有的图床有反盗链,自己进行反代,简单可以用 https://wsrv.nl/?url= 代理访问,不行的自己写个接口伪造来路、user-agent后大部分都可以访问。
( G0 K- N& k& Z! _& `$ Q7 x
: L1 s3 y$ O9 v7 W5 I; s4 n( e我就是搞的那种小型的采集站,以后准备继续扩大规模,展示下我的采集站, 这是最多的一个每天2000多ip:
' }0 g' T! @% N( H2 M* u4 H4 S0 f, m8 |6 r* f
纯纯的采集,文章也就几千篇,爬虫放在vps上定时任务去采。. R3 E: P- b2 H' x7 k. G+ r, j$ t
8 m8 v# M, X( B4 O0 N9 l
7 L% d, b. m( J+ f! b
: m1 ]% q6 A: J: ~6 R: R E" _
采集后调用谷歌翻译整的英文垃圾站,内容不到5000,平均每天100多ip,就整了一个翻译的站,感觉批量搞搞应该还行,以后在整。
' F9 _ d+ x3 f% r
; d3 }( \9 R& Q2 X7 ]爬虫全部署到vps定时采集,网站基本每天更新,总之一切都要全自动,以后才能批量搞!
/ G, i0 x3 n) D5 ?9 }2 @3 H |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
评分
-
查看全部评分
|