James_Liu 发表于 2015-9-1 15:10
一起交流啊! 这个过程估计会比较慢才能看到效果,我计划做个英文站,再做个中文站试试。 ...
一个是收录慢,另外一个是收录了没排名。
空格无敌 发表于 2015-9-1 18:14
这种站靠SEO是很难的,试试社交流量,社交流量上来了也很好的。
他把语句随机打乱了再社交引流?
很厉害,期待更新呀
你可不可以不要这么牛逼
本帖最后由 seanhere 于 2015-9-1 23:22 编辑
Lebron.Meng 发表于 2015-9-1 20:56
楼上正解,走流量SEO可能不太合适
这种垃圾站只能靠SEO流量吧,不过只有上足够大的文章量做基数之后,才会有一定比例的长尾流量,一两个站内容太少,这样测试周期会非常长还不见效。
社交没有人看的,内容不可读,更别提传播了
知道几个做垃圾站的大牛,应该有前途的,做好了可以跟正规站平分秋色, 再说大洲的镜像SM应该也属于这一类吧。
我的站有十四万数据,只收录了两万多,都一个月了
比较关注PYTHON的采集技术。
潇洒哥er 发表于 2015-9-2 09:45
比较关注PYTHON的采集技术。
这个没有特别难的,我这里只采集正文,而且文章也不要求可读性。所有就用了BeautifulSoup过滤p标签。
我设定了一组种子网站,爬虫沿着种子站爬出去,只保存正文,判断正文字符数大于500就保留,否则就舍弃。
受制于URL存储和排重问题,这个爬虫无法一直爬,爬到一定程度就爬不动了。我就重启程序,重新给种子...
就是这么简单。
牛奔啊 这个现在只能靠量取胜,当然有技术还是有饭吃啊
仅靠自动博什么的这类初级采集站 顶多只是饿不死
年代过去了
3W收录,每天1IP,别问我是怎么知道的
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulsoup高太多了。
但是,我得说这样做并无什么作用,你的玩法已经过时10多年了,连百度都糊弄不了了。
我最近在通过分词的方法来进行小段文字的替换,稍微能糊弄一下google,但是寿命也并长,何况你的随机替换....
采集站我觉得现在能玩的可能就是河马的那个思路了,可以去翻翻看看他最近的帖子。
matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulso ...
多谢分享!干货很多
matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulso ...
还是可以糊弄gg的,文章随机乱序+多站链轮,虽然死得快但流量上的也很快
https://www.google.com/search?q=少时原版法庭
连续N页都是这种站
