一个开源的正文提取程序

bjzhush · 发表于 2013-9-28 19:08:26

本帖最后由 finder 于 2014-12-28 11:24 编辑

最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
有篇blog对这个介绍的比较详细,我就不在这里赘述了

这里可以看详细的介绍以及DEMO :

http://urlshort.shuaizhu.com/1k2

复制代码

这里你可以输入一个URL进行测试:

http://urlshort.shuaizhu.com/1k3

复制代码

这里你可以直接下载程序安装到本地:

http://urlshort.shuaizhu.com/1k4

复制代码

PS:

2013年09月29日17:47:27 补充

我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码

只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!

bjzhush · 发表于 2013-9-28 22:18:29

感谢 @mj23zyb 帮我编辑URL格式,以前论坛用的少,这个还不太熟,以后我会注意

阴天的下午 · 发表于 2013-9-28 22:31:06

不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。

bjzhush · 发表于 2013-9-28 22:35:44

阴天的下午发表于 2013-9-28 22:31
3 ~% D4 T, |* b1 W9 S7 D不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。 ...

这个东西做一个接口非常容易的
   $title = $Data['title'];
      $content = $Data['content'];
      include 'template/reader.html';
这是index.php的最后的部分,只需要把include所在的一行注释掉,然后加一行
      echo json_encode($Data);
就可以以json格式返回,那么需要批量的时候,直接每次调取就可以了
如果还不清楚,可以继续问

阿百川 · 发表于 2013-9-29 07:55:00

自从用过这个之后，自己用的模板就全修改了一遍

JasonLee · 发表于 2013-9-29 10:32:56

感谢真心很不错的希望楼主以后能继续分享类似的

bjzhush · 发表于 2013-9-29 11:07:47

阿百川发表于 2013-9-29 07:55 9 _) R# F; Y4 Q: f- f$ M
自从用过这个之后，自己用的模板就全修改了一遍

什么意思呢? 为什么要修改模板

阿百川 · 发表于 2013-9-29 11:42:16

bjzhush 发表于 2013-9-29 11:07
+ F* \% T% E) P7 _$ E什么意思呢? 为什么要修改模板

防止被这种程序提取内容

bjzhush · 发表于 2013-9-29 11:53:13

阿百川发表于 2013-9-29 11:42
, `6 n9 z3 p$ B# M5 Y9 q. }防止被这种程序提取内容

真的要扒你的站,你是防不住的
不怕贼偷,就怕贼惦记,哈哈

bjzhush · 发表于 2013-9-29 17:48:25

阴天的下午发表于 2013-9-28 22:31 1 q2 Y& W/ c j4 n. z: ~
不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。 ...

我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码

只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!

今天刚刚发现的

		自动登录	找回密码
密码			立即注册

Google-Bing-Mediago-Criteo开户	⚡️按条S5代理⚡️静态⚡️独享⚡️5G	广告专用虚拟卡/U充值/高返点	皇家代理IP⚡️#1性价比⚡️
Mediabuy⚡️玩家开户首选	【鲁班跨境通-自助充值转账】	FB/GG/TT❤️官方免费开户	Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理	*开户投流-724h❤️人工在线**	【官方】❤️搜索套利买量投流开户	独立站⚡️开户投放
Google FB TK游戏代投	⚡️AdsPower:安全不封号,高效自动化	⚡️E.PN 虚拟卡⚡️	BINOM TRACKER 60% OFF!
比Adplexity还好用的Spy工具	ADPLEXITY + ADVERTCN	7200W全球动态不重复住宅IP代理	虚拟信用卡+独立站收款
全球虚拟卡, 支持U充值	Facebook 批量上广告	尤里改 - FB 稳定投放	免费黑五教程（持续更新、欢迎交流）
FB 三不限源头 - 自助下户充值转款	各种主页、账单户、BM户（优势）	IPCola原生住宅IP⚡️$1.8/条双ISP	FB资源，账单户，分享户，国内一手
TK加白户/二解户/FB海外户/GG老户	最大欧洲Nutra网盟BA找量	FB高权重耐操个号⚡️稳定过审	GG,FB,TK, 欧美源头, 欢迎合作❤️
FB企业户海外户,授信户,TK加白户	联盟收款/海外资金下发/服贸结汇	域名防红⚠斗篷工具/可试用3天	⚡️Spend.net — 美元卡仅需$0⚡️
比特浏览器+云手机 \|防关联防封号	Facebook截流, 1 次点击 2 次曝光	广告位出租	8500万高质量住宅IP，助力各种需求
虚拟卡返佣1%，国内持牌机构

[软件工具] 一个开源的正文提取程序

评分

社区QQ达人