本帖最后由 finder 于 2014-12-28 11:24 编辑
& z& h7 d( F) Q$ J, _
6 d: j! Z" _0 B1 z: S T* P 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
9 K- f5 G" f" m* ?0 g" ^1 C做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
& J' {, s, H2 M$ @! u" m有篇blog对这个介绍的比较详细,我就不在这里赘述了
+ E$ T* t; t9 U% [- l t |% Q
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:
+ @+ i; k2 p+ z/ e6 {. W: e! U7 K3 P4 @/ }- c
2013年09月29日17:47:27 补充 1 S# J/ J G: l2 Y
3 O- A1 m* Q) Y. @' K/ w2 |9 m( E9 r7 n2 v) I% a, E7 B/ x
/ n% v, m) ^4 V: }7 S' F 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
: _' M7 c' P6 z9 w9 h! A3 E( G
0 g2 c3 {7 ~( @: y* A; v3 M
+ ]% U) o& j# n6 l% d/ a0 S/ Q只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!
- d6 Z' H$ J3 ~* k6 z1 L
$ G" L# B/ E: b6 T4 n& f, H H% ^) p7 k8 v! ^
|