本帖最后由 finder 于 2014-12-28 11:24 编辑
" a* j, c7 z \) o4 P1 }7 X
& `; f0 i' h/ K8 q# m9 }" {7 p' I 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,2 X9 e* ]6 A: t H0 }" o
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
q8 F2 m# u: u% A/ Z$ P0 b有篇blog对这个介绍的比较详细,我就不在这里赘述了 T( j1 J) h% Z6 _" S' s g
- D! F: v1 k1 j" v0 D
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:& z/ o8 V2 v9 [6 H) p! C
- F9 Y- |& r7 K; Q; G2013年09月29日17:47:27 补充
1 P2 v& N. U9 p) V7 _* x; z G R6 Y0 h( y
/ s* N4 Q( L; Q
) V- w0 H+ Y5 q) E
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 0 Y) Y5 @* t- d7 c; Y' J4 S. s; G3 z
+ O1 k& T% p8 u/ l$ Q7 r7 Z- H
1 _/ O& M! ~' u只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!
3 B! H2 F! P8 s
* }- V# d/ p4 {$ y* N& K
9 b5 b3 v, M$ E6 E% b |