本帖最后由 finder 于 2014-12-28 11:24 编辑 1 H" {# }" O) s! p o
: C: f8 a p% Z 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,- \3 K0 |. T6 s. ^6 R
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
9 c, o( m0 h: z$ s5 r# r: b有篇blog对这个介绍的比较详细,我就不在这里赘述了7 y5 M+ b3 ?4 [0 R
" F- a. y: f6 a G4 m
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:! H5 N0 R! W+ t
8 }* [! h+ }2 Z3 Z) N2013年09月29日17:47:27 补充 9 A7 @- \' c1 S6 n( j7 D
. E! y2 m$ E6 S" n d
- y2 ]4 }7 x$ Y- r
- w, s }% c2 z+ ^3 ^% F 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 3 v; f, M [8 K3 z8 |9 c6 ?
3 t! o% z3 V' O' A' \1 C% e" ~' G2 B- f/ x8 F+ m
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!
; k1 s' M6 s2 D4 O6 ]9 o) X0 W) I4 J
8 F/ I) n& \. [; d9 m, C* p |