本帖最后由 finder 于 2014-12-28 11:24 编辑 + D d+ G( H- \% a2 `
) Q9 N% J# z, Q1 l# G
最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,3 [3 m0 V( u; B- a8 ~
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题: B. i) y; }# ?2 A) q
有篇blog对这个介绍的比较详细,我就不在这里赘述了. J. r( E' U( Z; c4 M
0 X: n- u7 | ^# w- l
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:4 G/ c+ [$ g# F* ?) G
9 d$ q) k: Y1 f. f6 ]
2013年09月29日17:47:27 补充
, h6 W" S F$ h- S9 \: v/ E- K) G7 C6 G/ v8 W
) q2 k( c$ C* \# J
1 r$ Z0 U5 w g' [3 Z& [4 P" h2 Q
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 ' c- w4 z; c6 c, w: \; F0 M9 w
: p" w! a6 i3 q! [1 r
1 o# }6 x5 N: I& c3 s) N只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!
, H: v7 |- o7 k: I4 e
2 _/ H+ a5 S5 u# |, [" W9 V* ~$ A, D1 j+ a. I3 J. {) I7 M5 b+ {
|