本帖最后由 finder 于 2014-12-28 11:24 编辑 2 q7 g2 o8 P! n! m; U) g6 n/ D. O
8 h$ s$ m$ l( Y9 _
最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
* ~7 _, F4 V3 k0 P. O做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题% C) c( o- ~7 T$ s2 J8 x4 `
有篇blog对这个介绍的比较详细,我就不在这里赘述了
" t6 a/ ^6 S& n1 a' e
/ R# ]( Q( F6 G2 |. ]3 e5 M) S- m这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:- M! R8 m1 Q' M
9 G0 ~* b8 g* f5 [% _1 }/ Q, }2013年09月29日17:47:27 补充 - Y6 ^/ K: K; B
2 s4 G: L" o0 R* `# Z5 R
# e- q1 r7 k6 A6 ^: j. J& |) `+ f* c# F( P! P
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 2 i3 W h$ X* E+ e
& d7 d- A( j7 f- J$ Y# z
2 V d/ F# o' }1 [
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!' j8 U) s7 J; @" V
' p4 ^" B- f Y0 B& v2 K! F
# J' @- h& i8 i- g9 Z
|