本帖最后由 finder 于 2014-12-28 11:24 编辑
; m' Y( s& K, g8 L& r: k! s( f2 f5 ?( y$ ^2 u; M# N) N, w
最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
; r6 s- v# K3 j# I1 E0 i做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题+ C) c8 J5 f- x* N
有篇blog对这个介绍的比较详细,我就不在这里赘述了% y4 i( {3 {$ m: q' j4 K
: R9 \8 X/ a* s( k9 g, G- _" ]
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:' a9 g& ]* N% v+ t
% I9 \; T9 d( p! h: `2 i
2013年09月29日17:47:27 补充 % [0 C7 y: _5 A4 i1 H
* H* c9 o/ | |' ]4 o% k" ^& i0 B; n( [5 A% r. M! L. P- _8 a
0 {; J( s4 k$ _# u* B 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 : w0 D% W, T" x0 a- o
! q- k: i- g( _7 \0 b5 l' J4 `& a0 v2 S% \9 D
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!$ m$ S/ V0 d+ X; Z
! W; p. X2 I2 i$ s4 X3 k+ f, A
# ~$ h( m( U2 N* T% a |