本帖最后由 finder 于 2014-12-28 11:24 编辑
" H( W/ E P6 s( S
) A& Q; z0 P+ h% k' h 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
, @' r+ _% H* ^$ t) r; z* g8 ^0 @做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
& z0 x0 l/ g( I+ l) i% o有篇blog对这个介绍的比较详细,我就不在这里赘述了# z, g. h' r( D
8 L& c6 Y( g+ L5 c) {6 d这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:# T8 ]8 _% R: b$ [7 n
& g/ z1 d: A& Z" [4 v. S4 B2013年09月29日17:47:27 补充
, D7 c. b' |2 B& T6 T! ?$ r
) A2 W" R) ]- E& `7 @( u
& A- d/ b1 N/ K, N4 p2 ]7 L5 \
& d; \8 w4 }$ L 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
6 m$ C& e' m/ W9 J- Q; J4 K4 x
\3 I! d6 }& E! V; d! W( d& e& G* d
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!) J! h4 P. L& d8 d) C4 X' \
: F$ O; D ^3 s: O, N; E
$ `5 g. d( K% E- _) _/ X |