本帖最后由 finder 于 2014-12-28 11:24 编辑 4 O: \# x( `$ ~2 j( \1 d
6 Z% S2 v/ [+ e, N0 v4 @
最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
; {& a6 G3 g" u" f" ~做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
/ M% V; e! u( `) I' f9 m有篇blog对这个介绍的比较详细,我就不在这里赘述了
+ {% m5 g# O0 U' B; y) n; h% @6 S2 W& B' I8 K9 h" d/ b
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:
3 z% m8 {# D& G* c, V9 x8 D% |: D6 [, _8 W. S2 e( L/ i
2013年09月29日17:47:27 补充 + Y- R& l" @& w/ b
% ~; ?6 M. A$ S
% Q2 [# F0 \4 @( Q
% h5 m. K6 K8 y* g3 \3 l$ O 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
" D3 E' Y/ R+ T9 j$ q) ]
: m+ b" B1 c- J& U, K$ @$ l+ V' x4 U. K+ k! f# {! {' ?
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!' ]+ x5 \ J I4 w, T- J
# ~: m8 ^8 ]! q! I! _0 K
' w- i1 E4 P. S |