本帖最后由 finder 于 2014-12-28 11:24 编辑
) q7 W; G* A6 W% j5 C9 v- J9 ^+ Y7 z, [- C# Q P5 Z
最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
1 I+ F1 M1 a. E做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题4 f; t4 x8 Z3 `5 y
有篇blog对这个介绍的比较详细,我就不在这里赘述了. O( w4 x, [+ S8 ^* m9 g% C
; w a) l4 [7 `7 o' M3 ~+ W这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:
5 G+ W! v- \7 i/ Q/ q
3 `5 W% O: H9 n( d8 [! }2013年09月29日17:47:27 补充 $ i" P5 k( P8 Q, g6 G7 U& h5 D9 D
/ E8 ?& p% Q+ o1 x3 _2 u
( U0 C$ l* o7 M; ?6 \* j* x
, }' }2 o- c9 E4 c) _ 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
5 Q7 J3 _4 f# ?, s9 O7 l2 q3 e5 i
9 Z% v# ^' h0 k2 A2 X; w3 `! D6 |/ |) i8 M, M3 z e8 }+ v1 v
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!
. m, p4 k6 z; R4 a4 g( ~$ {) ?( A/ E$ ~7 I( @3 i
4 I' r$ m9 ~+ w; X9 d5 H
|