本帖最后由 finder 于 2014-12-28 11:24 编辑 " m' B _8 N8 g$ l+ s* z R
! ^+ {" x6 U7 C) w) a3 n 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
% s$ W! c+ \' n; ^9 N/ i3 ?- m8 o做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题" u: B6 b8 G" p7 g' Y; A( Q; Y
有篇blog对这个介绍的比较详细,我就不在这里赘述了7 b7 n5 c) V: n$ w z
) L. c7 P: z$ b9 Y" m( u这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:/ u! k4 p2 E1 ]% R
4 e8 [1 x4 h* q3 |) \4 q
2013年09月29日17:47:27 补充 5 r1 W# n9 A' T( k+ H# \
) m$ N" B) R7 @/ a. [6 s
' G: Y0 [. F$ z2 M7 V& V& d
% M6 f \* @# p0 S" W$ E5 h 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
7 M& V) V j, i/ T5 `& v
6 @2 X L& J4 O( f9 K
+ J" o2 P" t6 _/ x) ^2 H只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!: Y7 O0 d% h" c, o* d0 D* C
; B* ~3 @) s5 t8 P
$ q& ]( C' w5 r5 x& L |