本帖最后由 finder 于 2014-12-28 11:24 编辑 ' V, h7 l5 d. `* w
Z( n. e( `) C* f6 A- }
最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
6 M9 T/ t1 \8 o9 `2 Y) M+ c做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
, w6 \1 i) E& c4 m- M有篇blog对这个介绍的比较详细,我就不在这里赘述了) f) `5 ]% h$ K
8 B! ~* ]7 {1 ~9 ]( y
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:' r8 C5 t8 A3 o
: {8 z; Y2 k7 Z* k# A) Z$ F2013年09月29日17:47:27 补充 {0 F: Q- N- E0 s1 O
% k5 [* @/ ~; s" N! x4 \" r. e
, d5 c. `( b( u% ?8 M; H
7 E+ ^: {0 ?' T" x ^; {* \ 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
3 T) Z& u* w5 J6 A, U! V6 ~# b- s: ?3 U/ [6 X% v \ \
; \) Y6 y5 {. T: N5 q1 n; n只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!
3 Y0 T8 L+ Z9 } b6 E0 c8 Z# A2 t! z$ r3 K* y
2 v' X w1 n9 e9 V7 T. C: k |