本帖最后由 finder 于 2014-12-28 11:24 编辑
[( o ?: \ k" Z, W4 Y5 o
. l6 f: p' G5 r E3 W/ o 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,4 C- I! |& |/ ]* R: N: _. S4 v! _
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题; J" w$ { K4 B) Z1 i: n
有篇blog对这个介绍的比较详细,我就不在这里赘述了" X" q [+ h, B6 c
. g$ d+ k3 D U' I: c% a H# @0 ]5 V这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:
2 F; H' I0 ~, Y. F! M5 p+ z$ S3 k6 i: |: g+ |% M
2013年09月29日17:47:27 补充 9 F+ u. i- X v2 }
/ z( y+ W8 D( J# B
P3 d# N; p4 \+ i6 a$ g$ \
5 \3 h0 t" c' c( |0 R 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 ; ~& Z8 I1 M$ z6 @: V" _' @, B
. n |/ z7 a8 T7 e. C/ z% y4 ~1 `# y/ X+ ~0 f* ]" m, ?
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!& {' Y ]8 _, [% G* s
5 X8 Y4 u9 s3 w
- t" p4 }) [+ A
|