本帖最后由 finder 于 2014-12-28 11:24 编辑
" @/ J6 D! f/ Y0 \
( A- [# j1 M# c, B+ ^! y 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,; `) p O' ` {. U3 D: T9 b: q- m
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题3 f, d( ~' @, _/ g9 I( k# c
有篇blog对这个介绍的比较详细,我就不在这里赘述了
1 o! g: u) C: E U+ G3 |( h9 j; [( u& r8 S2 ~2 r
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:; H3 c3 I A1 H0 Q. M8 D3 @/ I
! E; k+ \! a- s! j- y3 h5 c% |% N) t
2013年09月29日17:47:27 补充 6 ?) }; l4 `4 h# \& l: g
* |6 B) ?7 O2 I/ H* h
) l" k% R/ I/ [+ f7 {/ @/ ~, l" {, W) u+ W, G
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
; X+ g' {; p* q' S* z
|! G; A- t0 H7 u, U. o# A
0 A. N2 J: J. V" J* @2 K6 q% z9 O只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!8 j& ~8 ^- \" C$ m; S
; E7 I4 P2 e1 o9 `' {# [- J/ r! Y2 `4 [
|