本帖最后由 finder 于 2014-12-28 11:24 编辑 : P A4 {7 s, a; n2 R. D: H
5 q: R7 ^1 `/ t- w" }. j4 ^; Q 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,7 F4 j7 R o3 e! P7 G" C
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
4 B" W+ t/ t- K1 a% M" L有篇blog对这个介绍的比较详细,我就不在这里赘述了; R2 @* h) I9 x5 v
2 c E7 m u- ^$ t" W
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:
1 |4 A; o3 A& W$ L2 d e1 `+ y y0 z+ }' [( C G
2013年09月29日17:47:27 补充
# K Y2 u. z! N; D+ z. `* C! k$ ?4 }- S
% x# Y- a7 w" V- N+ `& b. g5 ^7 M& X2 M0 @
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 ( K- j, h" ~5 l5 }: t4 j1 f7 a
0 F6 `' G; c( ^
2 Y y# S5 Z( L* n7 y0 a
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!9 k* b/ S+ _, y1 K3 q" |. D
7 }; ~: W( E u j) s- t$ w" b! b) @4 Q# I9 v
|