本帖最后由 finder 于 2014-12-28 11:24 编辑 / j8 m6 X, ~5 A% o( P- t2 r( b
& l# U# o6 {. L. E. u8 _ 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的, b9 v) s( y; z2 }/ U5 r
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题. x2 V$ d, ^) J) \
有篇blog对这个介绍的比较详细,我就不在这里赘述了; s q, i- ~5 T0 r6 R8 B# B, ?
9 p% q9 `9 b8 s' g& O
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:1 ]) P o- P! N* n' K9 V! N$ E
6 h. R+ l$ M7 J( j
2013年09月29日17:47:27 补充 0 E* y: n# E1 Y( [- k, B
* u: h, s9 N. @' N0 q- {
% I. `6 _3 g1 t
6 f6 F0 \; O/ u5 d9 N C 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 6 m/ V3 m$ O+ k3 t5 {. t0 f
' v: e# ]. h; D, D4 d3 @" p
! Z3 P, |! i3 a8 g只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!
2 @/ x. u1 j# x y3 ?* S% M: a0 ^# I9 C' Z# I. c# K% P, k9 y( A
+ Q3 E$ J! O+ N5 w0 [7 Q
|