本帖最后由 finder 于 2014-12-28 11:24 编辑 - k9 C6 ]: e, r4 G, }' C: p& @
6 h) q& E X3 {5 I% N. u
最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,* U! h4 F8 j l# ?
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题4 d4 V( V* ]: ?; j
有篇blog对这个介绍的比较详细,我就不在这里赘述了. W3 ]; F, e( `4 D* y$ x
5 S2 b+ P( j R0 o1 l这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:
' a7 V6 d" _& N% i: R; `6 ?+ L2 P. J, C9 y, x' B, ^- T
2013年09月29日17:47:27 补充
' w) k* m" y5 X9 f0 N* G' B$ \: ]5 w- b8 Y. c
$ ?+ I9 z, P, Z) E( g* |+ I
/ g2 U5 |5 Q. r: I( G* _, A% { 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
6 S4 \2 Y: I- b2 A0 G
; H2 {+ h- T j! e/ }$ ~; H3 s
- d5 f. X5 r$ m" ?) i( v0 ^只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!
6 k7 z3 G2 a& h9 O' Y. \: |
* F& w! P$ D, ?! p! [3 L" |; V, z9 Q) d; g" j+ d
|