AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

PropellerAds
Google-Bing-Mediago-Criteo开户
⚡️按条S5代理⚡️静态⚡️独享⚡️5G广告专用虚拟卡/U充值/高返点皇家代理IP⚡️#1性价比⚡️
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利买量投流开户独立站⚡️开户投放
⚡️AdsPower:安全不封号,高效自动化Google FB TK游戏代投⚡️E.PN 虚拟卡⚡️BINOM TRACKER 60% OFF!
比Adplexity还好用的Spy工具ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理虚拟信用卡+独立站收款
全球虚拟卡, 支持U充值Facebook 批量上广告尤里改 - FB 稳定投放免费黑五教程(持续更新、欢迎交流)
FB 三不限源头 - 自助下户充值转款各种主页、账单户、BM户(优势)⚡️TikTok企业户,bm户,账单户IPCola原生住宅IP⚡️$1.8/条双ISP
FB海外户、GG老户、TK加白老户PTM虚拟卡[全新卡BIN+高返点]FB虚拟卡⚡️消费越多返现越多最大欧洲Nutra网盟BA找量
FB个号1块一个TikTok2审户/老户/国内外端口/加白SX.ORG 高质量代理⚡235+ 地区GG,FB,TK, 欧美源头, 欢迎合作❤️
跨境债务催收/风险代理DataImpulse⚡️纯净住宅代理仅 $1FB企业户海外户,授信户,TK加白户广告位出租
8500万高质量住宅IP,助力各种需求虚拟卡返佣1%,国内持牌机构  
查看: 7436|回复: 9

[软件工具] 一个开源的正文提取程序

[复制链接]

19

主题

290

广告币

532

积分

中级会员

Rank: 3Rank: 3

积分
532

社区QQ达人

发表于 2013-9-28 19:08:26 | 显示全部楼层 |阅读模式
本帖最后由 finder 于 2014-12-28 11:24 编辑 - k9 C6 ]: e, r4 G, }' C: p& @
6 h) q& E  X3 {5 I% N. u
   最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,* U! h4 F8 j  l# ?
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题4 d4 V( V* ]: ?; j
有篇blog对这个介绍的比较详细,我就不在这里赘述了. W3 ]; F, e( `4 D* y$ x

5 S2 b+ P( j  R0 o1 l这里可以看详细的介绍以及DEMO :
  1. http://urlshort.shuaizhu.com/1k2
复制代码
这里你可以输入一个URL进行测试:
  1. http://urlshort.shuaizhu.com/1k3
复制代码
这里你可以直接下载程序安装到本地:
  1. http://urlshort.shuaizhu.com/1k4
复制代码
PS:
' a7 V6 d" _& N% i: R; `6 ?+ L2 P. J, C9 y, x' B, ^- T
2013年09月29日17:47:27 补充
' w) k* m" y5 X9 f0 N* G' B$ \: ]5 w- b8 Y. c
$ ?+ I9 z, P, Z) E( g* |+ I

/ g2 U5 |5 Q. r: I( G* _, A% { 我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
6 S4 \2 Y: I- b2 A0 G
; H2 {+ h- T  j! e/ }$ ~; H3 s
- d5 f. X5 r$ m" ?) i( v0 ^只需要在调用的url中加上  &type=json  即可以json格式返回提取的正文/标题/url !!!
6 k7 z3 G2 a& h9 O' Y. \: |
* F& w! P$ D, ?! p! [3 L" |; V, z9 Q) d; g" j+ d

评分

参与人数 3广告币 +6 收起 理由
JasonLee + 2 很给力!
雷克傻死 + 2 NB!
阴天的下午 + 2 赞一个!

查看全部评分

相关帖子
回复

使用道具 举报

19

主题

290

广告币

532

积分

中级会员

Rank: 3Rank: 3

积分
532

社区QQ达人

 楼主| 发表于 2013-9-28 22:18:29 | 显示全部楼层
感谢 @mj23zyb  帮我编辑URL格式,以前论坛用的少,这个还不太熟,以后我会注意
回复 支持 反对

使用道具 举报

63

主题

418

广告币

635

积分

中级会员

Rank: 3Rank: 3

积分
635

社区QQ达人

发表于 2013-9-28 22:31:06 | 显示全部楼层
不错,好东西,刚试试了下网页版的还可以,不知道工具有无批量转换的功能。
回复 支持 反对

使用道具 举报

19

主题

290

广告币

532

积分

中级会员

Rank: 3Rank: 3

积分
532

社区QQ达人

 楼主| 发表于 2013-9-28 22:35:44 | 显示全部楼层
阴天的下午 发表于 2013-9-28 22:31
) b* K4 ?! `8 @4 r. ~不错,好东西,刚试试了下网页版的还可以,不知道工具有无批量转换的功能。 ...
) g3 ^$ t; s, \3 s- @" ~$ f4 p
这个东西做一个接口非常容易的
% W2 p' [! J% R       $title   = $Data['title'];
; j1 u9 t6 a1 j        $content = $Data['content'];7 s* x. g$ U3 p
        include 'template/reader.html';2 F- A6 s- O- ]  ~
这是index.php的最后的部分,只需要把include所在的一行注释掉,然后加一行3 u2 r0 B: E7 {
        echo json_encode($Data);
& Y7 u0 ]/ N6 ~8 U- [就可以以json格式返回,那么需要批量的时候,直接每次调取就可以了! ~+ H9 Y! d; a' v* K) k3 b, b
如果还不清楚,可以继续问
8 A+ X* H1 l1 e& j) V$ q$ U
回复 支持 反对

使用道具 举报

54

主题

9

广告币

6010

积分

禁止访问

积分
6010
发表于 2013-9-29 07:55:00 | 显示全部楼层
自从用过这个之后,自己用的模板就全修改了一遍
回复 支持 反对

使用道具 举报

53

主题

1232

广告币

1635

积分

高级会员

Rank: 4

积分
1635

社区QQ达人

发表于 2013-9-29 10:32:56 | 显示全部楼层
感谢 真心很不错的 希望楼主以后能继续分享类似的
回复 支持 反对

使用道具 举报

19

主题

290

广告币

532

积分

中级会员

Rank: 3Rank: 3

积分
532

社区QQ达人

 楼主| 发表于 2013-9-29 11:07:47 | 显示全部楼层
阿百川 发表于 2013-9-29 07:55
. F/ W. Q& d9 k( e+ F5 P自从用过这个之后,自己用的模板就全修改了一遍

" I, b1 k0 m* T. z9 O什么意思呢? 为什么要修改模板
回复 支持 反对

使用道具 举报

54

主题

9

广告币

6010

积分

禁止访问

积分
6010
发表于 2013-9-29 11:42:16 | 显示全部楼层
bjzhush 发表于 2013-9-29 11:07 ( P/ p" x3 c- Z( X8 y& u6 e
什么意思呢? 为什么要修改模板

: s, ^& e  `" ?( d& Z防止被这种程序提取内容
回复 支持 反对

使用道具 举报

19

主题

290

广告币

532

积分

中级会员

Rank: 3Rank: 3

积分
532

社区QQ达人

 楼主| 发表于 2013-9-29 11:53:13 | 显示全部楼层
阿百川 发表于 2013-9-29 11:42 ' V) P' h0 C1 e9 y1 q) g4 J
防止被这种程序提取内容
- n3 j$ L" ]. c4 I2 P' W( j
真的要扒你的站,你是防不住的" ]2 `2 I1 d6 G& o2 l. B6 O; k6 n
不怕贼偷,就怕贼惦记,哈哈
回复 支持 反对

使用道具 举报

19

主题

290

广告币

532

积分

中级会员

Rank: 3Rank: 3

积分
532

社区QQ达人

 楼主| 发表于 2013-9-29 17:48:25 | 显示全部楼层
阴天的下午 发表于 2013-9-28 22:31 . P* w( k* F% U" x$ K' ^: s
不错,好东西,刚试试了下网页版的还可以,不知道工具有无批量转换的功能。 ...

7 V$ f* X) l5 `6 i我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
: C/ I1 J" {* l2 D! q4 b& E- I  H2 t
6 A) Q8 c1 G; B; x9 k
只需要在调用的url中加上  &type=json  即可以json格式返回提取的正文/标题/url !!
5 P  S% I7 i' A0 B
7 v) R. k. u6 o8 W9 _今天刚刚发现的  
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2026-4-13 21:38 , Processed in 0.053402 second(s), 18 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表