AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

 谷歌+Bing+TT+MSN官方代理 
⚡️按条S5代理⚡️静态⚡️独享⚡️5G⚡️最干净<Wifi住宅+5G移动>IP代理泰国仓储,本土仓发货2-3元/单
指纹浏览器,就用AdsPower谷歌/FB/Bing/Yahoo代理商开户7200W全球动态不重复住宅IP代理全球优质流量,选TrafficStars
出售Facebook,友缘号,FB广告号,insFB/TT/KW 加白开户ADPLEXITY + ADVERTCN比Adplexity还好用的Spy工具
广
FB/Google/TK海外多媒体极速下户
BINOM TRACKER 60% OFF!MediaGo+Taboola+Ob开户百度国际MediaGo⚡️让产品狂奔全球百度国际,高点击转化,快速放量
百度国际MediaGo,独家原生流量虚拟信用卡+独立站收款行业首创新型指纹Cloak, 谷歌奇效!Kookeey⚡️100%独享⚡️原生住宅IP
⚡IPFoxy住宅代理全场88折⚡全球虚拟卡, 支持U充值免账户投放 FB 广告(送项目)2024做什么 - Media buy 项目库
免费黑五教程(持续更新、欢迎交流)Facebook 批量上广告Bridgeway - 联盟营销网络IPCola 全新住宅代理 ⚡️ 免费试用
各种主页、账单户、BM户(优势)⚡️个人户,bm户不限额,账单户Adsterra 的CPA/CPM/CPC 网站流量在线注册美国/英国/香港等海外公司
EU KETO/CBD - JumbleberryFB二三解1元/个9Proxy ⚡️ $0.04/IP, 无限带宽 cloak斗篷/ss/nutra/cpa/Dating
E.PN 虚拟卡Asocks代理服务器$3/GB高薪诚求实力FB投手(独立站)《全新虚拟卡+全球收付款》
广告位出租全球低价纯净住宅/移动IP-免费试用广告代投, 东南亚物流, 虚拟信用卡VMLogin指纹浏览器+多账号防关联
查看: 7315|回复: 8

[采集] 如何给采集的文章分段?

[复制链接]

50

主题

347

广告币

700

积分

中级会员

Rank: 3Rank: 3

积分
700

社区QQ达人

发表于 2018-9-26 09:11:56 | 显示全部楼层 |阅读模式
adsterra
采集的文章,调用翻译接口,然后再发布,

现在发布后一篇文章全部变成一段了,严重影响阅读体验,

请问如何给它分段呢?随机插入换行符?这样体验也不好啊?

遍历文章查找句号?然后插入换行符?好像有点浪费时间啊,


大家有好的方法吗?谢谢,

我用的是python.


相关帖子
回复

使用道具 举报

61

主题

843

广告币

1326

积分

高级会员

Rank: 4

积分
1326

社区QQ达人

发表于 2018-9-26 09:33:02 | 显示全部楼层
采集前都有分段的吧,干嘛把分段符号去掉
回复 支持 反对

使用道具 举报

16

主题

844

广告币

862

积分

中级会员

Rank: 3Rank: 3

积分
862

社区QQ达人

QQ
发表于 2018-9-26 10:27:23 | 显示全部楼层
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那可以试着把换行符替换成&&&这种特殊符号,后期发布的时候再replace成换行符。

点评

我的代码中是没有去掉换行符的。。 可是我用通过wordpress_xmlrpc 向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格 我手工在wordpress后台发布的话  详情 回复 发表于 2018-9-27 13:36
我的代码中是没有去掉换行符的。。 可是我用通过wordpress_xmlrpc 向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格式给弄没了。 我手工在wordpress  详情 回复 发表于 2018-9-27 13:35
个人博客:SanFenZui.com 公众号:三分醉出海
回复 支持 反对

使用道具 举报

50

主题

347

广告币

700

积分

中级会员

Rank: 3Rank: 3

积分
700

社区QQ达人

 楼主| 发表于 2018-9-27 13:35:27 | 显示全部楼层
三分醉 发表于 2018-9-26 10:27
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那 ...


我的代码中是没有去掉换行符的。。

可是我用通过wordpress_xmlrpc  向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格式给弄没了。

我手工在wordpress后台发布的话,换行符都在,不过调用翻译接口后,还是在原来中文换行的地方换行,有些地方怪怪的。。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

50

主题

347

广告币

700

积分

中级会员

Rank: 3Rank: 3

积分
700

社区QQ达人

 楼主| 发表于 2018-9-27 13:36:17 | 显示全部楼层
三分醉 发表于 2018-9-26 10:27
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那 ...


我的代码中是没有去掉换行符的。。

可是我用通过wordpress_xmlrpc  向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格

我手工在wordpress后台发布的话,换行符都在,不过调用翻译接口后,还是在原来中文换行的地方换行,有些地方怪怪的。。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

2

主题

169

广告币

424

积分

中级会员

Rank: 3Rank: 3

积分
424
发表于 2018-9-27 16:43:03 | 显示全部楼层
本帖最后由 wjcj 于 2018-9-27 16:44 编辑

你翻译的时候是不是把所有 html都扔进去翻译啊,我只提取html标签内的东西来翻译,翻译完 替换到原位置就行了,beautifulsoup中一句话就可以替换

点评

还有这种操作啊? 请问bs里面这一句怎么写啊?  详情 回复 发表于 2018-9-27 21:20
回复 支持 反对

使用道具 举报

50

主题

347

广告币

700

积分

中级会员

Rank: 3Rank: 3

积分
700

社区QQ达人

 楼主| 发表于 2018-9-27 21:20:51 | 显示全部楼层
wjcj 发表于 2018-9-27 16:43
你翻译的时候是不是把所有 html都扔进去翻译啊,我只提取html标签内的东西来翻译,翻译完 替换到原位置就行 ...

还有这种操作啊?

请问bs里面这一句怎么写啊?

点评

for string in soup1.find_all(text=True): text=string.string.strip() if text: 提取html标签中文本.. if check_match(filters,string2)==1: #特定不翻译内  详情 回复 发表于 2018-9-27 23:21
回复 支持 反对

使用道具 举报

2

主题

169

广告币

424

积分

中级会员

Rank: 3Rank: 3

积分
424
发表于 2018-9-27 23:21:06 | 显示全部楼层
本帖最后由 wjcj 于 2018-9-27 23:23 编辑
dengwen168 发表于 2018-9-27 21:20
还有这种操作啊?

请问bs里面这一句怎么写啊?

for string in soup1.find_all(text=True):
            text=string.string.strip()
            if text:
              提取html标签中文本..略。。。
              if check_match(filters,string2)==1: #特定不翻译内容
                   print "发现不翻译内容"
                   print string2
                   string.replace_with('')
              else:
                   string.replace_with(translation['translatedText'])

最后一句话直接替换,当然前面还有很多if 需要考虑的 ,根据你自己实际需求

点评

多谢。  详情 回复 发表于 2018-9-28 08:23
回复 支持 反对

使用道具 举报

50

主题

347

广告币

700

积分

中级会员

Rank: 3Rank: 3

积分
700

社区QQ达人

 楼主| 发表于 2018-9-28 08:23:10 | 显示全部楼层
wjcj 发表于 2018-9-27 23:21
for string in soup1.find_all(text=True):
            text=string.string.strip()
            if text ...

多谢。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2024-4-20 06:08 , Processed in 0.053315 second(s), 14 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表