dengwen168 发表于 2018-9-26 09:11:56

如何给采集的文章分段?

采集的文章,调用翻译接口,然后再发布,

现在发布后一篇文章全部变成一段了,严重影响阅读体验,

请问如何给它分段呢?随机插入换行符?这样体验也不好啊?

遍历文章查找句号?然后插入换行符?好像有点浪费时间啊,


大家有好的方法吗?谢谢,

我用的是python.


koko 发表于 2018-9-26 09:33:02

采集前都有分段的吧,干嘛把分段符号去掉

三分醉 发表于 2018-9-26 10:27:23

同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那可以试着把换行符替换成&&&这种特殊符号,后期发布的时候再replace成换行符。

dengwen168 发表于 2018-9-27 13:35:27

三分醉 发表于 2018-9-26 10:27
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那 ...


我的代码中是没有去掉换行符的。。

可是我用通过wordpress_xmlrpc向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格式给弄没了。

我手工在wordpress后台发布的话,换行符都在,不过调用翻译接口后,还是在原来中文换行的地方换行,有些地方怪怪的。。





dengwen168 发表于 2018-9-27 13:36:17

三分醉 发表于 2018-9-26 10:27
同意楼上,采集的时候为什么要去掉换行,如果不是采集的时候弄没的,那就是翻译的时候,如果是翻译的话,那 ...


我的代码中是没有去掉换行符的。。

可是我用通过wordpress_xmlrpc向 wordpress发布文章,发布后就没有分段了。我不知是在wordpress_xmlrpc 发布的时候,还是翻译的时候,这些格

我手工在wordpress后台发布的话,换行符都在,不过调用翻译接口后,还是在原来中文换行的地方换行,有些地方怪怪的。。





wjcj 发表于 2018-9-27 16:43:03

本帖最后由 wjcj 于 2018-9-27 16:44 编辑

你翻译的时候是不是把所有 html都扔进去翻译啊,我只提取html标签内的东西来翻译,翻译完 替换到原位置就行了,beautifulsoup中一句话就可以替换:)

dengwen168 发表于 2018-9-27 21:20:51

wjcj 发表于 2018-9-27 16:43
你翻译的时候是不是把所有 html都扔进去翻译啊,我只提取html标签内的东西来翻译,翻译完 替换到原位置就行 ...

还有这种操作啊?

请问bs里面这一句怎么写啊?

wjcj 发表于 2018-9-27 23:21:06

本帖最后由 wjcj 于 2018-9-27 23:23 编辑

dengwen168 发表于 2018-9-27 21:20
还有这种操作啊?

请问bs里面这一句怎么写啊?
for string in soup1.find_all(text=True):
            text=string.string.strip()
            if text:
            提取html标签中文本..略。。。
            if check_match(filters,string2)==1: #特定不翻译内容
                   print "发现不翻译内容"
                   print string2
                   string.replace_with('')
            else:
                   string.replace_with(translation['translatedText'])

最后一句话直接替换,当然前面还有很多if 需要考虑的 ,根据你自己实际需求

dengwen168 发表于 2018-9-28 08:23:10

wjcj 发表于 2018-9-27 23:21
for string in soup1.find_all(text=True):
            text=string.string.strip()
            if text ...

多谢。:handshake
页: [1]
查看完整版本: 如何给采集的文章分段?