本帖最后由 gresh 于 2022-5-8 07:41 编辑 . n$ ?! V5 a. T- h' b' I9 l, O G v. |$ r8 K7 U0 ` Q+ A
请教一下,类似这种图文混排的文章,在采集的时候图如何处理才能保证图片和文字能够像原文一样正常显示?我原来是用火车头爬,截取正文头尾,然后用替换的方式处理图片链接及标签属性。 % E y: s! \$ E, }现在用python采集,按照火车头的方式来处理就非常麻烦,需要代码量非常大,请问你是如何处理此类问题的?, Z5 u/ ?- f, Y/ G