|
|
7 C6 ]) T, v- r; b3 V- g5 d! Z2 ~% ]; h/ Q+ s, A o
网站链接都是完整URL,没有相对路径的URL,为什么爬虫会这样组装URL?: m* ?( k# Z3 N6 {+ t) l
包括分页页码链接也是完整URL。
# [. ]* k- f0 o4 {" R" m, t! g
) c( Z) H3 O, I4 I5 S$ X. _之前的链接是这样
' N. R7 S% R5 B# O首页https://example.com , C! j0 ^+ B# F, k' N6 [ y" {
国际化 https://example.com/zh-cn
8 e1 M: i' O: h z" F栏目https://example.com/food - _( H B. W! ]/ D/ f4 D4 i! u0 P
文章https://example.com/food/abc.html
" t4 A5 t }: a8 x& k8 @& \: P6 u* r+ e$ d8 R8 ?1 [2 E+ s& u4 O
所有的a标签herf都是完整URL不存在相对URL,默认情况下国际化为zh-cn也就是url默认情况下不带zh-cn,用户选择语言下拉框后页面定向到带国际化的url.) ]7 {- ?1 R1 U' b& t
; h' q- k' Q% I6 W+ a0 A/ |6 U9 G# X+ o发现日志记录了非常多的404 https://example.com/zh-cn/zh-mo/food/abc.html,问题是中间多了个国际化目录。
3 w% B9 T% f+ V后改成 3 |) H G6 S, f& `" `8 [
首页https://example.com/
4 S2 ]* h! L0 |8 K5 ]5 F, o' l* P国际化https://example.com/zh-cn/* P/ x% o6 E" J7 P; N1 R$ f
栏目改成https://example.com/food/ https://example.com/zh-cn/food/) R: t: {5 B9 X% K, M' j0 k' v7 t3 q8 M0 M
文章https://example.com/food/abc.html https://example.com/zh-cn/food/abc.html
! M) @" o L" i& R% Y6 l4 G* m2 h# G: d( e) N1 ], {' F1 V/ I4 s/ _$ ?
问题依旧,大量404是否影响SEO?
$ y+ R& z4 V) B& `* J |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|