|
: b5 K! J# ^! g- t9 g& U% d
. g* O; c! R9 Q$ S5 E& F8 f6 I/ {' ^网站链接都是完整URL,没有相对路径的URL,为什么爬虫会这样组装URL?
* e6 s$ N, u# g* v( `7 ^包括分页页码链接也是完整URL。
0 D. e5 r8 z; d: k8 H/ l- s4 S$ g5 b1 H7 e$ Y
之前的链接是这样
# W$ ~$ y7 @! A7 E8 q0 d# f2 R& t首页https://example.com . P6 L1 L/ s3 v
国际化 https://example.com/zh-cn
2 v) Q3 u6 s; H0 K# D" G* Z( l2 @栏目https://example.com/food
, C0 C) z, G, ]! k文章https://example.com/food/abc.html
& o( u) m' S+ M/ i* G. |0 v; s4 [& j% q( c- [9 W% c
所有的a标签herf都是完整URL不存在相对URL,默认情况下国际化为zh-cn也就是url默认情况下不带zh-cn,用户选择语言下拉框后页面定向到带国际化的url.
- G$ m. p/ h% e6 |; ~: k7 x r! R. x( c; H
发现日志记录了非常多的404 https://example.com/zh-cn/zh-mo/food/abc.html,问题是中间多了个国际化目录。' I5 g- _. d$ u0 P7 r, G
后改成
: M6 Y$ C/ j, V1 X$ F4 V首页https://example.com/ ( M& I& g" q9 w4 B, S+ f, S7 b
国际化https://example.com/zh-cn/
0 P! o u, x$ l3 V栏目改成https://example.com/food/ https://example.com/zh-cn/food/
6 a: ]3 {; _7 H# D. N" e文章https://example.com/food/abc.html https://example.com/zh-cn/food/abc.html* n, P- r4 V2 E! e! F9 y
6 h k: M# i$ o( b/ c4 _# i+ n: v+ c/ b
问题依旧,大量404是否影响SEO?' n# L% {5 k1 e. y( _3 c6 K0 X
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|