|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。9 X5 a( H0 Y) ?3 W6 n
很简单:
8 C5 ]5 z) @" j6 q9 w s1.打开amazon.com的robots.txt文件,找到sitemap:
9 q( `9 y& R1 y9 g6 r7 [http://www.amazon.com/robots.txt: m' }+ h0 X8 m" l4 Q
- # Sitemap files3 W/ v6 g% f" H: G! P. f
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml
9 }0 `! p, U0 x- y- c: z; F - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
2 }! ]$ D; h9 ^' i% Q6 L0 _ - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
3 t5 }7 K# y' R, T: X/ M - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz% b, R: v0 I: s( g
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
& I6 f) c( S) x+ X - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
0 e7 s2 A. b1 ?; n9 J - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz! a. [* S4 O# {0 W6 q; k9 D7 ?* P; x
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
u$ @0 b, s$ U" \+ r - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
# ?4 @: C+ x) i) m/ i) h3.下载索引压缩文件后解压。( n: P2 N' f. v3 X* V3 H$ N& G$ n
4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
, A" u; M4 x. m5.下载后解压这些sitemap压缩文件。
z2 r9 P. X3 s5 Z$ ^6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。* [0 q- K! x5 q6 k' [, w8 D/ E
7.没有什么了吧,剩下就由你自己发挥弄吧。
2 d( E1 n) b+ N% ], E& O7 x' i2 Y9 v
1 D- S, m6 v; g9 U {感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。: J/ c" A: S' Y# e. C
) D. D6 d) ]) q& ]2 J- {: y
各位喜欢的赶快顶我一下吧。/ K( \% ^4 K7 o* @* b; d
) x, N/ |* s5 R& R+ c, z |
评分
-
查看全部评分
|