|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。; I) d$ }) o4 n- B$ `
很简单:& C+ Z" k; d8 _
1.打开amazon.com的robots.txt文件,找到sitemap:1 r! u- \2 e1 E( q, ^
http://www.amazon.com/robots.txt V. D3 @; j- M6 ~: n
- # Sitemap files
5 K3 R8 R4 N, b. i6 O' U - Sitemap: http://www.amazon.com/sitemap-manual-index.xml
3 l- z4 x0 N: L2 k8 L - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml x B% y [/ u0 A, I6 D/ k {
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
% M5 D! d' L4 P# d - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz5 i s, S% E: M+ f7 q$ q
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
; _" L% U) U" J - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz8 h0 [- L5 W t
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz- K( H# `3 C7 O- b
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
) x( k w% U3 O: a- B - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
. [, o) Z! c9 x; p" b* K3.下载索引压缩文件后解压。
! B' ]! J1 ^( Q4 {0 F) ?$ c- G4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
D) H! `8 X6 P+ _2 z, w0 g8 w5.下载后解压这些sitemap压缩文件。
. L9 i' g/ i, p6 m7 i; Y s6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
5 }; [/ c9 F0 f; O. c7.没有什么了吧,剩下就由你自己发挥弄吧。
! b: G2 R8 A Y5 r5 f! G4 U( K2 P3 p
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。3 _- k7 h/ U: s1 E9 o0 H4 O
) z. Y/ O9 v k' [/ _2 A各位喜欢的赶快顶我一下吧。
! z+ k8 \9 ]( j0 r1 _
. D. d( p8 g; a( J |
评分
-
查看全部评分
|