|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。& @7 v0 |; p; \+ d0 i3 [- O
很简单:
- Y% R) _0 G0 j1.打开amazon.com的robots.txt文件,找到sitemap:
* f$ Q( O4 ] ~2 P& k7 \http://www.amazon.com/robots.txt- Q* r+ Q& }4 w" Y# J
- # Sitemap files* p9 }/ u8 P& r: G! @9 D& z
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml
+ H) P: s5 h3 A' [4 R - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
2 e; S) M- V7 l& j$ A - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz0 p+ c1 H/ s. }: q S0 t, c, l/ a
- Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz/ S9 j( Y* d1 O
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz+ f# ~ F; P) F2 C% S
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz5 s4 ^7 J8 A3 }$ u
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz. {6 }. J! o5 o: @
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
2 k5 z* V9 d& H: E: Q - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
1 B8 Z) P9 L$ g0 }: D" B: c& u/ ]3.下载索引压缩文件后解压。" d. {, x. a9 a' v$ w w2 e. D: y
4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
/ b; A. \) S- B2 w! b X$ P5.下载后解压这些sitemap压缩文件。4 u* D. N; i$ f, `/ r, W5 N
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
, r) Y- |+ k9 E+ s" ^, G0 w7.没有什么了吧,剩下就由你自己发挥弄吧。
0 }/ h5 ]& L" B$ p! E
, _ V# G$ H' O+ Y/ n# c9 \9 J! ^6 H感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
. G( S! ] X) N# K- O ^( v# W& p) |. b* o! s: Q1 C$ |
各位喜欢的赶快顶我一下吧。3 R w, s& W4 u8 S; @2 e
) F: X& m/ z) v6 s0 O3 r" x# l( [ |
评分
-
查看全部评分
|