|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。' N& F. [, `) z; p: u
很简单:# ?% F& ?! S! e& q
1.打开amazon.com的robots.txt文件,找到sitemap:; Z" W- [ w. j6 B; e8 F( u. d' T* h; G
http://www.amazon.com/robots.txt
! d' ^ B% i8 Q( H4 t- # Sitemap files
. `4 F" c0 L# c3 [8 P - Sitemap: http://www.amazon.com/sitemap-manual-index.xml
8 p6 F: z8 Y! g- b3 [% |- b/ Q - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml* B2 n; m# d8 i+ f3 k
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz1 `* x! s3 b' k" [# O% T5 `
- Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
1 {# H6 N% a* L/ ^7 [ - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz) U0 y# [- a6 R6 X1 J, `% C3 s
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz6 q, w3 y" j9 W
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz: r: h2 c) h% ~( U7 \- X2 _8 U
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
& N7 s0 ~; S$ Q9 p - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。4 K8 w: m5 p! B# ^0 [
3.下载索引压缩文件后解压。
! d* _- | X; s+ K4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
# x- P; U! o" q' o$ P5.下载后解压这些sitemap压缩文件。7 }6 a9 y$ K5 U
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。, k9 N: Q* s+ R2 s
7.没有什么了吧,剩下就由你自己发挥弄吧。
" Y" X$ c$ l- I* I. V0 ~, b/ ~
! S; r2 @) @2 A/ }感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
( N8 o4 o& A: g7 l9 t' Y& [$ h- p% }3 C
各位喜欢的赶快顶我一下吧。
1 o0 O4 q7 y# |2 u% I7 S
4 q6 R9 C2 R0 v+ b6 N6 x |
评分
-
查看全部评分
|