|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
) Z% s* y- w6 a! H- g很简单:
5 `2 S0 C! ]2 f8 j6 P5 q1.打开amazon.com的robots.txt文件,找到sitemap:
# O2 m. j, x! r3 ^$ mhttp://www.amazon.com/robots.txt
( ]. G2 L9 Q) X* y' m9 w9 V- # Sitemap files( j& P0 b- x7 M- K" G
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml" w/ L( t" E& s+ P7 B3 B
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml) w) G$ G2 |6 e$ H; E/ o
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
" `4 y1 m- K) T( }8 z - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
* R6 l. P7 j; e/ J - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz% L8 o- {, t" n& o' S: @
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz8 m1 H, { i0 P* \/ F. ^/ O
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz. F3 v# T* k+ c) v0 p
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz1 f [7 h6 {. s+ O5 \0 F
- Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
# o7 Z. M: d9 I3.下载索引压缩文件后解压。
+ w! i9 L6 {1 x- I0 M0 m% Z) R; |3 ]4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。% L d/ i2 M" l3 G* \ @* G
5.下载后解压这些sitemap压缩文件。
6 x8 j" j9 Z3 E: `, t3 S6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
9 O0 p% O4 S$ K8 D! c7.没有什么了吧,剩下就由你自己发挥弄吧。
) I' p9 i' N. C/ |2 s+ _) \. o! ]2 q& n2 Y
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。! H0 `( j/ v6 D9 A T
9 Q* W! l ?! w2 J m
各位喜欢的赶快顶我一下吧。. q2 m6 a- d9 Z$ ]6 x8 n
- Y$ k7 F8 g3 N# y9 b a |
评分
-
查看全部评分
|