|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。1 N) E% k: e7 k: ] R. y
很简单:
- J6 T" J. l& T) U4 V/ k8 M1.打开amazon.com的robots.txt文件,找到sitemap:
* U+ L( c8 o5 c, Z2 {/ Qhttp://www.amazon.com/robots.txt
4 [& l7 K; I. e- # Sitemap files, C/ ? G6 w; U7 r( ]
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml
& e, r" }# G3 i8 D% B' x' `. w7 x( D - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
3 Z$ \, c5 P/ \% I% h; k - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz" A) p- L' F0 t6 z( s& `* t
- Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
4 m4 ^& m" Y% e. H) A: m$ G# ]6 S - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
, o ^* s. i' T* s1 n: d - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
R4 F3 P" s7 H2 v, _ - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz8 u4 J5 g. G" R: [
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
! S& }* o* P3 |* C' A! I: g - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
* |+ }9 F2 X; N' B0 l$ W3.下载索引压缩文件后解压。
/ O; b. X, U# I/ H0 Y5 \) A4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
/ Y* k/ {3 _* }/ |5.下载后解压这些sitemap压缩文件。
, c( [0 M6 P7 d4 _- Q9 b6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
* Y; e& k) ^1 J3 n4 `( Y$ {7.没有什么了吧,剩下就由你自己发挥弄吧。2 f, o8 k( K$ T8 T& _+ \5 i
5 r4 U! ]5 }9 q7 `& |6 \" c感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。% u. v0 U2 s# y( W/ D
* n7 }& T; z6 [% V# C
各位喜欢的赶快顶我一下吧。# S8 l! R( {$ Q$ i
' v' U- r1 @, X* I$ } |
评分
-
查看全部评分
|