|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
+ w$ V5 L+ w9 l很简单:, V# h: d2 x5 C
1.打开amazon.com的robots.txt文件,找到sitemap:5 G! d2 z( ?* c9 W; @7 I
http://www.amazon.com/robots.txt# h8 t! @0 X& v/ q
- # Sitemap files
2 G. y( K4 u6 H. j7 k2 k, W6 L6 o4 O - Sitemap: http://www.amazon.com/sitemap-manual-index.xml
3 R( q* m2 U- a4 J& y* E - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml' v& y' J7 S( Y+ L# r" ~
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz# `. l) E5 o: u
- Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz! E2 x! J2 m7 E) r
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
8 D% U/ g0 e+ m - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
% \- v2 `- ?) h1 z9 g8 D) f3 \. M - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
: B2 S" j, ^# n0 M( S - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
- w& @' ]" U+ O3 F - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。5 T$ r4 Q# L6 K @+ q1 C. N
3.下载索引压缩文件后解压。
7 r/ W$ [7 U" u+ V4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
/ K2 u5 b6 B0 k$ S5.下载后解压这些sitemap压缩文件。
, w! b, W9 e$ v& m6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
. ^4 o$ C$ b- G* C3 c7.没有什么了吧,剩下就由你自己发挥弄吧。) x: }+ }% ?8 F2 A+ y. `# Q) h9 K
2 W. ^9 ]& l! R感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
6 {, r! F/ L( {0 V/ G4 F- B3 D3 G0 E- o! [3 W/ L/ F. j2 f
各位喜欢的赶快顶我一下吧。 S$ u0 O6 G2 g4 ^
' ~4 e( Q2 V* \8 n8 x" I |
评分
-
查看全部评分
|