|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。, Z3 Z+ U5 r* |3 \3 `, b: J* \0 j3 P
很简单:
9 X ]8 l9 R! B0 ]2 v# t% D1.打开amazon.com的robots.txt文件,找到sitemap:
" r3 l/ k+ V' ^0 w$ U2 ohttp://www.amazon.com/robots.txt; S' Z* w( C- j: {/ u$ ]: P
- # Sitemap files8 T. b# v6 n* H1 d: x9 L/ N9 x: W( S
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml
; H3 z' H- V& q2 V: [ q. u& C - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml) J: I& h' R O: ?. D8 E& M E( {
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz- b2 k8 P( ~* T: H4 g
- Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz# Y# b# L: R7 i: E5 F0 @: s2 H
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
9 Y+ Y" Y8 H3 ?1 m) w - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz% k1 J& ]5 L2 v2 D7 E1 q
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
6 ]% m6 L( N. ^) S - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
6 m$ X# K* L8 M3 E* i7 P, L9 j - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。3 K! b; }3 o! x! ?3 I
3.下载索引压缩文件后解压。
7 [+ ^, k3 }; P2 ]4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
5 o/ [4 L7 d" q) B1 E7 v& `5.下载后解压这些sitemap压缩文件。
+ \0 @3 y" }& k6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
$ o+ a; ?/ w, V7.没有什么了吧,剩下就由你自己发挥弄吧。3 Z. L @7 E, V( q6 L. P7 X
2 D, C7 G4 F8 p感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
5 \$ @( G) s0 e4 O- k' F# m7 N# M4 R( G. Q3 y
各位喜欢的赶快顶我一下吧。
6 `, m' f) d2 I* O$ j% D, n! @. ?: p; G7 {5 N( F# {2 x2 }
|
评分
-
查看全部评分
|