|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
8 x3 L1 J! N/ Z很简单:# @) e$ ~4 O" S4 b% I
1.打开amazon.com的robots.txt文件,找到sitemap:' `' K1 ]% ~! u7 _; D
http://www.amazon.com/robots.txt
& K5 ]7 Y! \, f! Q1 Z$ h- # Sitemap files, x$ W* Q! @, j ]: Q9 k$ U b
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml- l4 f* D6 ^: @4 i. q& ^
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
: y7 |* A- Y4 t0 h9 t3 t# k; I - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz9 h1 u/ ~2 N: {) n: Q3 B; {
- Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
& T6 \0 d3 h0 E - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
% K' O8 t& B. B! }( p _5 C% a' B: a; [ - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
8 R$ E5 O( ]2 ~) L8 W - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
$ w5 e1 u; \1 d) m, l9 M5 P - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
6 {8 y. u& G$ k% s - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。; y! P- s5 T' y9 x& X
3.下载索引压缩文件后解压。
( K! P6 Y/ d. Y/ X* L, d4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
+ H3 i% B# K5 J, W' C1 T5.下载后解压这些sitemap压缩文件。; U& O. c1 _5 Q) R* N; i
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。, k# x% W' D) I0 j6 l' |2 b
7.没有什么了吧,剩下就由你自己发挥弄吧。; ~/ \2 a& O* a1 N, _% L$ i+ V
! T% s8 n6 M( o' L X; D感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
/ _3 W- F5 o0 W$ M r2 q8 f. A9 z5 Z3 T2 V5 H
各位喜欢的赶快顶我一下吧。$ W$ W9 _' m% [! a) f+ N5 e
6 U3 c8 Z2 ?. u5 K3 ~* N% ?- T
|
评分
-
查看全部评分
|