|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
) V/ f7 D: Y! T) t K- b# x很简单:
$ J) `0 K2 e9 T1.打开amazon.com的robots.txt文件,找到sitemap:+ P& z/ N! u; d7 b. ]; R
http://www.amazon.com/robots.txt
# y2 c# M8 M5 s# B/ `% t- # Sitemap files5 N# n3 d* C; b* F2 R( v2 K
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml+ M% x/ j V0 J/ m, S, t$ Y
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
2 @- R% m/ \' e3 E5 b: E3 g& E) R) J - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
0 u8 P7 C7 m D1 V* l/ u - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz9 ^: {9 _6 Z# c: P
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz2 [7 F" A3 C& S1 o& L
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz, q5 e: c" M3 {' f f6 y
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz, [* e1 ?9 x7 j* P+ T2 c9 j* R' V
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
5 D* g, w" A2 c - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
; y/ }' _6 f" k& x3.下载索引压缩文件后解压。
7 B) l3 t' n9 h4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
, M0 ?% {% z: d5.下载后解压这些sitemap压缩文件。6 T9 c9 n3 B _7 u& N
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。; W6 m, G5 a B
7.没有什么了吧,剩下就由你自己发挥弄吧。, Y4 W$ v. d+ N( W
4 i1 w2 \5 k9 v p
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
% m' S$ q& f. f# e i
. |9 H l2 n$ i& e9 f2 F0 }各位喜欢的赶快顶我一下吧。
6 r( b8 R( {; n. |9 i
6 e8 F5 s4 J# M& G; Y& i5 E1 { |
评分
-
查看全部评分
|