|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
5 K0 _% `3 `: H很简单:
6 X6 G8 @3 ?' y8 G# I1.打开amazon.com的robots.txt文件,找到sitemap:9 S, f, U3 W9 h# X
http://www.amazon.com/robots.txt
% I# @1 c/ h3 D1 G# x1 B% j% ~- # Sitemap files
# M" ~ ]4 o+ X9 Z3 z& P4 d0 c$ p7 @6 N - Sitemap: http://www.amazon.com/sitemap-manual-index.xml* H0 E: j, G4 s. q# }6 j* S
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
* A! r% ~9 a- r; d: i3 M6 f - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
" A, Z: U: K* m% ^ - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz+ r& S s, ? m0 T
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz! r, d: G" X0 s" F
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
" E* N" z) N, h; A( e' T4 ?- y" ~" F - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz% ^' X7 C% @6 b$ U9 G
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
- m: l7 ^: M# a) Z - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。/ l7 H; _6 R. u3 x. v& G5 g/ g4 k
3.下载索引压缩文件后解压。+ o7 L2 c: U$ P9 j$ i9 e
4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
9 c! u. k5 n+ E9 I8 }5.下载后解压这些sitemap压缩文件。
8 D$ s; ~" d, g* m' c4 w* E. b6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
2 |' f: N" s c$ g$ ?+ a7.没有什么了吧,剩下就由你自己发挥弄吧。
) d# G5 J4 K+ b" K& B7 g# e3 g+ F5 I4 l6 y# N$ Y
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。5 V) p: E: ~( ]# T, q3 S+ n' U
: x# ^+ @6 k, q& b0 q* Z
各位喜欢的赶快顶我一下吧。+ K5 i/ R- v: M9 O2 L& x
6 M; R2 T4 c9 g
|
评分
-
查看全部评分
|