|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。0 ? L4 h7 A! I3 G ~
很简单:
1 ^" k* \8 [1 |" m* r! R1.打开amazon.com的robots.txt文件,找到sitemap:
: Y. X# t& C7 v6 h) U9 a$ t9 Hhttp://www.amazon.com/robots.txt$ K$ O2 ^; C0 ^
- # Sitemap files0 ~" }2 q, |' F+ i0 s' P
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml2 N' D8 |1 G6 n2 |5 Y: b, f7 _
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
( z9 b0 b1 b- y! A - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
; v0 o4 D2 z- T A, e - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
. Z6 W* J- E7 J" ?2 h Z5 b - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz6 L+ ?( F$ ]8 B! v1 C. ~* ]6 _
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
$ W! s- I) k0 e - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
' z( e: f, T( T- D$ |& R4 c - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
# P0 @; v- w" z7 f6 A) s - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
' T2 v: I; Q8 E7 d3.下载索引压缩文件后解压。
" j! g% Z' g m% |; g4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
$ I# w, ?4 b& e) U! Y: F' v5.下载后解压这些sitemap压缩文件。
F/ ^% ?* G. v% l: f6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
3 a' U! ~: l5 H" O5 S7.没有什么了吧,剩下就由你自己发挥弄吧。7 `7 s( r! B' h: I9 ?( ^
" g' {; a# o! ^: }* p1 f# D感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
B" u9 J7 v+ H, j
% D' ?, t! U1 c$ C5 P. f8 U各位喜欢的赶快顶我一下吧。, d+ {# b6 W! Y
8 r9 m3 z. q2 |/ E$ E7 \9 Y$ M
|
评分
-
查看全部评分
|