|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。4 w$ `6 u+ w) a$ x6 E: [" w" I
很简单:2 n9 j5 F# U& N* J% l# v& P9 b
1.打开amazon.com的robots.txt文件,找到sitemap:3 B3 G! U: x+ t$ H+ Q4 ~
http://www.amazon.com/robots.txt* A$ {% q6 N: d
- # Sitemap files% v9 |% \. ^* @5 {! J- G7 O
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml0 j) l M' X; c; n, [
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml# H- d+ r, N4 J4 u
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz) o% a1 X& r* {3 z
- Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz. q7 B6 [9 m* j' l# p; a |5 ?: W! ^
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz3 T) z0 b, ~- J6 X$ s O
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
% j( H# X5 N5 b1 L - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
' {! q1 t2 ?5 E2 G" p) k. V - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz) ?+ ^6 Q0 k5 }, Z
- Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。" I( @0 n: T0 F8 C2 V% v8 g
3.下载索引压缩文件后解压。
; D6 o6 g8 ?6 t. F/ K4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。! \1 W: d+ R' h w' e
5.下载后解压这些sitemap压缩文件。
' s0 u& X2 }$ d6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
0 `; \7 k+ L# p/ N- Q+ r7.没有什么了吧,剩下就由你自己发挥弄吧。
1 p' {6 T' l @0 e' x* U _
+ o$ _, y4 |% K/ v! J. x, i感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。& V m) k8 y# ` q4 L9 U
- M% u- z q0 {
各位喜欢的赶快顶我一下吧。. O/ g+ `& M2 W* z H) G9 U
. u6 A5 G% T1 V$ |" a% m& Q9 G! |3 ~ |
评分
-
查看全部评分
|