|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
- ?- `. S1 K4 g) X m( Y很简单:9 V2 h" _+ G# \ S. Y. G
1.打开amazon.com的robots.txt文件,找到sitemap:, p0 Z4 Q# E# Z( \' Y
http://www.amazon.com/robots.txt
: \2 P& h3 G( I/ n3 S- # Sitemap files
; w2 G$ P: ]7 v0 ]9 n - Sitemap: http://www.amazon.com/sitemap-manual-index.xml
: B5 S1 M I- ~8 M6 K- I - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
% W3 ? { z) G8 Y8 ~# N - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
9 Y$ r0 h! U% T# y7 {4 ? - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
( Q z3 \1 Y; F7 y" \9 r - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
f; h# e) e/ Q; H: S$ f8 ]5 r - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz! {5 [# V. T1 o6 {: x1 b# d
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz5 N/ U7 L* ?" }/ N% e; C% M
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
# C( l4 `, T$ \& O% e9 \ - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
% X) r" z: G+ _2 p" N" P0 x3.下载索引压缩文件后解压。8 X u! Y3 c2 N# H
4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。" F( R' L+ U! d$ ]% W2 Y7 W
5.下载后解压这些sitemap压缩文件。: e6 m! v2 X8 i- Q/ j" [1 T
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
# |% t0 _/ T7 l3 r3 c" x7.没有什么了吧,剩下就由你自己发挥弄吧。( v; s) i% W, K8 W. m5 z0 k0 c
3 h! c! M5 E! a* M感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。! f* }' z$ d* N, `
4 |" w! {1 d% x# R$ y' V各位喜欢的赶快顶我一下吧。$ \$ Q1 h% W, N+ o( H, ~! K
! s. w/ m9 A2 Y" B9 ?' M# | |
评分
-
查看全部评分
|