|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。( U5 |/ q' d5 `6 Y+ p5 W
很简单:& x8 x+ ?$ ~8 d7 A! x2 H
1.打开amazon.com的robots.txt文件,找到sitemap:) y8 h1 J* G" m6 F( R
http://www.amazon.com/robots.txt5 U! e* y( G8 W! l* U/ H" r
- # Sitemap files" u- _9 `6 d' D; c4 X3 ^5 g
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml
% @- n$ o+ @$ j. j/ u+ W0 E" _ - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
8 p/ w! H/ d( |$ d - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
. m2 q$ N, [3 G$ v j1 e - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz# d8 J2 J- J3 W9 c& q
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz: |5 V- E2 K. T$ y
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz: V. `) A7 A" g# E( X: X! E: u
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz$ D" I, k6 f1 l; U; G
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
8 q$ w: e5 h) c - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。. J/ h% Y c% P& }# p
3.下载索引压缩文件后解压。* _ m/ B% V& |9 v- k# N" G+ m& i
4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。0 ~0 K; m: u# E9 f V# L. [
5.下载后解压这些sitemap压缩文件。- i, }$ [) R: b4 ?% n/ J* \
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
/ g1 p, k3 V- A, C" k: u9 F/ I7.没有什么了吧,剩下就由你自己发挥弄吧。: C: m% p& B4 f$ {2 \$ q
# b0 X0 e' H5 f8 ]' ]! C
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。; ?& W- r1 m- z( q0 ^; G8 R% X
) l/ I3 \1 H3 f. n各位喜欢的赶快顶我一下吧。
' }% j& J& y7 e- w7 U. n$ ?
4 J# q8 r, ~( R) p; \8 i' a |
评分
-
查看全部评分
|