|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。% D4 p& S* T9 F% m; [
很简单:
4 k/ d- g4 c; X5 q+ ]5 X7 I1.打开amazon.com的robots.txt文件,找到sitemap:
3 G4 p, F. t1 p lhttp://www.amazon.com/robots.txt: \: N# F/ s. O" ^9 R
- # Sitemap files
1 j S; f( j% I9 p4 c; E/ G9 H% I - Sitemap: http://www.amazon.com/sitemap-manual-index.xml3 X& ]3 h l7 X: |" v- ]% b
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
6 p9 Q2 A, H6 I8 v5 t g& X - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
$ E. _/ a7 l3 N1 k, f \* C - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz+ I( U* V8 ]1 C* l0 [5 {
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
# u, d) z. t7 c0 G - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
- A8 t+ `4 w3 F6 ?4 ` - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
1 p5 z8 J* \$ L' w* w8 a2 S - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz7 O" X8 z$ W5 E0 w
- Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。8 T1 }, h' n3 ]9 i, C; q) e
3.下载索引压缩文件后解压。
* M8 _0 n/ m0 `, J' L& R X4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。4 T1 v$ ]+ B. b! ?2 Z& ^
5.下载后解压这些sitemap压缩文件。
- H3 |0 u3 h% t6 H4 B) x7 q6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。- U+ x! l0 E( i1 s3 K. V
7.没有什么了吧,剩下就由你自己发挥弄吧。+ E9 J& b: O3 U N6 u& D& V
1 m6 U0 W5 M+ Y* `/ J, d$ u3 K t7 Y+ m感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。) _# B, i5 ]+ c e2 A" x
/ p& a4 i8 l7 u C7 H各位喜欢的赶快顶我一下吧。, m% Z1 }9 w2 F) ~1 j
- z) V. ?, U5 g9 c6 R+ j
|
评分
-
查看全部评分
|