|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
2 B {* j9 s5 D( F很简单:9 S4 L, `) K& M
1.打开amazon.com的robots.txt文件,找到sitemap:7 Q" T/ m6 d" t" P( G
http://www.amazon.com/robots.txt4 j2 E! D+ s, i0 U" r$ k" R, F
- # Sitemap files
2 e! G4 I1 u5 a; x( _, _3 ?9 ?7 m - Sitemap: http://www.amazon.com/sitemap-manual-index.xml/ m) ~" \) o6 p! p
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml: K0 x+ e) N2 T: g4 j2 d8 c5 d5 F
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
: M$ i+ W# U: O% Z/ T7 V4 E y6 K - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
4 @0 W; p1 u! i/ r. `" Z - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz" i+ \* }' }4 G8 @. u/ F
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
: n$ S: U& m7 b9 ~7 \ - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz, m. W2 [1 p$ E' }# @
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
: L( _) J$ r0 }/ b; Z# j - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
4 V* A- t& \$ K/ \) J0 |$ J. \( N3.下载索引压缩文件后解压。$ r& M. s- t8 \ V
4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。4 }9 B) E5 [/ j
5.下载后解压这些sitemap压缩文件。( l; B# f, f0 N M6 r$ u
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
) _& E) V3 N8 \" w5 S& ]7.没有什么了吧,剩下就由你自己发挥弄吧。
5 f7 g7 ~; ^* N2 z
" o, c0 X2 a2 ~3 F/ m* W5 ^# [3 N. ~感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
5 w" i6 ?- `! t; z, Y% p6 Q) E1 |6 e5 |* {
各位喜欢的赶快顶我一下吧。, N7 W7 f* b/ R6 k
3 N; S3 g! @: s q4 c
|
评分
-
查看全部评分
|