|
|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
' R4 q7 w( L& A. V: x' s很简单:2 z; ~2 C) x' V4 n. {
1.打开amazon.com的robots.txt文件,找到sitemap:
$ y/ N, P1 p$ R; q( R/ c- o8 mhttp://www.amazon.com/robots.txt* D; e: F0 V L2 r7 a
- # Sitemap files, Q: X3 e: L0 w/ j
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml
# X3 S* f# W' c - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
. B" {+ M, E0 X) Q. X' y- `2 M: p - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
* U1 F: I f2 D8 M - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz! W: a {. k9 k3 R) _* W" a
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz2 l) V5 g; y# j
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz8 b! @& w/ D# W6 k
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
5 F0 B+ W1 c$ h. | - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
, p3 g' B5 Q/ |7 E. [3 V; e - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
7 T$ A) y& m9 L9 [1 R" \7 X( \$ S( O3.下载索引压缩文件后解压。& w4 Y- Q$ {, S& ?5 J
4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
1 u- K4 c: I5 m: P2 e. o4 L- ]5.下载后解压这些sitemap压缩文件。
- d" K. H7 X. T; I8 W3 p l6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。8 x! p5 O/ {) S( a$ ~
7.没有什么了吧,剩下就由你自己发挥弄吧。
# U( r( E6 _) i' ]7 u) e% P- B" l0 A. K5 |
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。$ e0 M( O) v C1 j, G# L
5 I/ D( h' v" s/ H3 B各位喜欢的赶快顶我一下吧。
/ I( ^& Q0 W/ _6 Y3 l' f( j# I" a
|
评分
-
查看全部评分
|