|
本帖最后由 finder 于 2014-12-28 15:24 编辑
1 H* Z& B7 H; L, L9 G `: T, H) [; i0 F) X: R
以前自己写过一个采集阿里巴巴商家email,电话,公司名称和职位的一个爬虫程序。感觉这个邮件采集程序的原理和我原来采用的一样,都是采用多线程,发起httpget请求,对返回结果用正则表达式匹配href,和自己需要找的邮件,电话啥的。然后再以这个href List为基础继续发起http get请求,如此,循环。则可以爬遍整个互联网。这是小弟自己的看法,望大神多多指点!
% \5 y; {" S" n! k
3 \" E! R% ^* Z9 B$ v& h email_spider是使用比较多的一个邮箱采集程序。官方网址是:- http://email.spider.gsa-online.de/
复制代码 目前程序最新版本是V7.00.$ h, Z d+ \ s9 O
程序的功能包括:
3 w9 D3 W9 j! j/ l•从起始网站提取电子邮件
: T% L+ `3 x$ Z* |•除了电子邮件采集,电话和传真号码,您可以搜索9 O7 Z1 Y, d9 s% L: Y
•自动化发送电子邮件到您的新客户
7 d2 k, q! C* a/ }•收获电子邮件与搜索引擎的帮助下(300+包括)
6 s9 g0 U" y" y•支持HTTPS网站
9 @2 B3 | V( x0 C' b" i•支持SSL唯一的电子邮件服务提供商(如谷歌邮件)' m/ I1 D; F9 X i! `; f
•内部SNMP服务器直接发送电子邮件7 Y+ S3 W2 e" X( q; G
•JavaScript的分析,找出保护的电子邮件地址
/ I8 N: c- y D保护•反蜘蛛引擎(例如随机用户代理)
# M# p0 g. A1 [/ k3 [3 P•收集电子邮件,它们的附加数据(如地址)
! \3 a/ {& h+ |: L% \•许多过滤器只能提取你想要的电子邮件
5 L5 B& M" \. h' r9 P2 q$ i•非常快的处理(100个线程,你可以很容易地提取500个新邮件一分钟)
9 M# s+ H# h9 H" D/ Y8 M$ X•多语言支持(现在的英语和德语)! A; y7 H5 j/ }# c, _) Y8 O& i
6 _) Q8 s1 e! G+ e' g; c
* K" ]# U% o; S 这次分享的 email_spider是V5.3的crack版本,也几乎包含了上边所有的功能,可以从指定网址开始收集,也可以输入关键字收集,我在虚拟机中跑了一天,收集了大量的email。我用的虚拟机的配置是521M内存的,如果分配的大,可能获取的更多。如果想要收集更多,可以在多台vps上跑。
0 j; X# o% f7 x% N I9 u
3 ~2 _4 s2 y: d9 d2 O- i T3 ]1 X4 d
! a6 x6 Z2 c0 Q+ [2 L/ l 程序跑起来比较稳定:
# [6 e9 V6 o' u+ ]- X# V , a& Z& |/ B. [+ P8 [
+ ?; ~9 m c2 b, _0 I) Z T 程序安装步骤:( y( |+ V( F8 L1 j
1) 添加如下内容到hots文件中
# `. I/ M7 a/ T# N+ Y/ C! @3 T1 V6 r+ d: S0 f
127.0.0.1 www.findsoftware.eu/ k* o" b* C5 T- O
127.0.0.1 findsoftware.eu: w/ r& f c6 B: D1 Q
127.0.0.1 www.rostock-schwarz.de2 i8 W+ Z4 Z* l' x4 a. e8 H
127.0.0.1 rostock-schwarz.de3 D* H4 @' U7 [& x$ U3 \4 \
127.0.0.1 www.gsa-online.de' U6 I# L6 ?+ n6 l2 G2 Q
127.0.0.1 gsa-online.de3 X5 `# d& y; d1 |- F$ H
+ ^; u5 A3 j7 s6 N" r) X2 U/ G1 N
2)执行 email_spider.exe: p% F& q+ ~3 i* k, b3 u, m
9 f. m: Z- e( t7 l1 ?! I" [
9 E2 F, f3 h5 T! d3) 要求注册时,输入用户名和密码。( }8 {0 L- }1 I
' s( Y+ s5 Y, t# T& _; sYour license name is: MKDEV TEAM: v4 g/ U& y0 R8 l) x. Q2 B8 z
Your license code is: L1E1-1437-I93N-L1KL
7 @; y* y/ V& Z( {7 J {
& ^, {. R3 j: `9 G
a3 Z0 J8 F, D! P+ t: K/ M另外附一个收集来的emailList.见附件。9 s3 T/ I, Q V- q
程序下载地址:- http://pan.baidu.com/share/link?shareid=4049923560&uk=3825420230
复制代码 另:小弟想学论坛里其它东西,而苦于广告币严重步骤。如果各位坛友,觉得小弟发布的东西对你有用,就请多多评分,多多加广告币吧。小弟学到东西定会继续分享,提前谢谢诸位了。
7 v+ ]* W( v6 J K t# o; D. I5 x
9 ]4 \2 k5 d! G* T# e0 n' S$ m! [+ l% f) |- v
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
评分
-
查看全部评分
|