AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

 谷歌+Bing+TT+MSN官方代理 
⚡️按条S5代理⚡️静态⚡️独享⚡️5G⚡️最干净<Wifi住宅+5G移动>IP代理泰国仓储,本土仓发货2-3元/单
指纹浏览器,就用AdsPower谷歌/FB/Bing/Yahoo代理商开户7200W全球动态不重复住宅IP代理全球优质流量,选TrafficStars
出售Facebook,友缘号,FB广告号,insFB/TT/KW 加白开户ADPLEXITY + ADVERTCN比Adplexity还好用的Spy工具
广
FB/Google/TK海外多媒体极速下户
BINOM TRACKER 60% OFF!MediaGo+Taboola+Ob开户百度国际MediaGo⚡️让产品狂奔全球百度国际,高点击转化,快速放量
百度国际MediaGo,独家原生流量虚拟信用卡+独立站收款行业首创新型指纹Cloak, 谷歌奇效!Kookeey⚡️100%独享⚡️原生住宅IP
⚡IPFoxy住宅代理全场88折⚡全球虚拟卡, 支持U充值免账户投放 FB 广告(送项目)2024做什么 - Media buy 项目库
免费黑五教程(持续更新、欢迎交流)Facebook 批量上广告Bridgeway - 联盟营销网络IPCola 全新住宅代理 ⚡️ 免费试用
各种主页、账单户、BM户(优势)⚡️个人户,bm户不限额,账单户Adsterra 的CPA/CPM/CPC 网站流量在线注册美国/英国/香港等海外公司
EU KETO/CBD - JumbleberryFB二三解1元/个9Proxy ⚡️ $0.04/IP, 无限带宽 cloak斗篷/ss/nutra/cpa/Dating
E.PN 虚拟卡Asocks代理服务器$3/GB高薪诚求实力FB投手(独立站)《全新虚拟卡+全球收付款》
广告位出租全球低价纯净住宅/移动IP-免费试用广告代投, 东南亚物流, 虚拟信用卡VMLogin指纹浏览器+多账号防关联
查看: 17744|回复: 26

[讨论] 求助从大文本中提取邮件地址

[复制链接]

38

主题

2165

广告币

2413

积分

高级会员

Rank: 4

积分
2413

社区QQ达人

发表于 2017-12-1 00:08:03 | 显示全部楼层 |阅读模式
adsterra
本人有一个1G大的文本文件,里面是一些乱七八糟的文字,但是有部分邮箱地址 ,我想把这些邮箱地址提取出来 ,有什么好办法吗?试了好几个提取工具,连文本都打不开,打开文本超过5M就没反应了,有更好的办法吗?江湖救急!!谢谢!!!
" y2 W$ g: ]) i% P  t, i$ Z6 E  v% Y
相关帖子
回复

使用道具 举报

23

主题

1182

广告币

2130

积分

高级会员

Rank: 4

积分
2130

社区QQ达人

发表于 2017-12-1 00:14:04 | 显示全部楼层
PHP 一行一行的读取 然后从每一行里面正则表达式去匹配邮箱 应该是可以搞定的
回复 支持 1 反对 0

使用道具 举报

55

主题

105

广告币

647

积分

中级会员

Rank: 3Rank: 3

积分
647

社区QQ达人

发表于 2017-12-1 08:30:59 | 显示全部楼层
1G  分分钟搞定
回复 支持 反对

使用道具 举报

3

主题

38

广告币

58

积分

初级会员

Rank: 2

积分
58

社区QQ达人

发表于 2017-12-1 08:39:37 | 显示全部楼层
[\w!#$%&'*+/=?^_`{|}~-]+(?:\.[\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\w](?:[\w-]*[\w])?\.)+[\w](?:[\w-]*[\w])?
+ t) v+ E5 h6 g8 {这个正则可以匹配,不过具体要用其他工具来实现匹配。

评分

参与人数 2广告币 +7 收起 理由
风儿 + 5 赞一个!
chable + 2 可以结合使用EMEDITOR

查看全部评分

回复 支持 反对

使用道具 举报

2

主题

314

广告币

444

积分

中级会员

Rank: 3Rank: 3

积分
444

社区QQ达人

发表于 2017-12-1 08:50:15 | 显示全部楼层
懂点编程的话用读取字节的IO函数读取加转换处理,3个G大小没问题,再大就用内存映射的方法。2 q3 D$ T: _6 N% |  q+ M. M

7 i  W. x8 l4 H/ x8 @# u不懂编程的话先将大文本分割成很多个小文件,再用你找到的那些工具处理。
QQ:2696779792
回复 支持 反对

使用道具 举报

59

主题

697

广告币

1925

积分

高级会员

Rank: 4

积分
1925

社区QQ达人

发表于 2017-12-1 09:46:01 | 显示全部楼层
hadoop,3个t也能给你搞了
回复 支持 反对

使用道具 举报

52

主题

709

广告币

1369

积分

高级会员

Rank: 4

积分
1369

社区QQ达人

发表于 2017-12-1 10:31:22 | 显示全部楼层
写个正则匹配。。。。
我是C罗!!!
回复 支持 反对

使用道具 举报

12

主题

1526

广告币

2109

积分

高级会员

Rank: 4

积分
2109

社区QQ达人

发表于 2017-12-1 12:07:47 | 显示全部楼层
各显神通.~~  我就找个漂亮的小妹 让她慢慢处理吧...
回复 支持 反对

使用道具 举报

38

主题

2165

广告币

2413

积分

高级会员

Rank: 4

积分
2413

社区QQ达人

 楼主| 发表于 2017-12-1 12:28:08 来自手机 | 显示全部楼层
大神真多啊!有没有现成的工具推荐一下?自己编程太麻烦了
回复 支持 反对

使用道具 举报

3

主题

38

广告币

58

积分

初级会员

Rank: 2

积分
58

社区QQ达人

发表于 2017-12-1 13:09:44 | 显示全部楼层
http://tool.oschina.net/regex#
8 v$ q* g& A2 q- {本来想自己写一个python脚本,不过中午折腾rb格式,没折腾出来。
0 \; k2 e- S5 C- j" V+ L目前手动比较方便一点的就是,把内容放到上面这个正则工具里,点击右边的匹配邮箱,然后点击测试匹配。下面邮箱就全部匹配了。
( W. o; H1 c- `9 W鼠标移动上去,拉取,选中,复制到其他txt,excel里。搞定。

评分

参与人数 1广告币 +5 收起 理由
风儿 + 5

查看全部评分

回复 支持 反对

使用道具 举报

103

主题

1818

广告币

2698

积分

高级会员

Rank: 4

积分
2698

社区QQ达人

发表于 2017-12-1 13:31:21 | 显示全部楼层
EDITPLUS+正则
回复 支持 反对

使用道具 举报

38

主题

2165

广告币

2413

积分

高级会员

Rank: 4

积分
2413

社区QQ达人

 楼主| 发表于 2017-12-1 17:15:30 | 显示全部楼层
大神们 是1G的文本文件 不可能手工粘贴上去。更不是一个文本编辑器能处理的
回复 支持 反对

使用道具 举报

25

主题

932

广告币

2552

积分

高级会员

Rank: 4

积分
2552
发表于 2017-12-3 21:25:04 | 显示全部楼层
EmEditor(文本编辑器)。官方说的处理248G的文件也不在话下。然后用正则表达式把非邮箱的字符替换为空白,把邮箱留下就可以了。

点评

大神 我用 正则[-0-9a-zA-Z.+_]+@[-0-9a-zA-Z.+_]+\.[a-zA-Z]{2,4} 绿色高亮了所有EMAIL,问题是我如何给他取反呢?把不是emial的全部替换为空格呢?  详情 回复 发表于 2017-12-4 11:44
大神能给个正则表达式替换的例子吗?  详情 回复 发表于 2017-12-3 23:01

评分

参与人数 1广告币 +2 收起 理由
affempire + 2 NB!

查看全部评分

回复 支持 反对

使用道具 举报

38

主题

2165

广告币

2413

积分

高级会员

Rank: 4

积分
2413

社区QQ达人

 楼主| 发表于 2017-12-3 23:01:50 | 显示全部楼层
alibaba 发表于 2017-12-3 21:25# U2 \5 ?7 V7 o9 x1 D4 K
EmEditor(文本编辑器)。官方说的处理248G的文件也不在话下。然后用正则表达式把非邮箱的字符替换为空白, ...

9 `: n: x* N3 \# h3 c大神能给个正则表达式替换的例子吗?
回复 支持 反对

使用道具 举报

19

主题

289

广告币

531

积分

中级会员

Rank: 3Rank: 3

积分
531

社区QQ达人

发表于 2017-12-4 00:39:19 | 显示全部楼层
本帖最后由 bjzhush 于 2017-12-4 00:45 编辑
/ p/ R$ Z3 c9 s6 ]6 b) b! P
' x) L0 J& W& X8 t$ V花了几分钟帮你写了下
. h5 V- S0 h/ U! H: f例如源文件为这个txt
. h9 G& z# p7 q6 A; H5 I! ^1 j➜  ~ cat x.txt
3 H' [2 s4 Q' q) ^. Jhitest" S) {$ E$ Y; N  S( V
[email protected]
% S3 R. r7 D6 K* W- f% rhi  [email protected] test
3 e5 ]" F4 X3 r: ?9 K[email protected]  [email protected]
% x- i) V' U2 s9 C# w执行后,得到result.txt8 [6 r6 {' ?4 f* I1 f! @
➜  ~ cat result.txt
! w$ c4 }; F6 w6 }+ x: z/ b6 k[email protected]
, z- S/ n8 g+ p4 k8 j) m5 Z' v[email protected]
' x5 j* G% G: H0 I3 d9 E& Q[email protected]: V* {% C* Y2 b0 u
[email protected]1 `% o+ U% `; I2 O
0 b( C6 G( `3 r9 y: b  I/ M
代码如下:
9 V4 W6 v: w& \( b( X
  1. <?php/ e5 d- O+ T. V. y. v
  2. $file = 'x.txt';2 J% p! G$ `0 y: N: U
  3. $fp = fopen($file, 'r');' i  p5 W+ V- `, s
  4. if (!$fp) {
    2 o# u. k: P# S0 d
  5.     exit('failed to open'.$file);
    * p+ }0 a0 [1 h( l& x
  6. }% f, _7 |! P/ F" S" _# W- T& |" L& d
  7. $lineNumber = 0;9 H) T2 K3 C4 f5 w$ z8 o% l
  8. while($line = fgets($fp)) {
    : q0 }. E; }+ w& {: W6 w
  9.     $lineNumber++;
    0 Y# p& |% i. z, C; i  z& }6 S
  10.     $pattern = '/[a-z0-9_\-\+]+@[a-z0-9\-]+\.([a-z]{2,4})(?:\.[a-z]{2})?/i';
    ; r) t9 X- o! N, i3 r* d1 W
  11.     preg_match_all($pattern, $line, $matches);7 t0 i* p5 R$ `/ p) U1 K
  12.     if (!empty($matches[0])) {
    4 @+ g' W; a, K8 r- C- E" O: F
  13.         foreach ($matches[0] as $mail) {' `; `& e* ^! f  P
  14.             echo $mail.' found from line '.$lineNumber.PHP_EOL;1 p: v# l  b2 D6 j
  15.             file_put_contents('result.txt', $mail.PHP_EOL, FILE_APPEND);5 w2 B6 W9 H0 u. ^3 {
  16.         }
    # X0 @; ~5 N7 F8 n% D
  17.     }+ W" H0 ]+ {* ]! J: f* Z6 b( Y4 O
  18. }
    / ~2 `2 q$ }. Q/ [. ~3 W% x  m
  19. echo "All Done";: k+ S: K+ c4 I0 S
复制代码
功能:支持提取一行多个email地址,结果全部保存到result.txt ,没有做去重$ n. e" |2 F) k$ U: x, {  s/ ^# d
使用:代码里面的源文件是x.txt ,可以换成你自己的文件名,php保存为getMail.php  然后  php getMail.php 结果保存在result.txt里面

点评

谢谢大神。你这个脚本处理速度快吗?我3G的文本文件多久能处理完呢?  详情 回复 发表于 2017-12-4 10:43

评分

参与人数 2广告币 +7 收起 理由
leeker + 5 乐于助人
iyahoo + 2 很给力!

查看全部评分

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2024-4-20 04:58 , Processed in 0.056684 second(s), 15 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表