AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

PropellerAds
Google-Bing-Mediago-Criteo开户
⚡️按条S5代理⚡️静态⚡️独享⚡️5G广告专用虚拟卡/U充值/高返点皇家代理IP⚡️#1性价比⚡️
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利买量投流开户独立站⚡️开户投放
⚡️AdsPower:安全不封号,高效自动化Google FB TK游戏代投⚡️E.PN 虚拟卡⚡️BINOM TRACKER 60% OFF!
比Adplexity还好用的Spy工具ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理虚拟信用卡+独立站收款
全球虚拟卡, 支持U充值各种主页、账单户、BM户(优势)⚡️TikTok企业户,bm户,账单户IPCola原生住宅IP⚡️$1.8/条双ISP
FB海外户、GG老户、TK加白老户PTM虚拟卡[全新卡BIN+高返点]FB虚拟卡⚡️消费越多返现越多最大欧洲Nutra网盟BA找量
高品质·稳定高速纯净IP FB个号1块一个TikTok2审户/老户/国内外端口/加白SX.ORG 高质量代理⚡235+ 地区
GG,FB,TK, 欧美源头, 欢迎合作❤️跨境债务催收/风险代理高权重Google老户[卖户+筛户等级] 海外斗篷・智能广告过审率高达 99%
DataImpulse⚡️纯净住宅代理仅 $1FB企业户海外户,授信户,TK加白户广告位出租8500万高质量住宅IP,助力各种需求
虚拟卡返佣1%,国内持牌机构   
查看: 27677|回复: 26

[讨论] 求助从大文本中提取邮件地址

[复制链接]

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

发表于 2017-12-1 00:08:03 | 显示全部楼层 |阅读模式
本人有一个1G大的文本文件,里面是一些乱七八糟的文字,但是有部分邮箱地址 ,我想把这些邮箱地址提取出来 ,有什么好办法吗?试了好几个提取工具,连文本都打不开,打开文本超过5M就没反应了,有更好的办法吗?江湖救急!!谢谢!!!
. Z5 G( n# @1 N$ _8 u3 P7 F
相关帖子
回复

使用道具 举报

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

 楼主| 发表于 2017-12-1 12:28:08 来自手机 | 显示全部楼层
大神真多啊!有没有现成的工具推荐一下?自己编程太麻烦了
回复 支持 反对

使用道具 举报

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

 楼主| 发表于 2017-12-1 17:15:30 | 显示全部楼层
大神们 是1G的文本文件 不可能手工粘贴上去。更不是一个文本编辑器能处理的
回复 支持 反对

使用道具 举报

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

 楼主| 发表于 2017-12-3 23:01:50 | 显示全部楼层
alibaba 发表于 2017-12-3 21:25
6 i1 W" x, f1 bEmEditor(文本编辑器)。官方说的处理248G的文件也不在话下。然后用正则表达式把非邮箱的字符替换为空白, ...

2 |8 M; t, E3 U* N2 a6 C9 g大神能给个正则表达式替换的例子吗?
回复 支持 反对

使用道具 举报

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

 楼主| 发表于 2017-12-4 10:43:03 | 显示全部楼层
bjzhush 发表于 2017-12-4 00:39
' I+ L% ^' c5 ]# [花了几分钟帮你写了下 $ V, S& M$ J4 z
例如源文件为这个txt
  j& F6 a/ W; d5 o* q7 N1 M1 f+ q➜  ~ cat x.txt
: i- ?$ X4 W2 f) q- s0 b: g" H+ m
谢谢大神。你这个脚本处理速度快吗?我3G的文本文件多久能处理完呢?

点评

不送几个积分吗?哈哈哈哈  详情 回复 发表于 2017-12-4 21:32
我估计有个几分钟就足够了,前提是你是SSD  详情 回复 发表于 2017-12-4 21:31
回复 支持 反对

使用道具 举报

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

 楼主| 发表于 2017-12-4 11:44:42 | 显示全部楼层
alibaba 发表于 2017-12-3 21:256 p8 ~$ \. z4 B. U1 N
EmEditor(文本编辑器)。官方说的处理248G的文件也不在话下。然后用正则表达式把非邮箱的字符替换为空白, ...

1 X$ x2 f0 ?1 w$ C! y6 T( Q4 T/ R大神 我用 正则[-0-9a-zA-Z.+_]+@[-0-9a-zA-Z.+_]+\.[a-zA-Z]{2,4} 绿色高亮了所有EMAIL,问题是我如何给他取反呢?把不是emial的全部替换为空格呢?
回复 支持 反对

使用道具 举报

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

 楼主| 发表于 2017-12-4 15:06:42 | 显示全部楼层
本帖最后由 affempire 于 2017-12-4 15:12 编辑 " U4 V9 M5 S: b+ h+ z% w, i7 N
, J! a' U6 x# ?2 y, S  F
[email protected]:7fc2ce488
* T3 X0 e$ P2 I4 [8 K[email protected]:669e7d715e402b5b3, y: |& H  d" T- B
[email protected]:12ebcb4d
6 U$ I2 P; a9 l4 x5 m, O[email protected]:c06fc72f7d010
  `$ s5 H9 _/ I" G6 Q/ R+ W. Q格式就是这样,前面没有前缀了,就是后面带有一串字符
回复 支持 反对

使用道具 举报

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

 楼主| 发表于 2017-12-4 15:12:32 | 显示全部楼层
alibaba 发表于 2017-12-4 14:43* Q; L$ j; b5 x$ ^
零宽断言,前后邮箱夹着的那部分就是要替换空白的。不如你发一小段文本上来看看吧。 ...
8 ~, E0 H2 H2 P% h
[email protected]:7fc2ce4888 Y: z  r! K# P& h! c( y% }$ V- y
[email protected]:669e7d715e402b5b3
* ~" K9 T" N# P6 {0 v/ t4 ?3 E, i[email protected]:12ebcb4d
0 y+ N; _9 m6 Y( u! Q0 N[email protected]:c06fc72f7d0105 N& ^) x8 J6 j+ g, R8 y
格式就是这样,前面没有前缀了,就是后面带有一串字符

点评

那好办啊 正则表达式::.* 替换为空白就可了  详情 回复 发表于 2017-12-4 16:36
回复 支持 反对

使用道具 举报

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

 楼主| 发表于 2017-12-4 17:24:41 | 显示全部楼层
alibaba 发表于 2017-12-4 16:36& q% T  h5 e7 `. C. F) Z$ z
那好办啊' B; B  G5 T* H9 A
正则表达式::.*
& W& G+ u* q4 w, j% i" ^* m( l* i替换为空白就可了
% u: x" |- m' s1 D
谢谢大神 我这个办法成功了 ,但是我还是想知道怎么反选 ,也就是对[-0-9a-zA-Z.+_]+@[-0-9a-zA-Z.+_]+\.[a-zA-Z]{2,4}这个正则表达式取反

点评

简单的问题复杂化了。 有时候用正则获取非邮箱部分,和用正则获取非用正则获取的邮箱的部分,就不是一回事。 最好是具体问题具体分析吧,通用性不一定都存在。  详情 回复 发表于 2017-12-5 16:23
回复 支持 反对

使用道具 举报

38

主题

2566

广告币

2773

积分

高级会员

Rank: 4

积分
2773

社区QQ达人

 楼主| 发表于 2017-12-6 14:49:38 | 显示全部楼层
alibaba 发表于 2017-12-5 16:23
; \3 x( n" n1 s5 c4 d" R简单的问题复杂化了。
) T$ d! `+ A3 W/ m有时候用正则获取非邮箱部分,和用正则获取非用正则获取的邮箱的部分,就不是一回 ...

9 W5 K5 w0 [. y3 ^3 ~" \5 D大神,昨天的事情是一个冒号,用那个正则表达式处理了 ,今天又遇到两个冒号的内容如下
; ]0 y# }. a/ C* g5 S# t100:[email protected]:SGSDGKDGMDGKKKKKJJ  T* ~. J  p0 E, z( Y
200:[email protected]:IFJFHGDFJDJFDJFDJFDJJ
- u; D4 b8 F5 E* E9 r, @300:[email protected]:FKIFHFHFHFJDFJFN) ~) `% Q* w7 l
我要想提取中间的email那么正则该怎么写呢??9 a% `; e5 C- b
还有EmEditor中好像不能复制粘贴正则选中的内容,要不用这个正则 [-0-9a-zA-Z.+_]+@[-0-9a-zA-Z.+_]+\.[a-zA-Z]{2,4}  可以选中高亮所有enail再复制粘贴

点评

你要的是中间部分的邮箱,不一定非得要用正则去匹配邮箱,能达成要求就成。 在这里例子中,分2步走,去掉首尾,剩下的可以不就是邮箱了嘛。 第一步:^.*?:,替换为空白,去掉了首部。 第二部::.*,替换为空白,去掉  详情 回复 发表于 2017-12-6 15:22
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2026-4-4 22:25 , Processed in 0.050476 second(s), 15 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表