AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

PropellerAds
Google-Bing-Mediago-Criteo开户
⚡️按条S5代理⚡️静态⚡️独享⚡️5G广告专用虚拟卡/U充值/高返点皇家代理IP⚡️#1性价比⚡️
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利买量投流开户独立站⚡️开户投放
⚡️AdsPower:安全不封号,高效自动化Google FB TK游戏代投⚡️E.PN 虚拟卡⚡️BINOM TRACKER 60% OFF!
比Adplexity还好用的Spy工具ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理全球虚拟卡, 支持U充值
Facebook 批量上广告尤里改 - FB 稳定投放免费黑五教程(持续更新、欢迎交流)FB 三不限源头 - 自助下户充值转款
各种主页、账单户、BM户(优势)IPCola原生住宅IP⚡️$1.8/条双ISPFB资源,账单户,分享户,国内一手TK加白户/二解户/FB海外户/GG老户
海外CL企业户源头FB虚拟卡⚡️消费越多返现越多FB广告Spy工具⚡免费试用✅ FB个号1块一个
TikTok2审户/老户/国内外端口/加白GG,FB,TK, 欧美源头, 欢迎合作❤️FB企业户海外户,授信户,TK加白户联盟收款/海外资金下发/服贸结汇
域名防红⚠斗篷工具/可试用3天广告位出租8500万高质量住宅IP,助力各种需求虚拟卡返佣1%,国内持牌机构
查看: 10086|回复: 7

[业界] 求推荐一个一键提取网站里面的URL且根据域名去重复的小...

[复制链接]

36

主题

213

广告币

297

积分

初级会员

Rank: 2

积分
297
发表于 2016-2-26 16:08:04 | 显示全部楼层 |阅读模式
回复

使用道具 举报

2

主题

1479

广告币

1822

积分

高级会员

Rank: 4

积分
1822

社区QQ达人

发表于 2016-2-26 16:17:11 | 显示全部楼层
  1. #region 抓取全站链接2 ~7 Q8 L/ ~6 h
  2.         public static List<string> GetAllHref(string url)
    8 w% T5 D5 `: Z; M% p7 v% G
  3.         {0 [0 n, A  Q; B& v  k) m+ g
  4.             List<string> allHref = new List<string>();& j  k1 B3 E" _2 G0 F
  5.             try8 H! Z' S) Q/ G/ P! a
  6.             {5 o! h/ M1 E9 y
  7.                 string strhtml = soso.getHtml(url, "", true);" k4 b5 J- I! ?8 a7 {
  8.                 if (strhtml != "error")
    / o8 i. v  M; n% L3 c. b
  9.                 {
    ( x: ~& v, v# D
  10.                     Regex reg = new Regex(@"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>");
    4 r; |1 g: v6 p5 O! v
  11.                     MatchCollection mc = reg.Matches(strhtml);% N5 v; r: ?" ]$ j! }  y9 ^
  12.                     foreach (Match m in mc)
    1 X1 A& t8 e. @+ c; S9 [2 `+ {
  13.                     {# w. v; d1 a  F
  14.                         Uri uri = new Uri(url);- _$ O* f, r9 h4 l+ i) ?
  15.                         Uri thisUri = new Uri(uri, m.Groups["url"].Value);# C3 [- f# T* |1 r0 n+ s9 w
  16.                         string fullUrl = "";9 j: ]5 C* b7 U0 t! q3 ?9 b
  17.                         if (m.Groups["url"].Value.StartsWith("http"))- a6 y$ f' [  k3 N3 `1 @, C
  18.                         {  B5 X9 A1 O+ x+ m! O3 y
  19.                             fullUrl = m.Groups["url"].Value;
    ) V% ?& L1 Z4 Q
  20.                         }4 f; T+ y7 j5 a: o# o  s% K
  21.                         else- ]* w  e, Y5 A$ A0 a, Z
  22.                         {5 o! P$ {) Y& K6 z) l
  23.                             fullUrl = thisUri.ToString();& M0 T+ |" u7 o" s' s, ~7 v
  24.                         }: z& w: K, ^- ^% ?' O. t
  25.                         allHref.Add(fullUrl);
    4 g" m5 U2 b+ {& e) P& U4 o
  26.                         //Console.WriteLine("原链接:" + m.Groups["url"].Value);
    ( e; J" e, C* m$ f2 y" K
  27.                         //Console.WriteLine("文本标记:" + m.Groups["text"].Value);
    & `' S3 v0 U+ N5 ^8 |
  28.                         //Console.WriteLine("补全链接:" + fullUrl);
    - B$ J' r& ^5 u/ q% ]
  29.                         //Console.WriteLine("…………………………………………");' @# \2 N4 C0 s
  30.                     }" ]+ E" H& F$ J2 A$ Z) b
  31.                 }) w6 [* k: l0 x6 E, N
  32.             }4 J0 b1 l7 Y- i! C9 O$ E6 d% I" z: A
  33.             catch (Exception ex)
    * e! K% Z! S4 O, g2 Y
  34.             { }
    ; R2 u4 }# u* A4 C0 t& D% m
  35.             return allHref;& R, d% c" O2 w6 T& ?2 `$ f
  36.         }
    ) ~& t3 w% T1 f3 p5 W
  37.         #endregion
复制代码

% k. C9 U. ^, C
# U" `) S7 i# }) y% B
  1. 1 c1 N8 g4 w. i

  2. * T( b$ O2 r* i9 v; y# b7 l+ J

  3. " g# x2 }4 q" Z1 @
  4. #region 数据去重9 |" p4 d8 t: ^; m9 y2 @+ ]
  5.         /// <summary>$ N$ \) h6 \- b7 b- [# A
  6.         /// List<string>去重+ w# ?' ~; U; u9 g/ L
  7.         /// </summary>+ H* v  Z. y$ R# f
  8.         /// <param name="list"></param>7 ?0 U) B' u8 k) R  ]% E; E, S$ f
  9.         /// <returns></returns>/ }8 N3 ~2 X" N+ r. r2 A; X( Q  g
  10.         public static List<string> getUnqueList(List<string> list)
    3 Q! c3 ^3 Q8 t3 x% E( c7 t$ ?
  11.         {
    ) Z( G9 y2 f" T. Z7 ?/ W% M) w* ?4 E
  12.             List<string> list1 = new List<string>();. T& L9 V' ~' x  E+ p9 }/ D
  13.             Hashtable hash = new Hashtable();& c5 q3 M! B: }2 |, e
  14.             foreach (string s in list)9 i6 H, v; Q) K4 @0 A6 f' k
  15.             {7 d/ T# _8 i  R
  16.                 if (!hash.ContainsKey(s)): @* }" W' w2 M8 l9 {5 f) e0 ?: b
  17.                 {$ A$ `* W/ I7 d3 S
  18.                     hash.Add(s, s);
    ! \" w4 i+ u! l$ ?
  19.                     list1.Add(s);
    * [( w+ U: g7 W, [5 P  C
  20.                 }
    * u7 F0 L! G, S. U: ^% u+ u
  21.             }1 Z; O+ L6 A0 i2 w: z  @1 r, M
  22.             hash.Clear();
    ; H, x% Z* J6 A, ~8 ]! H6 ^0 {
  23.             hash = null;
    , }6 }( ^( f2 X7 _8 y; x; p
  24.             return list1;
    ) a: q* M: p  N8 d; h9 [$ R
  25.         }6 b6 b- `! |7 B6 g  r! o' P5 L
  26.         #endregion
复制代码

$ J* d5 A+ L* B2 k3 y0 V" i# y$ Q* D$ K' t

点评

谢谢分享  发表于 2016-2-27 15:15
十分感谢!!!非常感谢!!  详情 回复 发表于 2016-2-26 16:20
回复 支持 反对

使用道具 举报

36

主题

213

广告币

297

积分

初级会员

Rank: 2

积分
297
 楼主| 发表于 2016-2-26 16:20:16 | 显示全部楼层
& z( l$ `+ A9 w( f
十分感谢!!!非常感谢!!

点评

缺少一个gethtml,用下面这个:  详情 回复 发表于 2016-2-26 16:23
回复 支持 反对

使用道具 举报

2

主题

1479

广告币

1822

积分

高级会员

Rank: 4

积分
1822

社区QQ达人

发表于 2016-2-26 16:23:12 | 显示全部楼层
guys 发表于 2016-2-26 16:20$ l/ f' }: V/ @! ~& q5 W, Q9 `
十分感谢!!!非常感谢!!
" S) K& w2 P" A8 w! x1 Y
缺少一个gethtml,用下面这个:
. X4 \" E" y& {
  1.      public string getHtml(string url, string charSet, bool UseUTF8CharSet)//url是要访问的网站地址,charSet是目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 ( k  S( @% ~, L6 ?
  2.         {8 q/ S4 |7 D- f' \/ W$ o" ^. F
  3.             string strWebData = "error";
    2 n7 M/ F& T) x" {( X, n
  4.             try
    ; k) A+ q3 S  z7 a
  5.             {
    0 w* P" Y# u# \
  6.                 WebClient myWebClient = new WebClient(); //创建WebClient实例myWebClient . ~2 ]# Y. N4 h' T! ^+ j
  7.                 // 需要注意的: ; @, g. X9 D" g; p7 ]
  8.                 //有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
    & l7 N. _- ^; y' d6 V& k
  9.                 //这是就要具体问题具体分析比如在头部加入cookie
    ( j: N  c: d$ M; w& c/ h, `( ^
  10.                 // webclient.Headers.Add("Cookie", cookie);
    . J5 O8 A% \& O! o# p1 f# [8 P
  11.                 //这样可能需要一些重载方法。根据需要写就可以了3 E7 X4 V1 s/ M% V
  12.                 myWebClient.Headers.Add("User-agent", "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)");* t" [+ Z' q. x2 s
  13.                 //myWebClient.Headers.Add("User-agent", "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)");! y1 e+ r4 Q8 l* {0 s
  14.                 //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
    7 k0 Q2 \) P: H0 U# J4 z7 y- N
  15.                 myWebClient.Credentials = CredentialCache.DefaultCredentials;
    9 N+ d! M. q$ Y& G2 l
  16.                 //如果服务器要验证用户名,密码 & e! }' z6 Y( U
  17.                 //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 9 t1 {+ Y& D' y4 b& _  v5 v
  18.                 //myWebClient.Credentials = mycred;
    9 X6 e% r: x' H9 D8 Y% i
  19.                 //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号)
    ! G! L! {  B3 {3 Q( K
  20.                 byte[] myDataBuffer = myWebClient.DownloadData(url);" e4 }: o! h/ ]" W2 @" P$ o
  21.                 strWebData = Encoding.Default.GetString(myDataBuffer);
    ( f3 D, e+ i% [9 P, ?8 Z

  22. - D0 [6 l  X; g. C; Y+ }
  23.                 //获取网页字符编码描述信息 6 ~! O; a' v. B: H9 C
  24.                 Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
    . D& J; f' g- N9 u  [8 G) E' s! ~
  25.                 string webCharSet = charSetMatch.Groups[2].Value;
    - M$ y) [5 m; P9 x% B- t! Q
  26.                 if (charSet == null || charSet == "")
    8 _: D6 U; d$ \7 s# i
  27.                     charSet = webCharSet;
    3 p9 O! Z. w% Y9 T
  28.                 if (charSet.Length > 0)
    8 [8 X0 H2 p, D# u* s: e
  29.                 {
    / b2 h3 F1 v. M* t3 `
  30.                     charSet = charSet.Replace(""", "");3 e* G  B3 X9 f: c
  31.                 }2 Z. N, N, p. v: N! e3 C- D" C# a" s
  32.                 if (UseUTF8CharSet)
    1 |6 h2 r3 x7 @# D
  33.                 {
    7 e* K0 @% b( x% q" w9 n, v4 z2 C! G
  34.                     if (charSet == null || charSet.Length == 0), o  q# r( W: ?# k5 B# w7 ]
  35.                     {
    & ~4 M, J8 d% p) M8 G
  36.                         charSet = "utf-8";
    + Y+ y/ z- r( C' B% Y
  37.                     }1 J! V8 a( N6 }
  38.                 }! i& S8 I! B! M' c& v$ F: }/ a
  39.                 if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)+ _6 w- F3 @: ?
  40.                     strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);8 H* m* i. L5 E" P

  41. ! |1 O/ e. `4 l$ J4 @6 \
  42.             }, I3 {$ D% M+ K0 J" C9 k" G
  43.             catch (Exception)8 i6 C! b! P9 i" Z5 \/ N0 Y8 ]5 G* t
  44.             {
    4 V3 v; ?" B( r, q
  45.                 strWebData = "error";
    + V6 ]9 n3 a  t
  46.             }
    ( A/ c0 ~" p! T8 t+ B

  47. 9 F$ P$ X4 ~1 Q
  48.             return strWebData;$ I! X+ |0 d3 @) Q+ B# q
  49.         }
复制代码
# d; a- }) f% b; {0 x2 |  F
' z# A, O# u( a) @- v& j
回复 支持 反对

使用道具 举报

0

主题

0

广告币

13

积分

新手上路

Rank: 1

积分
13
发表于 2016-2-26 19:05:59 | 显示全部楼层
weishaneweishane
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2026-6-6 16:24 , Processed in 0.056793 second(s), 17 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表