AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

PropellerAds
Google-Bing-Mediago-Criteo开户
⚡️按条S5代理⚡️静态⚡️独享⚡️5G广告专用虚拟卡/U充值/高返点皇家代理IP⚡️#1性价比⚡️
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利买量投流开户独立站⚡️开户投放
⚡️AdsPower:安全不封号,高效自动化Google FB TK游戏代投⚡️E.PN 虚拟卡⚡️BINOM TRACKER 60% OFF!
比Adplexity还好用的Spy工具ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理虚拟信用卡+独立站收款
全球虚拟卡, 支持U充值Facebook 批量上广告尤里改 - FB 稳定投放免费黑五教程(持续更新、欢迎交流)
FB 三不限源头 - 自助下户充值转款各种主页、账单户、BM户(优势)IPCola原生住宅IP⚡️$1.8/条双ISPFB海外户、GG老户、TK加白老户
海外CL企业户源头FB虚拟卡⚡️消费越多返现越多最大欧洲Nutra网盟BA找量 FB个号1块一个
TikTok2审户/老户/国内外端口/加白GG,FB,TK, 欧美源头, 欢迎合作❤️Proxy4Free独家住宅IP池❤️免费测试联盟收款/海外资金下发/服贸结汇
域名防红⚠斗篷工具/可试用3天广告位出租8500万高质量住宅IP,助力各种需求虚拟卡返佣1%,国内持牌机构
查看: 10022|回复: 7

[业界] 求推荐一个一键提取网站里面的URL且根据域名去重复的小...

[复制链接]

36

主题

211

广告币

295

积分

初级会员

Rank: 2

积分
295
发表于 2016-2-26 16:08:04 | 显示全部楼层 |阅读模式
回复

使用道具 举报

2

主题

1478

广告币

1821

积分

高级会员

Rank: 4

积分
1821

社区QQ达人

发表于 2016-2-26 16:17:11 | 显示全部楼层
  1. #region 抓取全站链接) N) y  |5 D  e
  2.         public static List<string> GetAllHref(string url)
    4 ?/ H) L8 d. d! `+ c; W
  3.         {
    " X4 v! l" ?( S, m
  4.             List<string> allHref = new List<string>();
    : ~( ]& D5 c- D  X- f! q6 V! k
  5.             try1 \, q1 y1 G* m
  6.             {, k! J2 `) _$ U: i" R8 c3 O
  7.                 string strhtml = soso.getHtml(url, "", true);7 k8 {3 k; v; O! U+ E, [
  8.                 if (strhtml != "error")0 s- Z8 ~' g& `* [+ A
  9.                 {
    ! \* t9 f' |2 ^) s' ?( Y7 O$ B; s
  10.                     Regex reg = new Regex(@"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>");- b" M4 \( R; \2 [
  11.                     MatchCollection mc = reg.Matches(strhtml);* {& L5 c- i2 W5 n, k5 I: [8 Z
  12.                     foreach (Match m in mc)
    + w, M7 W# B5 s2 o( y
  13.                     {0 b( k# Y8 \0 l& b; _
  14.                         Uri uri = new Uri(url);. a6 c0 @7 X' T9 H
  15.                         Uri thisUri = new Uri(uri, m.Groups["url"].Value);
    ) T* f5 F3 Z$ a5 h' j  r
  16.                         string fullUrl = "";
    ) E' u( a  I( h
  17.                         if (m.Groups["url"].Value.StartsWith("http"))
    4 m6 _  j" @7 _
  18.                         {
    2 l8 j  A! B  w# Q
  19.                             fullUrl = m.Groups["url"].Value;
    - s9 Z# C# w; i0 k
  20.                         }
    $ r; v, O2 p6 |6 m4 l
  21.                         else
    - P! _, S& Z3 D( ~7 l$ n% ?
  22.                         {, a/ G4 b6 V8 z) H9 t- y# {
  23.                             fullUrl = thisUri.ToString();/ E# E/ }" d& Z1 R7 t+ I
  24.                         }
    + ~$ M! b1 f3 z9 `/ s- ~2 C$ B* j
  25.                         allHref.Add(fullUrl);: v2 J( {, s5 i  w5 @" L: S8 R: K
  26.                         //Console.WriteLine("原链接:" + m.Groups["url"].Value);! E5 u7 T8 M: J1 A
  27.                         //Console.WriteLine("文本标记:" + m.Groups["text"].Value);
      ]" H/ e9 L, Z+ R7 Q- F9 u
  28.                         //Console.WriteLine("补全链接:" + fullUrl);
    0 g0 ?- }0 A8 N, M$ a) H) |0 p% n
  29.                         //Console.WriteLine("…………………………………………");* i, z8 ?2 a+ c0 W. ~
  30.                     }8 H# X2 w* k; H5 I% O0 s/ S8 w+ z5 A
  31.                 }
    * R& ~9 j& v+ j( G
  32.             }( @+ d" b/ T1 \% s" p
  33.             catch (Exception ex)0 a4 b6 o2 Q8 o3 h" u/ k( S
  34.             { }
    4 P" c' n6 a' ?) t
  35.             return allHref;8 o+ L$ V, {) P. \7 r6 T
  36.         }$ Q( Y5 A' _% F1 C+ `2 j
  37.         #endregion
复制代码

. z, l8 |' B$ x* W
' ]& @; u8 l# C, a; f# O

  1. 4 R" l* K4 Y& M0 ~& G9 F2 L

  2. - G$ c$ |, T0 p4 C5 r' r. F' w. T7 t

  3. 9 s9 W& r  C) e# V1 q" f/ e  ?
  4. #region 数据去重
    . a( T" j, s7 Y3 j# l% I6 D& n
  5.         /// <summary>4 D8 E9 S* G: \- K/ {+ o
  6.         /// List<string>去重/ d( h3 o7 b6 Y
  7.         /// </summary>6 H0 S% n) j( w6 Z; F2 P
  8.         /// <param name="list"></param>& ^6 G# y5 r/ O
  9.         /// <returns></returns>9 H! j5 F/ ^% C6 b* V/ `7 G
  10.         public static List<string> getUnqueList(List<string> list)' K: O- d, o$ |$ I( Y
  11.         {& m3 i0 I- d5 J: h* I
  12.             List<string> list1 = new List<string>();+ _- u( K$ j" Q! ]
  13.             Hashtable hash = new Hashtable();4 }' I. K8 e2 Y/ @, O
  14.             foreach (string s in list)# t, ]1 |0 o6 v. F& Q' Q. o  s6 B" y
  15.             {: y- B$ m/ W. O3 i
  16.                 if (!hash.ContainsKey(s))" |% m  m; n7 E9 t7 H( l% |
  17.                 {3 z+ w7 c, g9 e7 W' _( b, C5 L
  18.                     hash.Add(s, s);
    + g; N/ l" d7 y$ U6 [) B* {
  19.                     list1.Add(s);3 W* S' }7 Y! }
  20.                 }
    * ^7 }+ k' C7 k5 j5 {+ P: m
  21.             }$ N; i9 c( Q( e" @" l+ N% ]! n! g
  22.             hash.Clear();
    * }2 r+ `6 J+ [) E5 p) q. B# i* l5 z: N
  23.             hash = null;1 T0 W8 I4 ]% C  @
  24.             return list1;3 M2 z2 V5 [+ ], u, Z
  25.         }
    . s. S, k# |5 p" \( ~' u: `; `
  26.         #endregion
复制代码

2 u3 D1 y8 l; T3 _+ C+ O
( q2 V$ f2 R& F. Y$ i2 ?. f3 x, w+ M/ _

点评

谢谢分享  发表于 2016-2-27 15:15
十分感谢!!!非常感谢!!  详情 回复 发表于 2016-2-26 16:20
回复 支持 反对

使用道具 举报

36

主题

211

广告币

295

积分

初级会员

Rank: 2

积分
295
 楼主| 发表于 2016-2-26 16:20:16 | 显示全部楼层

- ^! Y! }& g- ~' L8 f十分感谢!!!非常感谢!!

点评

缺少一个gethtml,用下面这个:  详情 回复 发表于 2016-2-26 16:23
回复 支持 反对

使用道具 举报

2

主题

1478

广告币

1821

积分

高级会员

Rank: 4

积分
1821

社区QQ达人

发表于 2016-2-26 16:23:12 | 显示全部楼层
guys 发表于 2016-2-26 16:20
) A7 k' v0 h1 F4 A( K9 }十分感谢!!!非常感谢!!
1 G9 T4 c. t  g+ I( L
缺少一个gethtml,用下面这个:  ^3 X* V/ \% E- l5 ~3 G7 B
  1.      public string getHtml(string url, string charSet, bool UseUTF8CharSet)//url是要访问的网站地址,charSet是目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 ! j7 v! j1 @% k. [% P, L
  2.         {2 i/ k9 i1 w  }( \: j
  3.             string strWebData = "error";
    4 e7 J, V0 m$ w) N; B% R6 {
  4.             try' G& K! J4 N. p
  5.             {
    ! G" P. e+ d4 _5 t, z2 E
  6.                 WebClient myWebClient = new WebClient(); //创建WebClient实例myWebClient 4 B, |6 n6 W5 s  @( q
  7.                 // 需要注意的: / c4 Z% s! x. X9 K
  8.                 //有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
    8 \6 \# w* M9 @; c  U
  9.                 //这是就要具体问题具体分析比如在头部加入cookie
    2 J& K, I. b, n( |2 s
  10.                 // webclient.Headers.Add("Cookie", cookie);
    8 o1 j3 ^6 _" _8 K! k% e& D
  11.                 //这样可能需要一些重载方法。根据需要写就可以了9 j; Z0 d6 W' U$ J% o
  12.                 myWebClient.Headers.Add("User-agent", "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)");8 H/ R% N& z, N5 R8 T. y
  13.                 //myWebClient.Headers.Add("User-agent", "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)");
    ) A& L3 ^( z  j& M# z0 g
  14.                 //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
    ' S2 W) b* y3 l9 I9 e
  15.                 myWebClient.Credentials = CredentialCache.DefaultCredentials;+ D1 K+ @- ]- ~8 x* `1 s+ O$ M& O
  16.                 //如果服务器要验证用户名,密码
    9 Y% S2 v* D* Q, B; A3 m
  17.                 //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 8 r- k4 G; v- d% Q
  18.                 //myWebClient.Credentials = mycred;
    - \  \: X; |' C2 V
  19.                 //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号) 9 |! {% k7 i$ x) d7 p
  20.                 byte[] myDataBuffer = myWebClient.DownloadData(url);5 I$ M0 G% M( u( {
  21.                 strWebData = Encoding.Default.GetString(myDataBuffer);* R) t; F" F/ x7 U4 {% }8 M
  22. / M, U, g5 A: m; T; e
  23.                 //获取网页字符编码描述信息
    # q9 e. c% e3 ]3 y( u  W1 K
  24.                 Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)"", RegexOptions.IgnoreCase | RegexOptions.Multiline);  n" X# \+ E" ^: w7 z6 N
  25.                 string webCharSet = charSetMatch.Groups[2].Value;2 H7 V0 N! Y8 j6 f" H& E
  26.                 if (charSet == null || charSet == "")- \) m8 t: z2 q
  27.                     charSet = webCharSet;  m1 r: h( D' b' D7 J9 a; q
  28.                 if (charSet.Length > 0)
    * |# Y2 s+ p( j! \/ d4 {
  29.                 {. o3 u% o4 \  B) g: Q0 Q- e! `" }; i
  30.                     charSet = charSet.Replace(""", "");
    7 ?1 k  c! c# M  K% `5 |; E
  31.                 }$ s' [$ @2 ^6 I6 ?( }2 j" h# t
  32.                 if (UseUTF8CharSet)( N  g% p$ G- G! z+ U% Y; `
  33.                 {
    ) G8 _% ^6 U# \8 F
  34.                     if (charSet == null || charSet.Length == 0)
    + B% F( F$ h/ v. }2 o' Q
  35.                     {4 R/ M& j' s3 w; p! h" I# q( }+ r
  36.                         charSet = "utf-8";
    8 P6 E! F+ `4 @4 W- k5 b4 S: l/ k
  37.                     }
    9 h; n8 F, a4 q/ V. h2 o$ B
  38.                 }3 D2 o+ x3 f! {0 ^
  39.                 if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
    $ G. S7 z, q$ y
  40.                     strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);( O: k  [- g! J7 G5 A
  41. 2 u! i2 F0 U3 u" g- v" v
  42.             }1 W( t5 L, w+ H: ~9 Q- G# @: P
  43.             catch (Exception)4 g; e( z# C5 F6 C
  44.             {: t6 k; M  I* L
  45.                 strWebData = "error";
    3 O9 s% z' |0 a7 ~2 w+ s- ]
  46.             }2 o5 N. y# w* m% Q: _
  47. 2 W. x# ?  N* K% ]+ J+ d* J. {/ o4 d
  48.             return strWebData;5 m8 x& T$ _' u7 f; \  M  v
  49.         }
复制代码
- K! Q4 Y8 c2 u4 o$ ~, q& C! v

" v6 X/ Q" `! a
回复 支持 反对

使用道具 举报

0

主题

0

广告币

13

积分

新手上路

Rank: 1

积分
13
发表于 2016-2-26 19:05:59 | 显示全部楼层
weishaneweishane
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2026-5-12 14:59 , Processed in 0.053264 second(s), 16 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表