AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

PropellerAds
Google-Bing-Mediago-Criteo开户
⚡️按条S5代理⚡️静态⚡️独享⚡️5G广告专用虚拟卡/U充值/高返点皇家代理IP⚡️#1性价比⚡️
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利买量投流开户独立站⚡️开户投放
⚡️AdsPower:安全不封号,高效自动化Google FB TK游戏代投⚡️E.PN 虚拟卡⚡️BINOM TRACKER 60% OFF!
比Adplexity还好用的Spy工具ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理虚拟信用卡+独立站收款
全球虚拟卡, 支持U充值Facebook 批量上广告尤里改 - FB 稳定投放免费黑五教程(持续更新、欢迎交流)
FB 三不限源头 - 自助下户充值转款各种主页、账单户、BM户(优势)⚡️TikTok企业户,bm户,账单户IPCola原生住宅IP⚡️$1.8/条双ISP
FB海外户、GG老户、TK加白老户海外CL企业户源头PTM虚拟卡[全新卡BIN+高返点]FB虚拟卡⚡️消费越多返现越多
最大欧洲Nutra网盟BA找量 FB个号1块一个TikTok2审户/老户/国内外端口/加白GG,FB,TK, 欧美源头, 欢迎合作❤️
跨境债务催收/风险代理FB企业户海外户,授信户,TK加白户Proxy4Free独家住宅IP池❤️免费测试联盟收款/海外资金下发/服贸结汇
域名防红⚠斗篷工具/可试用3天广告位出租8500万高质量住宅IP,助力各种需求虚拟卡返佣1%,国内持牌机构
查看: 10005|回复: 7

[业界] 求推荐一个一键提取网站里面的URL且根据域名去重复的小...

[复制链接]

36

主题

210

广告币

294

积分

初级会员

Rank: 2

积分
294
发表于 2016-2-26 16:08:04 | 显示全部楼层 |阅读模式
回复

使用道具 举报

2

主题

1477

广告币

1820

积分

高级会员

Rank: 4

积分
1820

社区QQ达人

发表于 2016-2-26 16:17:11 | 显示全部楼层
  1. #region 抓取全站链接
    * v. g- A: q* E7 C
  2.         public static List<string> GetAllHref(string url); o4 |) h* }1 }
  3.         {0 g7 P. x* S9 T1 F! ~
  4.             List<string> allHref = new List<string>();8 }  z& I0 U! N
  5.             try, [! h7 m  e$ r( M+ o0 u  h
  6.             {
    - }5 i0 n0 v! Z6 c7 X7 U( A5 R& j
  7.                 string strhtml = soso.getHtml(url, "", true);6 r7 G. ~" S' S2 ~. r% K7 ]
  8.                 if (strhtml != "error")1 }7 S6 {5 @* E& V
  9.                 {0 R" p8 K4 J' y) K
  10.                     Regex reg = new Regex(@"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>");
    7 o! A! _  N( p) q  v/ g4 N
  11.                     MatchCollection mc = reg.Matches(strhtml);$ Q; P- |7 _, H. |) Y; M
  12.                     foreach (Match m in mc)( E; Z% B* H$ @# [: M- S2 Y. N" R
  13.                     {4 x$ }. m( U- y3 }" x
  14.                         Uri uri = new Uri(url);
    7 ^( i# i8 j" D$ R; {
  15.                         Uri thisUri = new Uri(uri, m.Groups["url"].Value);6 X$ G3 }6 H% B5 V) F/ B2 `
  16.                         string fullUrl = "";
    2 n  w- l( P% D
  17.                         if (m.Groups["url"].Value.StartsWith("http"))
    ; f3 t" `4 o6 W
  18.                         {- W9 Y$ G+ H' K, p5 P0 @. U
  19.                             fullUrl = m.Groups["url"].Value;
    + H# z$ y  g4 e. Y+ _) j
  20.                         }  P0 R( f  n4 H. E$ @. x# t
  21.                         else
    , O# N3 C9 z! V) Y* X* [
  22.                         {% s% H* |( O( G  e, {
  23.                             fullUrl = thisUri.ToString();0 `3 m4 U, G  d: H1 j! z
  24.                         }
    9 x* D8 W# _% G: D0 M" z  p& n
  25.                         allHref.Add(fullUrl);. y9 t' C) T3 F$ r+ H
  26.                         //Console.WriteLine("原链接:" + m.Groups["url"].Value);
    " A+ s6 {/ w' m( C  t
  27.                         //Console.WriteLine("文本标记:" + m.Groups["text"].Value);
    6 E5 }/ W5 Y- j; A3 H8 x0 }
  28.                         //Console.WriteLine("补全链接:" + fullUrl);
    4 }% G; C- Q/ L0 u
  29.                         //Console.WriteLine("…………………………………………");. n' ^6 q! I" P1 Q
  30.                     }" ^* d/ Q' k! A
  31.                 }
    4 |* N1 g% m" c+ w9 k& g, {9 H
  32.             }" t9 O* M+ |" h6 h3 X% D. d5 I3 D9 j
  33.             catch (Exception ex)
    ; q" t7 U( ?" k
  34.             { }% s$ E  J" M. [; C4 e$ g: b
  35.             return allHref;
    2 K7 z1 `: @& `3 A& F" U
  36.         }4 O: J7 n% M$ w. @' W! i
  37.         #endregion
复制代码
- w8 e5 P- I/ F2 R, t( [* g; _- T' U

/ u- i& C3 I/ t+ l; F5 c( ^9 O9 [0 w

  1. ) k7 o, Z* E0 L! L0 g! Y% B

  2. / D$ Z* F3 q, _$ _, q& m
  3. ' v$ I5 w' Q/ I$ B" V9 ?/ A; U
  4. #region 数据去重7 J2 Y! l' M: @8 C" |- e
  5.         /// <summary>0 X9 f' I4 B$ N3 F
  6.         /// List<string>去重
    " x: h4 J6 A2 H" N; L& F7 F
  7.         /// </summary>
    7 a% c6 @. U8 W; g. k/ a+ E
  8.         /// <param name="list"></param>
    1 b* g. F% {) s( |) r: j& K6 k0 Y
  9.         /// <returns></returns>
    3 N( d& _' v7 A$ ]# d/ W) F1 v# L
  10.         public static List<string> getUnqueList(List<string> list)
    . P5 r4 y7 E) t9 ]' f( b% K( ^
  11.         {
    4 H  k5 S, z* ]$ \6 X
  12.             List<string> list1 = new List<string>();
    % Q  d; c$ s* ?5 l  |& _
  13.             Hashtable hash = new Hashtable();) e6 B0 i* `5 g, Q0 C* p
  14.             foreach (string s in list)& O4 T  z+ Z" R  Z
  15.             {
    ( {) w' d! ^( ^2 d
  16.                 if (!hash.ContainsKey(s))+ c" [" \$ h! w$ C7 g: ~
  17.                 {
    6 W# s1 ~6 r% M& a2 `
  18.                     hash.Add(s, s);; n$ A5 C" h' m% A+ a( v0 c
  19.                     list1.Add(s);' _! t6 R  s  @1 @& D$ I; x0 Y
  20.                 }
    2 K5 S! I  s7 n) V3 J% e" v/ B9 w0 \
  21.             }
    # d8 y9 N: V  C2 h  f: J
  22.             hash.Clear();5 g$ u8 x1 k0 g- a! I, ~$ a
  23.             hash = null;
    : W: @% C4 r& f& |& }4 ~* `2 b
  24.             return list1;
    2 X7 X5 H" n/ O# S( B  \* L
  25.         }
    + q- V% ^% C9 H3 q! j. q: n
  26.         #endregion
复制代码

$ H* V& _( q" Q2 A" E& Y) c3 _( T& O' R9 G  S

点评

谢谢分享  发表于 2016-2-27 15:15
十分感谢!!!非常感谢!!  详情 回复 发表于 2016-2-26 16:20
回复 支持 反对

使用道具 举报

36

主题

210

广告币

294

积分

初级会员

Rank: 2

积分
294
 楼主| 发表于 2016-2-26 16:20:16 | 显示全部楼层
. r; B- a9 q, M: a
十分感谢!!!非常感谢!!

点评

缺少一个gethtml,用下面这个:  详情 回复 发表于 2016-2-26 16:23
回复 支持 反对

使用道具 举报

2

主题

1477

广告币

1820

积分

高级会员

Rank: 4

积分
1820

社区QQ达人

发表于 2016-2-26 16:23:12 | 显示全部楼层
guys 发表于 2016-2-26 16:20
6 A5 W7 k$ P  ~; P# J1 ^3 g, i十分感谢!!!非常感谢!!

- A$ ?+ F- E* w4 t' _+ B缺少一个gethtml,用下面这个:! O, ]1 V9 |+ @: y; N, B
  1.      public string getHtml(string url, string charSet, bool UseUTF8CharSet)//url是要访问的网站地址,charSet是目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码
    3 [* s) X& h0 Y7 P" X
  2.         {
    # K: g8 ]. G/ d# U
  3.             string strWebData = "error";
    ( _! E: ~. }! H1 X9 M0 q8 H
  4.             try
    2 j" ?* m: \6 N) P9 {& U
  5.             {  e5 n3 t: Y4 X4 }1 ]% g
  6.                 WebClient myWebClient = new WebClient(); //创建WebClient实例myWebClient ; [! h8 b! I# f9 X$ @4 T3 _
  7.                 // 需要注意的: : x3 Z8 y; O) A7 Z1 a0 Q" u5 U3 U$ t
  8.                 //有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
    + n$ j: ]/ S# J. c: D6 I+ i( m
  9.                 //这是就要具体问题具体分析比如在头部加入cookie 2 S* k# y3 U6 E/ U
  10.                 // webclient.Headers.Add("Cookie", cookie);
    : D% b6 n4 C7 @1 y3 C# r
  11.                 //这样可能需要一些重载方法。根据需要写就可以了# O* C% E$ o2 T0 Z2 {
  12.                 myWebClient.Headers.Add("User-agent", "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)");
    ; f0 A5 [6 w) k- Z, I& F
  13.                 //myWebClient.Headers.Add("User-agent", "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)");
    * n5 `: _& k1 X: p+ w- o3 r
  14.                 //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
    8 U1 Y2 y3 A4 h9 H6 C6 n% M
  15.                 myWebClient.Credentials = CredentialCache.DefaultCredentials;& j2 S& D1 i  H9 U- P2 v
  16.                 //如果服务器要验证用户名,密码
    ! J0 n5 r3 D1 @+ N# S
  17.                 //NetworkCredential mycred = new NetworkCredential(struser, strpassword);
    5 i/ ]! h: {9 N; D; \; s5 s
  18.                 //myWebClient.Credentials = mycred; / Y; R7 p8 p1 J8 c% T& G
  19.                 //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号) * ]: ?8 H+ T+ i2 v
  20.                 byte[] myDataBuffer = myWebClient.DownloadData(url);* |/ o9 X' o' S2 f/ K( p4 Y0 z
  21.                 strWebData = Encoding.Default.GetString(myDataBuffer);) b$ V3 |( T& y/ z; h1 c+ r7 F" G4 T
  22. ; p' M, ~5 ^" v: [& j
  23.                 //获取网页字符编码描述信息
      j- ^. l( ~- w* O
  24.                 Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)"", RegexOptions.IgnoreCase | RegexOptions.Multiline);( ^/ m, Z, h9 w1 L
  25.                 string webCharSet = charSetMatch.Groups[2].Value;
    + \6 T: |  {5 {# e4 N5 ?# H5 ?
  26.                 if (charSet == null || charSet == "")
    1 R/ Y3 O  Q& S3 p" p0 ~- \5 T
  27.                     charSet = webCharSet;
    7 b' J9 U8 m" O! q% u0 j, R3 E
  28.                 if (charSet.Length > 0)1 K+ i4 i# Y) g# n. Z/ D
  29.                 {7 E- A! @7 j2 i' j
  30.                     charSet = charSet.Replace(""", "");
    1 a, I" x2 I/ Z& ]7 N4 G
  31.                 }; r* H) C, r/ s+ ~" S
  32.                 if (UseUTF8CharSet)/ ?5 ]7 D, V7 N% n
  33.                 {
    " t- J( ^. X! a" ]0 B
  34.                     if (charSet == null || charSet.Length == 0)
    # d9 R( H% a4 T, J+ `! h6 i
  35.                     {" \3 s/ I# P+ F+ l* N8 |# @. n2 [
  36.                         charSet = "utf-8";% e; y% t$ Z: l8 V
  37.                     }( G/ c3 X% T0 ]1 M7 Z! X
  38.                 }
    ! l" C3 i8 f* M5 [
  39.                 if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)" i* Q$ f3 F6 ~3 ~
  40.                     strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);8 |7 u' U8 Q+ }1 V* ~1 Y) Z
  41. , S4 S# J; _' E5 j, ^! D; r
  42.             }
    / l1 D$ H0 y: y. w
  43.             catch (Exception)
    5 f6 ?* Z" R5 v: S$ K
  44.             {! h3 |( u. G" ]5 l
  45.                 strWebData = "error";1 [! a) m2 X! S: [/ t+ a
  46.             }
    % f( P5 J, A) w/ v7 b! k
  47. / [9 V" g3 i' a% u
  48.             return strWebData;( }9 p$ I. A& [$ Z( V) U
  49.         }
复制代码

1 D1 v9 y9 Q. z- K& v
1 F  h1 c, }  r2 Q
回复 支持 反对

使用道具 举报

0

主题

0

广告币

13

积分

新手上路

Rank: 1

积分
13
发表于 2016-2-26 19:05:59 | 显示全部楼层
weishaneweishane
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2026-4-30 17:41 , Processed in 0.052104 second(s), 16 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表