AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

PropellerAds
Google-Bing-Mediago-Criteo开户
⚡️按条S5代理⚡️静态⚡️独享⚡️5G广告专用虚拟卡/U充值/高返点皇家代理IP⚡️#1性价比⚡️
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利买量投流开户独立站⚡️开户投放
⚡️AdsPower:安全不封号,高效自动化Google FB TK游戏代投⚡️E.PN 虚拟卡⚡️FB BM不限额,短id账单户
BINOM TRACKER 60% OFF!比Adplexity还好用的Spy工具ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理
虚拟信用卡+独立站收款全球虚拟卡, 支持U充值各种主页、账单户、BM户(优势)⚡️TikTok企业户,bm户,账单户
IPCola原生住宅IP⚡️$1.8/条双ISP提供TK企业新户老户、谷歌新户老户海外CL企业户源头PTM虚拟卡[全新卡BIN+高返点]
FB虚拟卡⚡️消费越多返现越多最大欧洲Nutra网盟BA找量 FB个号1块一个寻找顶级电商?AdsBranded等你!
TK老户/国内外端口/预审/加白SX.ORG 高质量代理⚡235+ 地区GG,FB,TK, 欧美源头, 欢迎合作广告位出租
8500万高质量住宅IP,助力各种需求虚拟卡返佣1%,国内持牌机构  
查看: 9771|回复: 7

[业界] 求推荐一个一键提取网站里面的URL且根据域名去重复的小...

[复制链接]

36

主题

210

广告币

294

积分

初级会员

Rank: 2

积分
294
发表于 2016-2-26 16:08:04 | 显示全部楼层 |阅读模式
回复

使用道具 举报

2

主题

1475

广告币

1818

积分

高级会员

Rank: 4

积分
1818

社区QQ达人

发表于 2016-2-26 16:17:11 | 显示全部楼层
  1. #region 抓取全站链接& }8 K" [. \  O8 m
  2.         public static List<string> GetAllHref(string url)
    8 v: Q2 {& c6 U
  3.         {7 G! V# y$ L1 @! \
  4.             List<string> allHref = new List<string>();# u% Q1 [8 J1 V6 T  S' c5 ^
  5.             try
    ; y& H- F; M: D9 X
  6.             {. F- Z& N2 D, D; W3 _& a$ |8 a+ x
  7.                 string strhtml = soso.getHtml(url, "", true);
    , D2 R& F( d& c! c! \6 G, G
  8.                 if (strhtml != "error")% A" x& \6 e2 P2 j7 t6 ^
  9.                 {' M9 d$ `- G/ c; e# c: l
  10.                     Regex reg = new Regex(@"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>");  \" C' P  A7 i5 a& c
  11.                     MatchCollection mc = reg.Matches(strhtml);9 k3 u1 i) F6 _( |3 y' \
  12.                     foreach (Match m in mc)% C+ J* n2 k, ?+ ]
  13.                     {. V" n; A$ C" M5 \( t4 H$ |! P
  14.                         Uri uri = new Uri(url);
    + G* x" a, X8 p/ J. S; u  o! x
  15.                         Uri thisUri = new Uri(uri, m.Groups["url"].Value);$ K$ K# O* y+ M9 P; f' k
  16.                         string fullUrl = "";
    / `0 {6 M( k1 Q: t. e
  17.                         if (m.Groups["url"].Value.StartsWith("http"))& W: Z; u4 U# {
  18.                         {. K4 Q2 N; b9 O
  19.                             fullUrl = m.Groups["url"].Value;
    0 }7 u3 t* P  b( i0 S
  20.                         }
    7 e8 c6 d. b: s& v- E9 T
  21.                         else* K+ `! w& f7 X6 Y" \
  22.                         {
    & c% M( R8 H6 G2 s
  23.                             fullUrl = thisUri.ToString();
    4 p! ?5 k9 n# Z8 q# V" l8 I% r: y
  24.                         }: z/ n( j" v7 Y! k: R7 C
  25.                         allHref.Add(fullUrl);
    " L  U- [& J$ L; X% l/ i
  26.                         //Console.WriteLine("原链接:" + m.Groups["url"].Value);: K! ^& \& o5 j+ N9 r& t
  27.                         //Console.WriteLine("文本标记:" + m.Groups["text"].Value);5 K* H( l/ R# E
  28.                         //Console.WriteLine("补全链接:" + fullUrl);9 G' }/ S3 q- t" e7 D
  29.                         //Console.WriteLine("…………………………………………");
    5 d  G7 |% b) O0 z/ I
  30.                     }) L( ?" U# J& F7 A1 A4 i
  31.                 }2 k6 t. z& s/ V* j$ C
  32.             }( `+ A4 A; j# L
  33.             catch (Exception ex)
    6 [- L( w9 h! n- i  c0 D
  34.             { }# I0 h4 q% p% u7 c* }4 R/ S
  35.             return allHref;
    7 R/ F! C5 u" Q
  36.         }! }- {: U& `: Q9 h$ g; d- h
  37.         #endregion
复制代码
  C: v+ |: ^9 |+ @4 [

6 _7 N: R; V% f# R' g2 P0 Y  t2 j
  1. 8 ~* k6 R: a4 {7 ^3 [6 ?

  2. 2 }+ {2 ^( w% i( y

  3. ( ~5 u1 w: `7 q3 a
  4. #region 数据去重3 E$ U6 E& U" }
  5.         /// <summary>% C# V1 g" X4 o+ }( U
  6.         /// List<string>去重
    + ~8 G: s! ]3 \+ y/ ?% O
  7.         /// </summary>* F, J6 q! U# X! I% d; e6 w
  8.         /// <param name="list"></param>
    2 O1 r. ]% Q! ]8 U+ \
  9.         /// <returns></returns>" _; T, n9 J; g( n# l- U* h
  10.         public static List<string> getUnqueList(List<string> list)
    ( X2 |% c( [3 H/ k
  11.         {
    7 U. P* q4 Y" U  E3 e4 Q, O
  12.             List<string> list1 = new List<string>();9 ]3 ~) y+ {/ E" h1 W. b7 d
  13.             Hashtable hash = new Hashtable();+ j( R! j( e, P& K
  14.             foreach (string s in list)
    + ?( `- X- ^; @* G& v
  15.             {
    " c# K: w0 J) ^! d1 B- t
  16.                 if (!hash.ContainsKey(s))# h. c0 T& [- P0 A! z" ~% I
  17.                 {
    - Q$ P5 @1 s( z) I
  18.                     hash.Add(s, s);
    7 w" N3 e$ p8 D9 S
  19.                     list1.Add(s);
    ( o6 A& a. p' D- w, O9 r
  20.                 }
    - b- x, y8 u. `/ T! p- o' I
  21.             }: ?6 k: {6 ^3 J( y$ k( \
  22.             hash.Clear();6 S4 r( a- O0 C9 g
  23.             hash = null;9 r( L9 S# q+ D3 `$ [
  24.             return list1;
      x+ D7 N: X/ s
  25.         }
    0 p$ o  ^3 b3 ]* V
  26.         #endregion
复制代码

7 k2 N: W; Z3 z
* |5 |7 D+ S, b4 v" P% V% b

点评

谢谢分享  发表于 2016-2-27 15:15
十分感谢!!!非常感谢!!  详情 回复 发表于 2016-2-26 16:20
回复 支持 反对

使用道具 举报

36

主题

210

广告币

294

积分

初级会员

Rank: 2

积分
294
 楼主| 发表于 2016-2-26 16:20:16 | 显示全部楼层
! v3 I7 r  ]8 S3 y6 m+ J5 n) Q
十分感谢!!!非常感谢!!

点评

缺少一个gethtml,用下面这个:  详情 回复 发表于 2016-2-26 16:23
回复 支持 反对

使用道具 举报

2

主题

1475

广告币

1818

积分

高级会员

Rank: 4

积分
1818

社区QQ达人

发表于 2016-2-26 16:23:12 | 显示全部楼层
guys 发表于 2016-2-26 16:205 H5 b+ b) S! ^# l/ C3 _
十分感谢!!!非常感谢!!

0 i" R" ]5 U: E+ c缺少一个gethtml,用下面这个:
7 }/ K; _/ F. i# Q, D! e
  1.      public string getHtml(string url, string charSet, bool UseUTF8CharSet)//url是要访问的网站地址,charSet是目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码
    2 z" r6 o2 l: x* A3 F
  2.         {
    # n& }/ g8 k5 R$ y6 w9 J8 k7 l
  3.             string strWebData = "error";
    3 Q8 O0 I5 y1 r
  4.             try
    . x" u6 R3 e# o! ^4 M
  5.             {7 p& x. R7 A$ T* ]2 c
  6.                 WebClient myWebClient = new WebClient(); //创建WebClient实例myWebClient 7 t2 Y% Q: p9 s3 r
  7.                 // 需要注意的:
    3 F4 M8 v4 X& ^( X6 l+ D
  8.                 //有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等 ( B* k7 \) g; ~7 i9 L! [
  9.                 //这是就要具体问题具体分析比如在头部加入cookie
    4 E5 s9 g7 o( K
  10.                 // webclient.Headers.Add("Cookie", cookie); 0 W6 P$ l, h, }) a3 b3 D
  11.                 //这样可能需要一些重载方法。根据需要写就可以了1 O4 f6 C4 j9 C' i3 y
  12.                 myWebClient.Headers.Add("User-agent", "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)");# f" y& d# y* X- u
  13.                 //myWebClient.Headers.Add("User-agent", "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)");& p8 h) `0 W* L- F( t4 A8 [
  14.                 //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
    ' _4 I3 h- p% n, f6 Y$ T8 C. G8 O
  15.                 myWebClient.Credentials = CredentialCache.DefaultCredentials;. d; D/ p/ G3 l
  16.                 //如果服务器要验证用户名,密码
    . [% Q5 H3 ?1 x( L; Y# N
  17.                 //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 7 Q" I$ L7 d* @- D# A
  18.                 //myWebClient.Credentials = mycred; ; P6 R; T1 s! w! [" H. t, r
  19.                 //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号) 8 u" @' r8 b6 b. }1 w" t5 j
  20.                 byte[] myDataBuffer = myWebClient.DownloadData(url);$ i  O6 o* `8 O% {, o5 J9 D
  21.                 strWebData = Encoding.Default.GetString(myDataBuffer);' |, W; ~% X# E$ y4 e& r: f

  22. 9 W" w6 R- w4 e: I5 F# V
  23.                 //获取网页字符编码描述信息 2 \. M- F' i6 m5 x
  24.                 Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
    ; M+ L- [2 }/ S) n
  25.                 string webCharSet = charSetMatch.Groups[2].Value;
    2 M; I( f; \3 [8 f
  26.                 if (charSet == null || charSet == "")
    ( [9 l+ f7 U( L- N2 S% Z4 ]
  27.                     charSet = webCharSet;; f$ u2 n& M5 D. T0 @
  28.                 if (charSet.Length > 0): P5 F, L. X( ]) d( e* b* P
  29.                 {7 x& |0 R! N  l, `  ~, N
  30.                     charSet = charSet.Replace(""", "");) `/ u1 `( z4 [$ Q2 Z# U' u" i
  31.                 }
    ( [' {8 L/ ^7 T. o1 {. o. A
  32.                 if (UseUTF8CharSet)
      _" x* p" x, \6 a
  33.                 {  E6 j; V* p: p! s) s) t( Y4 w% y
  34.                     if (charSet == null || charSet.Length == 0)' I! w& [* Z" B. J, C
  35.                     {
    : b& B/ J- Y$ }+ o9 Q, k
  36.                         charSet = "utf-8";
    1 i% T6 Y' k# L" I* j. a
  37.                     }
    * |1 ^2 r, b$ E% ~* a
  38.                 }# |9 C% V; G: ]! q7 q
  39.                 if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)/ l& k% j3 K$ ^+ o" K3 d/ O
  40.                     strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);! D# l, n( u5 M7 l
  41. ; H2 Z& p% M3 O( i1 w
  42.             }
    ! c3 j1 ~8 r+ p" [4 {. w3 K
  43.             catch (Exception)
    9 }- R# T2 k7 H2 V% o8 X
  44.             {$ ~. [1 H9 [0 q) ~( ?  U
  45.                 strWebData = "error";
    & M# H6 _$ m- e7 |! _/ w
  46.             }! l. k1 ?3 R3 i6 ~, r, r# y) k9 z9 ]

  47. , {) z7 f. W: ^7 [; D4 m
  48.             return strWebData;
    $ i4 \" j& n5 |. _6 [4 x% C0 v. x
  49.         }
复制代码
+ o1 l) N, H9 D7 Q* K0 I" ^

' h" E' r, h  z5 k
回复 支持 反对

使用道具 举报

0

主题

0

广告币

13

积分

新手上路

Rank: 1

积分
13
发表于 2016-2-26 19:05:59 | 显示全部楼层
weishaneweishane
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2026-2-22 04:11 , Processed in 0.050816 second(s), 16 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表