正则表达式过滤html--688IT编程网

正则表达式过滤html

在项⽬中会经常⽤正则表达式过滤html，⽐如得到Body⾥⾯的内容，获取⽹页中的img,a标签，或者得到纯⽂本等等。下⾯的Demo 实现对Html的过滤

主要⽤到的类：

1、System.Text.RegularExpressions; // 正则表达

2、System.IO; // IO流

3、System.Net; //

第⼀步：搭建简易前台页⾯

<div>

⽬标源地址：<asp:TextBox ID="tbUrl" runat="server"></asp:TextBox></div>

<br />

<asp:TextBox runat="server" TextMode="MultiLine" Width="500px" Height="500px" ID="tbCode"></asp:TextBox>

<br />

<asp:Button ID="btnRetrieveAll" runat="server" Text="搜索整个Html源码" OnClick="btnRetrieveAll_Click" />

<asp:Button ID="btnRetrievePureTxt" runat="server" Text="搜索纯⽂本" OnClick="btnRetrievePureTxt_Click" />

<asp:Button ID="btnRetrieveLink" runat="server" Text="搜索链接标签" OnClick="btnRetrieveLink_Click" />

<asp:Button ID="btnRetrieveImg" runat="server" Text="搜索图⽚标签"

onclick="btnRetrieveImg_Click" />

<asp:Button ID="btnRetriveScript" runat="server" Text="搜索脚本"

onclick="btnRetriveScript_Click" />

</form>

第⼆步：定义类级变量

string strUrl = String.Empty;

string strWholeHtml = string.Empty;

const string MsgPageRetrieveFailed = "对不起,⽹页运⾏失败！";

bool flgPageRetrieved = true;

第三步：根据⽬标源取⽬标html源码

///<summary>

///⽤WebRequest和WebRespond从SourcePage.aspx中检索完整的html代码

///我们把html代码的格式转换为uft-8.

///</summary>

//<param name="url"></param>

///<returns></returns>

public string GetWholeHtmlCode(string url)

{

string strHtml = string.Empty;

StreamReader strReader = null;

HttpWebResponse wrpContent = null;

try

{

HttpWebRequest wrqContent = (HttpWebRequest)WebRequest.Create(strUrl);

wrqContent.Timeout = 300000;

wrpContent = (HttpWebResponse)wrqContent.GetResponse();

if (wrpContent.StatusCode != HttpStatusCode.OK)

{

flgPageRetrieved = false;

strHtml = "对不起,⽹页运⾏失败";

}

if (wrpContent != null)

{

strReader = new StreamReader(wrpContent.GetResponseStream(), Encoding.GetEncoding("utf-8"));

strHtml = strReader.ReadToEnd();

}

catch (Exception e)

{

flgPageRetrieved = false;

strHtml = e.Message;

}

finally

{

if (strReader != null)

strReader.Close();

if (wrpContent != null)

wrpContent.Close();

}

return strHtml;

}

⽬标URL源html码

protected void btnRetrieveAll_Click(object sender, EventArgs e)

{

strUrl = TextBox1.Text;

strWholeHtml = this.GetWholeHtmlCode(strUrl);

if (flgPageRetrieved)

{

tbResult.Text = strWholeHtml;

正则化过滤器}

else

{

tbResult.Text = MsgPageRetrieveFailed;

}

Html源纯⽂本

///<summary>

///从html代码⾥搜索纯⽂本，这个纯⽂本只包括html的

/// Body标记.

//</summary>

///<param name="sender"></param>

///<param name="e"></param>

protected void btnRetrievePureText_Click(object sender, EventArgs e)

{

strWholeHtml = this.GetWholeHtmlCode(strUrl);

if (flgPageRetrieved)

{

string strRegexScript = @"(?m)<body[^>]*>(\w|\W)*?</body[^>]*>";

string strRegex = @"<[^>]*>";

string strMatchScript = string.Empty;

Match matchText = Regex.Match(strWholeHtml, strRegexScript, RegexOptions.IgnoreCase);

strMatchScript = matchText.Groups[0].Value;

string strPureText = Regex.Replace(strMatchScript, strRegex, string.Empty, RegexOptions.IgnoreCase);

tbResult.Text = strPureText;

}

else

{

tbResult.Text = MsgPageRetrieveFailed;

}

获取脚本代码

///<summary>

///从html代码中检索脚本代码.

///</summary>

///<param name="sender"></param>

///<param name="e"></param>

protected void btnRetrieveSriptCode_Click(object sender, EventArgs e)

{

strWholeHtml = this.GetWholeHtmlCode(strUrl);

if (flgPageRetrieved)

{

string strRegexScript = @"(?m)<script[^>]*>(\w|\W)*?</script[^>]*>";

string strRegex = @"<[^>]*>";

string strMatchScript = string.Empty;

MatchCollection matchList = Regex.Matches(strWholeHtml, strRegexScript, RegexOptions.IgnoreCase);

StringBuilder strbScriptList = new StringBuilder();

foreach (Match matchSingleScript in matchList)

{

string strSingleScriptText = Regex.Replace(matchSingleScript.Value, strRegex, string.Empty, RegexOptions.IgnoreCase); strbScriptList.Append(strSingleScriptText + "\r\n");

}

tbResult.Text = strbScriptList.ToString();

}

else

{

tbResult.Text = MsgPageRetrieveFailed;

}

获取图⽚img

///<summary>

///从html代码中检索图⽚信息.

///</summary>

///<param name="sender"></param>

///<param name="e"></param>

protected void btnRetrieveImage_Click(object sender, EventArgs e)

{

strWholeHtml = this.GetWholeHtmlCode(strUrl);

if (flgPageRetrieved)

{

string strRegexImg = @"(?is)<img.*?>";

MatchCollection matchList = Regex.Matches(strWholeHtml, strRegexImg, RegexOptions.IgnoreCase); StringBuilder strbImageList = new StringBuilder();

foreach (Match matchSingleImage in matchList)

{

strbImageList.Append(matchSingleImage.Value + "\r\n");

}

tbResult.Text = strbImageList.ToString();

}

else

{

tbResult.Text = MsgPageRetrieveFailed;

}

html链接

/// <summary>

/// 从html代码中检索链接.

/// </summary>

// <param name="sender"></param>

/// <param name="e"></param>

protected void btnRetrievelink_Click(object sender, EventArgs e)

{

strUrl = TextBox1.Text;

strWholeHtml = this.GetWholeHtmlCode(strUrl);

if (flgPageRetrieved)

{

string strRegexLink = @"(?is)<a .*?>";

MatchCollection matchList = Regex.Matches(strWholeHtml, strRegexLink, RegexOptions.IgnoreCase); StringBuilder strbLinkList = new StringBuilder();

foreach (Match matchSingleLink in matchList)

{

strbLinkList.Append(matchSingleLink.Value + "\r\n");

}

tbResult.Text = strbLinkList.ToString();

}

else

{

tbResult.Text = MsgPageRetrieveFailed;

}

这个Demo能满⾜⼤多数的过滤Html 需求。

688IT编程网

正则表达式过滤html

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

正则表达式过滤html

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式