使用正则表达式匹配嵌套Html标签--688IT编程网

使⽤正则表达式匹配嵌套Html标签

概述

正则表达式是做⽂本解析⼯作必不可少的技能。如Web服务器⽇志分析，⽹页前端开发等。很多⾼级⽂本编辑器都⽀持正则表达式的⼀个⼦

集，熟练掌握正则表达式，经常能够使你的⼀些⼯作事半功倍。例如，只需⼀个正则就搞定。嵌套Html标签的匹配是正则表达式应⽤中⼀

个⽐较难的话题，因为它涉及到的正则语法⽐较多，也⽐较难。因此也就更有研究的价值。

思路

任何复杂的正则表达式都是由简单的⼦表达式组成的，要想写出复杂的正则来，⼀⽅⾯需要有化繁为简的功底，另外⼀⽅⾯，我们需要从正

则引擎的⾓度去思考问题。关于正则引擎的原理，推荐《Mastering Regular Expression》中⽂名叫《精通正则表达式》。挺不错的⼀本

书。

OK，先确定我们要解决的问题——从⼀段Html⽂本中出特定id的标签的innerHTML。

这⾥⾯最⼤的难点就是，Html标签是⽀持嵌套的，怎么能够到指定标签相对应的闭合标签呢？

我们可以这样想，先匹配最前⾯的起始标签，假设是div吧（<div），接着⼀旦遇到嵌套div，就“压⼊堆栈”，后⾯如果遇到div闭合标签

了，就“弹出堆栈”。如果遇到闭合标签的时候，堆栈⾥⾯已经没有东西了，那么匹配结束，此结束标签为正确的闭合标签。

我之所以能够这样去思考，是因为我了解过正则的特性，我知道正则中的平衡组能够实现我刚才说的“堆栈”操作。所以，如果我们要编写

复杂正则表达式，需要对正则的⼀些⾼级特性⾄少有所了解，这样我们思考问题才有个⽅向。

实现

这⾥假设我们要匹配的⽂本是⼀段合法的Html⽂本。下⾯这段Html代码是从我的博客上拷贝下来的，作为我们的测试⽂本。我们要匹配的

就是footer这个div的innerHTML，同时把标签名也捕获下来。

<div style="background-color:gray;" <spa

<a id="gotop" href <a id="powered" href</spa <div id="copyright"></spa Copyright © 2009 简单⽣活 —— Kevin Yang的博客

</div>

</div>

这⾥我们需要借助⼯具来构建和测试编写的正则表达式。

匹配起始标签

起始标签特征很好提取，以尖括号打头，然后跟着⼀连串英⽂字母，然后⼀⼤串属性中（⾮尖括号字符）匹配id（不区分⼤⼩

写）=footer。需要注意的是，footer可以被双引号或者单引号包裹，也可以什么都不加。正则如下：

<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)["']?[^>]*>

上⾯的正则表达式需要做⼏点说明：

1. <；尖括号在正则中算是⼀个特殊字符，在显式捕获分组中⽤它将分组名括起来。但是因为开头的尖括号在此上下⽂下并不会出现解析歧

义，因此加不加转义符效果是⼀样的。

2. (?<GroupName>RegEx)格式定义⼀个命名分组，我们在上⾯定义了⼀个HtmlTag的标签分组，⽤来

存放匹配到的Html标签名。Quote

分组是⽤来给后⾯的匹配使⽤的。

3. (?(GroupName)Then|Else)是条件语句，表⽰当捕获到GroupName分组时执⾏Then匹配，否则执⾏Else匹配。上⾯的正则中，我们

先尝试匹配footer字符串左边的引号，并将其存⼊LeftQuote分组中，然后在footer右侧进⾏条件解析，如果之前匹配到LeftQuote分组，那么右侧也应该匹配LeftQuote分组。这样⼀来，我们就能精确匹配id的各种情况了。

匹配闭合标签

((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

在成功匹配到起始标签之后，后⾯的Html⽂本可以分为三种情况：

A. 匹配到嵌套div起始标签<div，这个时候，需要将其捕获到Nested分组。

B. 匹配到嵌套div起始标签的闭合标签，这个时候，需要将之前的Nested分组释放

C. 其他任意⽂本。注意，需要使⽤.*?⽅式关闭贪婪匹配，否则最后的闭合标签可能会过度匹配

使⽤(RegEx1|RegEx2|RegEx3)*这种⽅式，可以将⼏个条件以或的形式组合起来，然后再取若⼲次匹配结果，最终再匹配闭合标签。其

中(?<-Nested>)是表⽰释放之前捕获的Nested分组。确切的语法是(?<N-M>)即使⽤N分组替换掉M分组，如果N分组没有指定或不存在，

则释放M分组。

href标签怎么用update：前⾯过于侧重分析了，最后没有给出⼀个完整的正则真是抱歉。

<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)["']?[^>]*>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<Htm 上⾯这个正则能够匹配任意id=footer的html标签。

需要注意，此正则表达式需要设置SingleLine=true，这样点号才可以把换⾏符也匹配进去。

对于domoxz 的问题，如果要匹配p标签，那么只需将上述的正则中的<(?<HtmlTag>[\w]+)替换成<(?<HtmlTag>p)即可。

688IT编程网

使用正则表达式匹配嵌套Html标签

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

使用正则表达式匹配嵌套Html标签

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行