使⽤正则表达式匹配嵌套Html标签
概述
正则表达式是做⽂本解析⼯作必不可少的技能。如Web服务器⽇志分析,⽹页前端开发等。很多⾼级⽂本编辑器都⽀持正则表达式的⼀个⼦
集,熟练掌握正则表达式,经常能够使你的⼀些⼯作事半功倍。例如,只需⼀个正则就搞定。嵌套Html标签的匹配是正则表达式应⽤中⼀
个⽐较难的话题,因为它涉及到的正则语法⽐较多,也⽐较难。因此也就更有研究的价值。
思路
任何复杂的正则表达式都是由简单的⼦表达式组成的,要想写出复杂的正则来,⼀⽅⾯需要有化繁为简的功底,另外⼀⽅⾯,我们需要从正
则引擎的⾓度去思考问题。关于正则引擎的原理,推荐《Mastering Regular Expression》中⽂名叫《精通正则表达式》。挺不错的⼀本
书。
OK,先确定我们要解决的问题——从⼀段Html⽂本中出特定id的标签的innerHTML。
这⾥⾯最⼤的难点就是,Html标签是⽀持嵌套的,怎么能够到指定标签相对应的闭合标签呢?
我们可以这样想,先匹配最前⾯的起始标签,假设是div吧(<div),接着⼀旦遇到嵌套div,就“压⼊堆栈”,后⾯如果遇到div闭合标签
了,就“弹出堆栈”。如果遇到闭合标签的时候,堆栈⾥⾯已经没有东西了,那么匹配结束,此结束标签为正确的闭合标签。
我之所以能够这样去思考,是因为我了解过正则的特性,我知道正则中的平衡组能够实现我刚才说的“堆栈”操作。所以,如果我们要编写
复杂正则表达式,需要对正则的⼀些⾼级特性⾄少有所了解,这样我们思考问题才有个⽅向。
实现
这⾥假设我们要匹配的⽂本是⼀段合法的Html⽂本。下⾯这段Html代码是从我的博客上拷贝下来的,作为我们的测试⽂本。我们要匹配的
就是footer这个div的innerHTML,同时把标签名也捕获下来。
<span class="kwrd"><</span><span class="html">div</span> <span class="attr">style</span><span class="kwrd">="background-color:gray;"</span> <spa
<span class="kwrd"><</span><span class="html">a</span> <span class="attr">id</span><span class="kwrd">="gotop"</span> <span class="attr">href</span> <span class="kwrd"><</span><span class="html">a</span> <span class="attr">id</span><span class="kwrd">="powered"</span> <span class="attr">href</spa <span class="kwrd"><</span><span class="html">div</span> <span class="attr">id</span><span class="kwrd">="copyright"</span><span class="kwrd">></spa Copyright <span class="attr">©</span> 2009 简单⽣活 —— Kevin Yang的博客
<span class="kwrd"></</span><span class="html">div</span><span class="kwrd">></span>
<span class="kwrd"><</span><span class="html">div</span> <span class="attr">id</span><span class="kwrd">="themeinfo"</span><span class="kwrd">></sp Theme by <span class="kwrd"><</span><span class="html">a</span> <span class="attr">href</span><span class="kwrd">="ase/"</spa and <span class="kwrd"><</span><span class="html">a</span> <span class="attr">href</span><span class="kwrd">="/css-validator/"</s <span class="kwrd"></</span><span class="html">div</span><span class="kwrd">></span>
<span class="kwrd"></</span><span class="html">div</span><span class="kwrd">></span>
这⾥我们需要借助⼯具来构建和测试编写的正则表达式。
匹配起始标签
起始标签特征很好提取,以尖括号打头,然后跟着⼀连串英⽂字母,然后⼀⼤串属性中(⾮尖括号字符)匹配id(不区分⼤⼩
写)=footer。需要注意的是,footer可以被双引号或者单引号包裹,也可以什么都不加。正则如下:
<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)["']?[^>]*>
上⾯的正则表达式需要做⼏点说明:
1. <;尖括号在正则中算是⼀个特殊字符,在显式捕获分组中⽤它将分组名括起来。但是因为开头的尖括号在此上下⽂下并不会出现解析歧
义,因此加不加转义符效果是⼀样的。
2. (?<GroupName>RegEx)格式定义⼀个命名分组,我们在上⾯定义了⼀个HtmlTag的标签分组,⽤来
存放匹配到的Html标签名。Quote
分组是⽤来给后⾯的匹配使⽤的。
3. (?(GroupName)Then|Else)是条件语句,表⽰当捕获到GroupName分组时执⾏Then匹配,否则执⾏Else匹配。上⾯的正则中,我们
先尝试匹配footer字符串左边的引号,并将其存⼊LeftQuote分组中,然后在footer右侧进⾏条件解析,如果之前匹配到LeftQuote分组,那么右侧也应该匹配LeftQuote分组。这样⼀来,我们就能精确匹配id的各种情况了。
匹配闭合标签
((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>
在成功匹配到起始标签之后,后⾯的Html⽂本可以分为三种情况:
A. 匹配到嵌套div起始标签<div,这个时候,需要将其捕获到Nested分组。
B. 匹配到嵌套div起始标签的闭合标签,这个时候,需要将之前的Nested分组释放
C. 其他任意⽂本。注意,需要使⽤.*?⽅式关闭贪婪匹配,否则最后的闭合标签可能会过度匹配
使⽤(RegEx1|RegEx2|RegEx3)*这种⽅式,可以将⼏个条件以或的形式组合起来,然后再取若⼲次匹配结果,最终再匹配闭合标签。其
中(?<-Nested>)是表⽰释放之前捕获的Nested分组。确切的语法是(?<N-M>)即使⽤N分组替换掉M分组,如果N分组没有指定或不存在,
则释放M分组。
href标签怎么用update:前⾯过于侧重分析了,最后没有给出⼀个完整的正则真是抱歉。
<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>[<span class="str">"']?)footer(?(Quote)\k<Quote>)["</span>']?[^>]*>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<Htm 上⾯这个正则能够匹配任意id=footer的html标签。
需要注意,此正则表达式需要设置SingleLine=true,这样点号才可以把换⾏符也匹配进去。
对于domoxz 的问题,如果要匹配p标签,那么只需将上述的正则中的<(?<HtmlTag>[\w]+)替换成<(?<HtmlTag>p)即可。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论