Java正则表达式如何匹配特定html标签内的内容
如题:
使⽤正则表达式,怎么匹配特定html标签内的内容。
⽐如,对于如下⽂本串:
... ignored content
prefix content
<html>inner content</html>
postfix content
... ignored content
我们要提取出<html>标签内的内容: inner content(这⾥的html标签可以换成任何其它的标签,⽐如<p>标签)
这⾥引⼊正则表达式的group概念:详细点击⽂章查看
⽐如:对于⼀个正则表达式( ( A ) ( B ( C ) ) )
group 1为:( ( A ) ( B ( C ) ) )
group 2为:( A )
group 3为:( B ( C ) )
group 4为:( C )
这样,我们就能够构造出如下的正则表达式:.*(<(html>)(.*)</\2).*
此表达式的group概念为:
group 1: (<(html>)(.*)</\2)
group 2: (html>)
group 3: (.*)
显然我们要求的就是group3的内容。
注意:\2是对group2的引⽤,也就是html>
该正则表达式也可以写成: .*(<(html>)(.*)</(html>)).* 化简其实就是.*<html>(.*)</html>.*
代码实现为:
String p = ".*(<(html>)(.*)</\\2).*";
String m = "prefix<html>午休abc</html>postfix";
System.out.println("Pattern: " + p);
System.out.println("String to be test: " + m);
Pattern pattern = Patternpile(p);
Matcher matcher = pattern.matcher(m);
if(matcher.matches()) {
System.out.println("Matched String: " + up(3));
} else {
System.out.println("So sad, not matching anything!");
}
总结
如何查看html代码到此这篇关于Java正则表达式如何匹配特定html标签内容的⽂章就介绍到这了,更多相关Java正则表达式匹配html标签内容内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论