正则表达式匹配html标签,获取标签内容
如何获取html中正⽂的内容
假设我们要获取下⾯html标签中的内容:
<p>桥边姑娘</p><p>你的芬芳</p><p>我把你放⼼上</p><p>不想让你流浪</p>
<p><span >王者荣耀</span></p>
第⼀段是获取<p></p>标签内部的数据,第⼆个是获取<p><span></span></p>标签中的数据,其中span标签中有style属性值。
使⽤过正则表达式的同学肯定知道,上⾯两种情况其实都是⼀种情况,我们要获取的是尖括号括起来的⼀对标签中间的数据,起始标签形如<x>,结束标签形如</x>,这⾥的x表⽰的html标签。
定义正则表达式
此外,我们还需要考虑起始标签中包含style的数据,另外特殊的<br/>标签,对实际获取数据⽆意义,也需要过滤掉。
通过上⾯的分析,我们可以如下正则表达式:
<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*?>
具体处理过程
数据预处理
在使⽤正则表达式处理之前,我们先对数据进⾏预处理,⽐如style和
标签:
/**
* 替换掉html标签⾥⾯的style内容
*
* @param content
* @return
*/
public static String replaceStyle(String content) {
if (content == null || content.length() == 0) {
return content;
}
String regEx = " style=\"(.*?)\"";
Pattern p = Patternpile(regEx);
Matcher m = p.matcher(content);
if (m.find()) {
content = m.replaceAll("");
}
return content;
}
/**
* 移除掉</br>标签
*
* @param src
* @return
*/
public static String removeBrTag(String src) {正则表达式获取括号内容
if (src != null && !src.isEmpty()) {
src = placeAll("<br/>", "");
}
return src;
}
针对标签嵌套的情况
针对多个标签嵌套的情况进⾏处理,⽐如 <p><span >王者荣耀</span></p>,在经过预处理和正则匹配的后结果是<span>王者荣耀,需要⼿⼯移除掉前⾯的起始标签,对应的⽅法如下:
/**
* 针对多个标签嵌套的情况进⾏处理
* ⽐如 <p><span >王者荣耀</span></p>
* 预处理并且正则匹配完之后结果是 <span>王者荣耀
* 需要⼿⼯移除掉前⾯的起始标签
* @param content
* @return
*/
public static String replaceStartTag(String content) {
if (content == null || content.length() == 0) {
return content;
}
String regEx = "<[a-zA-Z]*?>([\\s\\S]*?)";
Pattern p = Patternpile(regEx);
Matcher m = p.matcher(content);
if (m.find()) {
content = m.replaceAll("");
}
return content;
}
具体匹配⽅法
/**
* 匹配html标签,例如"<p>xxx</p>"这种格式
*/
private static Pattern HTML_TAG_PATTERN = Patternpile("<[a-zA-Z]+.*?>([\\s\\S]*?)</[a-zA-Z]*?>");
/**
* 获取html中的数据
* @param htmlString
* @return
*/
public static List<String> getResultsFromHtml(String htmlString) {
List<String> results = new ArrayList<>();
// 数据预处理
htmlString = replaceStyle(removeBrTag(htmlString));
if (htmlString != null && htmlString.length() > 0) {
Matcher imageTagMatcher = HTML_TAG_PATTERN.matcher(htmlString);
// 针对多个并列的标签的情况
while (imageTagMatcher.find()) {
String result = "";
// group(1)对应正则表达式中的圆括号括起来的数据
result = up(1).trim();
// 针对多个标签嵌套的情况进⾏处理
if (result != null && result.length() > 0) {
result = replaceStartTag(result);
}
results.add(result);
}
}
return results;
}
测试验证
测试⽅法如下:
public static void main(String[] args) {
String ss = "<p>桥边姑娘</p><p>你的芬芳</p><p>我把你放⼼上</p><p>不想让你流浪</p>"; List<String> results = getResultsFromHtml(ss);
System.out.println("results:" + results);
String ss1 = "<p><span style=\"white-space: normal;\">王者荣耀</span></p>";
List<String> results1 = getResultsFromHtml(ss1);
System.out.println("results1:" + results1);
}
output:
results:[桥边姑娘, 你的芬芳, 我把你放⼼上, 不想让你流浪]
results1:[王者荣耀]
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论