【转】java去除html代码中含有的html、js、css标签,获取文字内容
2021-03-05 01:26
标签:main方法 字符 href 前途 换行 mpi str 参考 https 【原文】:https://blog.csdn.net/u010882234/article/details/80585175 壮哉我中国少年,与国无疆! main方法运行结果 忽略下面这两段 修改之处,因为实际中有些文本比较特殊,比如用括起来的文本: ,上面的处理方式也会将这段当做是html标签,然后给处理掉了,对这句正则稍作修改即可,所以有特殊需求的,可以根据具体的需求进行修改 最后贴一段代码,供参考:
* 【转】java去除html代码中含有的html、js、css标签,获取文字内容 标签:main方法 字符 href 前途 换行 mpi str 参考 https 原文地址:https://www.cnblogs.com/Guhongying/p/14333626.html/**
* 去除文章内容页页面代码里的HTML标签
* Created by yanyl on 2018/6/4.
*/
public class DelTagsUtil {
/**
* 去除html代码中含有的标签
* @param htmlStr
* @return
*/
public static String delHtmlTags(String htmlStr) {
//定义script的正则表达式,去除js可以防止注入
String scriptRegex="少年中国说。红日初升,其道大光。
河出伏流,一泻汪洋。
潜龙腾渊, 鳞爪飞扬。乳 虎啸 谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有" +
"八荒。前途似海,来日方长。美哉我少年中国,与天不老!
少年中国说。红日初升,其道大光。河出伏流,一泻汪洋。潜龙腾渊,鳞爪飞扬。乳虎啸谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有八荒。前途似海,来日方长。美哉我少年中国,与天不老!壮哉我中国少年,与国无疆!
//定义HTML标签的正则表达式,去除标签,只提取文字内容
String htmlRegex="]+>";
改为: String htmlRegex="]+/>";
/**
* 去除字符串中的html标签.
*
* StringUtils.replaceHtml(null) = ""
* StringUtils.replaceHtml("") = ""
* StringUtils.replaceHtml("
*
* @param html 要处理的字符串,可以为 null
* @return String
*
*/
public static String replaceHtml(String html) {
if (StringUtils.isBlank(html)) {
return StringUtils.EMPTY;
}
String regEx = "<.>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(html);
String s = m.replaceAll(StringUtils.EMPTY);
s = s.replaceAll("]*>", "");
return s;
}content ") = "content"
* StringUtils.replaceHtml("content") = ""
*
上一篇:解决springboot连接Redis出现 Redis exception; nested exception is io.lettuce.core.RedisException: java.io.I
下一篇:线程的几种状态总结
文章标题:【转】java去除html代码中含有的html、js、css标签,获取文字内容
文章链接:http://soscw.com/index.php/essay/60238.html