【转】java去除html代码中含有的html、js、css标签，获取文字内容

2021-03-05 01:26

阅读：652

标签：main方法字符 href 前途换行 mpi str 参考 https

【原文】：https://blog.csdn.net/u010882234/article/details/80585175

/**
 * 去除文章内容页页面代码里的HTML标签
 * Created by yanyl on 2018/6/4.
 */
public class DelTagsUtil {
    /**
     * 去除html代码中含有的标签
     * @param htmlStr
     * @return
     */
    public static String delHtmlTags(String htmlStr) {
        //定义script的正则表达式，去除js可以防止注入
        String scriptRegex="少年中国说。红日初升，其道大光。河出伏流，一泻汪洋。潜龙腾渊， 鳞爪飞扬。乳 虎啸  谷，百兽震惶。鹰隼试翼，风尘吸张。奇花初胎，矞矞皇皇。干将发硎，有作其芒。天戴其苍，地履其黄。纵有千古，横有" +
                "八荒。前途似海，来日方长。美哉我少年中国，与天不老！
壮哉我中国少年，与国无疆！
";
        System.out.println(getTextFromHtml(htmlStr));
    }
 
}

main方法运行结果

少年中国说。红日初升，其道大光。河出伏流，一泻汪洋。潜龙腾渊，鳞爪飞扬。乳虎啸谷，百兽震惶。鹰隼试翼，风尘吸张。奇花初胎，矞矞皇皇。干将发硎，有作其芒。天戴其苍，地履其黄。纵有千古，横有八荒。前途似海，来日方长。美哉我少年中国，与天不老！壮哉我中国少年，与国无疆！

忽略下面这两段

修改之处，因为实际中有些文本比较特殊，比如用括起来的文本：，上面的处理方式也会将这段当做是html标签，然后给处理掉了，对这句正则稍作修改即可，所以有特殊需求的，可以根据具体的需求进行修改

//定义HTML标签的正则表达式，去除标签，只提取文字内容
 String htmlRegex="]+>";

改为： String htmlRegex="]+/>";

最后贴一段代码，供参考：

/**
     * 去除字符串中的html标签.
     * 
     * 
     * StringUtils.replaceHtml(null)  = ""
     * StringUtils.replaceHtml("")    = ""
     * StringUtils.replaceHtml("content") = "content"
     * StringUtils.replaceHtml("content") = ""
     * 
     *
     * @param html 要处理的字符串，可以为 null
     * @return String 
     *
     */
    public static String replaceHtml(String html) {
        if (StringUtils.isBlank(html)) {
            return StringUtils.EMPTY;
        }
        String regEx = "<.>";
        Pattern p = Pattern.compile(regEx);
        Matcher m = p.matcher(html);
        String s = m.replaceAll(StringUtils.EMPTY);
        s = s.replaceAll("]*>", "");
        return s;
    }

【转】java去除html代码中含有的html、js、css标签，获取文字内容

标签：main方法字符 href 前途换行 mpi str 参考 https

原文地址：https://www.cnblogs.com/Guhongying/p/14333626.html

上一篇：解决springboot连接Redis出现 Redis exception； nested exception is io.lettuce.core.RedisException: java.io.I

下一篇：线程的几种状态总结

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：【转】java去除html代码中含有的html、js、css标签，获取文字内容
文章链接：http://soscw.com/index.php/essay/60238.html

亲，登录后才可以留言！

【转】java去除html代码中含有的html、js、css标签，获取文字内容

河出伏流，一泻汪洋。

美哉我少年中国，与天不老！

评论

热门文章

推荐文章

最新文章

置顶文章