【转】java去除html代码中含有的html、js、css标签,获取文字内容

2021-03-05 01:26

阅读:525

标签:main方法   字符   href   前途   换行   mpi   str   参考   https   

【原文】:https://blog.csdn.net/u010882234/article/details/80585175

/**
 * 去除文章内容页页面代码里的HTML标签
 * Created by yanyl on 2018/6/4.
 */
public class DelTagsUtil {
    /**
     * 去除html代码中含有的标签
     * @param htmlStr
     * @return
     */
    public static String delHtmlTags(String htmlStr) {
        //定义script的正则表达式,去除js可以防止注入
        String scriptRegex="少年中国说。红日初升,其道大光。

河出伏流,一泻汪洋。

潜龙腾渊, 鳞爪飞扬。乳 虎啸 谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有" + "八荒。前途似海,来日方长。

美哉我少年中国,与天不老!

壮哉我中国少年,与国无疆!

"; System.out.println(getTextFromHtml(htmlStr)); } }

main方法运行结果

少年中国说。红日初升,其道大光。河出伏流,一泻汪洋。潜龙腾渊,鳞爪飞扬。乳虎啸谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有八荒。前途似海,来日方长。美哉我少年中国,与天不老!壮哉我中国少年,与国无疆!



忽略下面这两段

修改之处,因为实际中有些文本比较特殊,比如用括起来的文本:   ,上面的处理方式也会将这段当做是html标签,然后给处理掉了,对这句正则稍作修改即可,所以有特殊需求的,可以根据具体的需求进行修改

//定义HTML标签的正则表达式,去除标签,只提取文字内容
 String htmlRegex="]+>";

改为: String htmlRegex="]+/>";


最后贴一段代码,供参考:

/**
     * 去除字符串中的html标签.
     * 

*

     * StringUtils.replaceHtml(null)  = ""
     * StringUtils.replaceHtml("")    = ""
     * StringUtils.replaceHtml("content") = "content"
     * StringUtils.replaceHtml("content") = ""
     * 
* *
@param html 要处理的字符串,可以为 null * @return String * */ public static String replaceHtml(String html) { if (StringUtils.isBlank(html)) { return StringUtils.EMPTY; } String regEx = "<.>"; Pattern p = Pattern.compile(regEx); Matcher m = p.matcher(html); String s = m.replaceAll(StringUtils.EMPTY); s = s.replaceAll("]*>", ""); return s; }

 

【转】java去除html代码中含有的html、js、css标签,获取文字内容

标签:main方法   字符   href   前途   换行   mpi   str   参考   https   

原文地址:https://www.cnblogs.com/Guhongying/p/14333626.html


评论


亲,登录后才可以留言!