Java提取文本文档中的所有网址(小案例介绍正则基础知识)
2020-12-13 03:04
标签:ftp 成功 ringbuf 查找 介绍 data flush 资源 文本文件 定义: 正则表达式是一些用来匹配和处理文本的字符串 查找特定的信息(搜索) 替换一些文本(替换) 例子: 正则用【|】表示或,当满足分支里任何一种条件时,就会匹配成功 正则提供‘[]’表示区间条件 这里会说一个例子:在一段txt文档中找出所有的网址 正则表达式匹配使用方式 Java读取文本文件 Java写入文本文件 测试代码 把文档.txt读取到Java中,然后处理完,最后写到我指定的文件中 结果 Java提取文本文档中的所有网址(小案例介绍正则基础知识) 标签:ftp 成功 ringbuf 查找 介绍 data flush 资源 文本文件 原文地址:https://www.cnblogs.com/baijinqiang/p/11067033.html正则表达式基础以及Java中使用正则查找
正则的基础(先大致了解下)
1. 正则表达式的作用
2. 正则基础知识
1. 元字符
#匹配abc开头的字符串
^abd
#匹配8位数字的QQ号
^dddddddd$
#匹配以153开头的11位数字手机号
^153dddddddd$
2. 重复限定符
#匹配8位数字QQ号
^d{8}$
#匹配153开头11位手机号
^(153)d{8}$
#匹配身份证号第7到14位(出生日期)
^d{7,14}$
#匹配以a开头的,0个或者多个以b结尾的字符串
^ab*$
3. 分组
#匹配字符串中包含0到多个ab开头
^(ab)*$
4. 条件或
#匹配手机号中联通的手机(联通号段130/131/132等)
^(130|131|132)d{8}$
5. 区间
Java中使用正则表达式
Java与正则
1. 这里有一段100000000(自己数,我也不知道几个0)行的文本,如图
2. 高手写好的匹配url的正则
(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]
当然还有n多种方式3. Java代码献上
/**
* 参数1 regex:我们的正则字符串
* 参数2 就是一大段文本,这里用data表示
*/
private String filterSpecialStr(String regex, String data) {
//sb存放正则匹配的结果
StringBuffer sb = new StringBuffer();
//编译正则字符串
Pattern p = Pattern.compile(regex);
//利用正则去匹配
Matcher matcher = p.matcher(data);
//如果找到了我们正则里要的东西
while (matcher.find()) {
//保存到sb中,"\r\n"表示找到一个放一行,就是换行
sb.append(matcher.group() + "\r\n");
}
return sb.toString();
}
4. 这里增加两个文件的读写
private String readFile(String pathName) {
//读取到的文件内容放到这个sb里
StringBuffer sb = new StringBuffer();
//The Java 7 try-with-resources syntax (Automatic Resource Management) is nice (这种写法是Java7的一种语法,自动管理资源,不理解自行百度)
try (BufferedReader br = new BufferedReader(new FileReader(pathName))) {
String line;
while ((line = br.readLine()) != null) {
sb.append(line + "\r\n");
}
System.out.println("读取文件完成");
} catch (IOException e) {
e.printStackTrace();
}
return sb.toString();
}
private void writeFile(String pathName, String data) {
try {
//文件不存在的话新建,存在覆盖
File file = new File(pathName);
file.createNewFile();
//The Java 7 try-with-resources syntax (Automatic Resource Management) is nice
try (BufferedWriter bw = new BufferedWriter(new FileWriter(file))) {
bw.write(data);
bw.flush();
System.out.println("文件写入完成");
} catch (IOException e) {
e.printStackTrace();
}
} catch (IOException e) {
e.printStackTrace();
}
}
5. 执行结果
public static void main(String[] args) {
//0. 准备好正则
String regex = "(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]";
//1. 读取文档
String data = readFile("F:\\test\\文档.txt");
//2. 正则查找
String needData = filterSpecialStr(regex, data);
//3. 写到某个文件中
writeFile("F:\\test\\needData.txt", needData);
}
上一篇:三.python高级
文章标题:Java提取文本文档中的所有网址(小案例介绍正则基础知识)
文章链接:http://soscw.com/essay/26857.html