C++正则表达式 <regex>
2020-12-13 03:13
标签:wchar cas 结束 reference 替换 asc 表达式 cout 字符串 概括而言,使用正则表达式处理字符串的流程包括:用正则表达式定义要匹配的字符串的规则,然后对目标字符串进行匹配,最后对匹配到的结果进行操作。C++ 的 regex 库提供了用于表示正则表达式和匹配结果的基本类型,以及使用这些基本类型作为参数或返回结果(通过参数来返回,不是函数的返回值)的搜寻、匹配、替换等函数。 模板类型 构造函数一般接受一个字符串作为参数,如 构造函数中还有一个默认参数flags,默认值为 具体的构造函数声明及fags值的定义参考basic_regex::basic_regex - C++ Reference。 与 根据一次匹配的结果, 用于将目标串和正则表达式匹配,返回一个 bool 值, 只要目标字串中有一个字串(无论该子串在字符串中什么位置)能和正则表达式相匹配就返回 该函数有多个重载版本,常用的版本中参数顺序基本上 参数 在替换时,会先将参数 标签:wchar cas 结束 reference 替换 asc 表达式 cout 字符串 原文地址:https://www.cnblogs.com/jerrywossion/p/10086051.html一 简介
二 基本类型
2.1
basic_regex
及其实例化类型 regex
、wregex
basic_regex
用于表示正则表达式对象,
库提供了它的两种实例化类型:typedef basic_regex
std::regex reg ("[0-9A-Z]+");
std::regex::ECMAScript
,该参数可以用来设置正则表达式所采用的语法(有且只能设置一种),如 std::regex::grep, std::regex::awk
等,也可以设置 case insensitive,flags 的多个值用比特位 OR 操作|
连接,如std::regex ninth ("\\bd\\w+", ECMAScript | icase );
2.2
match_results
、sub_match
及其实例化类型match_results
是一种 container-like 的模板类,用于存放对目标串执行完 regex matching 操作后匹配到的结果,其中的每个元素(即每个匹配结果)是一个 sub_match
的实例化对象。match_results
的实例类型有下列四种:typedef match_results
match_results
相似,sub_match
的实例化类型也有四种:typedef sub_match
sub_match
对象存储的不是匹配到的字符串本身,而是指向这个串开始(initial)和结束后一个字符(past-the-end)的 bidirectional iterators
,但是它们表现起来类似于一个字符串,成员函数 length
返回字符串长度。compare
用于和一个字符串或另一个 sub_match
对象比较,相等则返回0,不等则:若它比参数小(第一个未匹配的字符小于参数中该位置字符,或者它是参数的一个前缀)返回一个负值,否则返回一个正值。str
返回对应的字符串。match_results
可能为空也可能不空,使用 match_results::empty()
来判空,使用 match_results::size()
来获取元素个数。对于一个不空的 match_results
对象,其第一个 sub_match
元素([0]
)对应着整个完整匹配,后续的元素对应着正则表达式中的 sub-match(即用()
括起来的各个分组匹配),未匹配的部分可以通过 prefix
和 suffix
来获取。下面是一个简单的例子,参考自 boost的文档:#include
Output:
======================================
sm.prefix: @
sm[0]: abc def
sm[1]: abc
sm[2]: def
sm.prefix: --
三 正则操作
3.1
regex_match
true
为匹配,false
为不匹配。匹配的含义是目标字符串必须完全和正则表达式相匹配,不能有多余的字符,如果需要部分匹配则应使用regex_search
。函数签名有很多,详见cplusplus.com。构造函数分成两种,一种接受一个 match_results
作为对象,参数顺序为:待匹配的字符串,match_results
对象,正则表达式对象;另一种没有 match_results
,参数顺序为:待匹配的字符串,正则表达式对象。此外,函数还接受一个可选的 flags
参数,用于控制匹配选项,详见链接。3.2
regex_search
true
。函数签名同regex_match
相似。3.3
regex_replace
s
,rgx
,fmt
,flags
,其中 s
为要处理的字符串,rgx
为要匹配的正则表达式,fmt
为要替换的字符串,其中可以包含格式化字符,下述,flags
为可选的参数,用于设置一些选项。fmt
中可以包含下列格式化字符:
characters
replacement
$n
表示第n组匹配,n大于0
$&
表示整个匹配
$`
prefix
$′
suffix
$$
表示
$
这个字符本身fmt
中的格式化字符替换成相应的内容,然后再将这个字符串替换掉目标字符串中的完整匹配(相当于 $&
或 match_results[0]
)。