c++正则表达式的组成和使用

正则表达式的组成

正则是一种规则，它用来匹配（进而捕获、替换）原字符串。这种规则需要“模式”、“字符串”这两样东西，“模式”根据正则规则，来处理“字符串”。这种规则被许多语言支持，C++11以后才支持正则。

使用正则表达式需要包含库

#include
using namespace std;
int main()
{
    //构造正则对象
    regex regx("\w");
}

具有特殊意义的元字符

：字符能够改变字符原本的含义

^：^字符指示字符串的头，且要求字符串以字符开头，不占位。^表示一个真正的^符号 (特殊字符具有特殊含义，如果字符串中有^，用^表示字符本身)。

$：$字符指示字符串的尾，且要求字符串以字符结尾，不占位。$表示一个真正的$符号。

()：分组，大正则中包含小正则。可以改变默认的优先级。在模式中可以使用1来表示第一组已然捕获到的东西(已匹配到的项)。

把一个字符串分成多组的形式用正则表达式去描述

yeeee@163.com.cn

yeeee @ 163 .com .cn

第一部分是数字、字母、下划线即可，第二部分必须是要 @ ，第三部分是数字、字母、下划线，第四部分必须是.加上数字、字母、下划线

通过如上方式做字符的匹配

int main()
{
    //第一部分是字母数字下划线 第二部分也是字母数字下划线
    regex regx("(\w)(\1)");
    //等价于 (\w)(\b)(\w)(\b)
    regex regx("(\w)(\b)(\1)(\2)");
    //等价于 (\w)(\b)(\w)
    regex regx("(\w)(\b)(\1)");
}

b：指示字符串的边界（头/尾/空格左/空格右），字符b要求边界的左边是字符，b字符要求边界的右边是字符。

.：表示一个除了n以外的任意一个字符。.表示一个真正的.符号。

|：a | b a或b之一

[abc]：abc之中的任意一个

[^abc]：abc之外的

[a-z]：任意小写字母

[^a-z]：除了小写字母之外的

w：任意一个字母数字下划线，等价于[(0-9)(a-z)(A-Z)(_)]

W：字母数字下划线之外的任何一个字符，等价于[]

d：任意一个数字

D：除了数字之外的其他字符

s：空白符（空格、制表符、换页符）

量词元字符

*：字符*要求字符出现0或更多次 {0,}

+：字符+要求字符出现1或更多次 (w) {1,}

?：字符?要求字符出现0次或1次 {0,1}

{n}：字符{n}要求字符出现n次

{n,}：字符{n,}要求字符出现n或更多次 {0,}

{n,m}：字符{n,m}要求字符出现n到m次

所以含有的元字符，在C++定义时，都要写成\

校验数字的表达式

数字：^ [0 - 9] * $

n位的数字：^ d{ n }$

至少n位的数字：^ d{ n, }$

m - n位的数字： ^ d{ m,n }$

零和非零开头的数字： ^ (0 | [1 - 9][0 - 9] *)$

非零开头的最多带两位小数的数字： ^ ([1 - 9][0 - 9] *) + (.[0 - 9]{ 1,2 }) ? $

带1 - 2位小数的正数或负数： ^ ( - ) ? d + (.d{ 1,2 }) ? $

正数、负数、和小数： ^ ( - | + ) ? d + (.d + ) ? $

有两位小数的正实数： ^ [0 - 9] + (.[0 - 9]{ 2 }) ? $

有1~3位小数的正实数： ^ [0 - 9] + (.[0 - 9]{ 1,3 }) ? $

非零的正整数： ^ [1 - 9]d * $ 或 ^ ([1 - 9][0 - 9] *) { 1, 3 }$ 或^ + ? [1 - 9][0 - 9] * $

非零的负整数： ^ - [1 - 9][]0 - 9"$ 或 ^-[1-9]d$

非负整数： ^ d + $ 或 ^ [1 - 9]d * | 0$

非正整数： ^ -[1 - 9]d * | 0$ 或 ^ ((-d + ) | (0 + ))$

非负浮点数： ^ d + (.d + ) ? $ 或 ^ [1 - 9]d * .d * | 0.d * [1 - 9]d * | 0 ? .0 + | 0$

非正浮点数： ^ ((-d + (.d + ) ? ) | (0 + (.0 + ) ? ))$ 或 ^ (-([1 - 9]d * .d * | 0.d * [1 - 9]d*)) | 0 ? .0 + | 0$

正浮点数： ^ [1 - 9]d * .d * | 0.d * [1 - 9]d * $ 或 ^ (([0 - 9] + .[0 - 9] * [1 - 9][0 - 9] *) | ([0 - 9] * [1 - 9][0 - 9] * .[0 - 9] + ) | ([0 - 9] * [1 - 9][0 - 9] *))$

负浮点数： ^ -([1 - 9]d * .d * | 0.d * [1 - 9]d*)$ 或 ^ (-(([0 - 9] + .[0 - 9] * [1 - 9][0 - 9] *) | ([0 - 9] * [1 - 9][0 - 9] * .[0 - 9]) | ([0 - 9] * [1 - 9][0 - 9] *)))$

浮点数： ^ (-? d + )(.d + ) ? $ 或 ^ -? ([1 - 9]d * .d * | 0.d * [1 - 9]d * | 0 ? .0 + | 0)$

校验字符的表达式

汉字： ^ [u4e00 - u9fa5]{ 0, }$

英文和数字： ^ [A - Za - z0 - 9] + $ 或 ^ [A - Za - z0 - 9]{ 4,40 }$

长度为3 - 20的所有字符： ^ .{3, 20}$

由26个英文字母组成的字符串： ^ [A - Za - z] + $

由26个大写英文字母组成的字符串： ^ [A - Z] + $

由26个小写英文字母组成的字符串： ^ [a - z] + $

由数字和26个英文字母组成的字符串： ^ [A - Za - z0 - 9] + $

由数字、26个英文字母或者下划线组成的字符串： ^ w + $ 或 ^ w{ 3,20 }$

中文、英文、数字包括下划线： ^ [u4E00 - u9FA5A - Za - z0 - 9_] + $

中文、英文、数字但不包括下划线等符号： ^ [u4E00 - u9FA5A - Za - z0 - 9] + $ 或 ^ [u4E00 - u9FA5A - Za - z0 - 9]{ 2,20 }$

可以输入含有 ^ %&',;=?$"等字符：[^%&', ; = ? $x22] + 12 禁止输入含有~的字符：[^ ~x22] +

特殊需求表达式

Email地址： ^ w + ([-+.]w + ) * @w + ([-.]w + ) * .w + ([-.]w + ) * $

域名：[a - zA - Z0 - 9][-a - zA - Z0 - 9]{ 0,62 }(/ .[a - zA - Z0 - 9][-a - zA - Z0 - 9]{ 0,62 }) + / . ? InternetURL：[a - zA - z] + ://s* 或 ^http://([w-]+.)+[w-]+(/[w-./?%&=])?$

手机号码： ^ (13[0 - 9] | 14[5 | 7] | 15[0 | 1 | 2 | 3 | 5 | 6 | 7 | 8 | 9] | 18[0 | 1 | 2 | 3 | 5 | 6 | 7 | 8 | 9])d{ 8 }$ 电话号码(0511 - 4405222、021 - 87888822)：d{ 3 } - d{ 8 } | d{ 4 } - d{ 7 }

身份证号(15位、18位数字)： ^ d{ 15 } | d{ 18 }$

短身份证号码(数字、字母x结尾)： ^ ([0 - 9]) { 7, 18 }(x | X) ? $ 或 ^ d{ 8,18 } | [0 - 9x]{ 8,18 } | [0 - 9X]{ 8,18 } ? $

帐号：(字母开头，允许5 - 16字节，允许字母数字下划线)： ^ [a - zA - Z][a - zA - Z0 - 9_]{ 4,15 }$

密码:(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)： ^ [a - zA - Z]w{ 5,17 }$

强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8 - 10之间)： ^ (? = .d)(? = .[a - z])(? = .*[A - Z]).{8, 10}$

日期格式： ^ d{ 4 } - d{ 1,2 } - d{ 1,2 } 一年的12个月(01～09和1～12)： ^ (0 ? [1 - 9] | 1[0 - 2])$

一个月的31天(01～09和1～31)： ^ ((0 ? [1 - 9]) | ((1 | 2)[0 - 9]) | 30 | 31)$

xml文件： ^ ([a - zA - Z] + -? ) + [a - zA - Z0 - 9] + \.[x | X][m | M][l | L]$

中文字符的正则表达式：[u4e00 - u9fa5]

双字节字符：[^ x00 - xff](包括汉字在内，可以用来计算字符串的长度(一个双字节字符长度计2，ASCII字符计1))

空白行的正则表达式：ns * r(可以用来删除空白行)

HTML标记的正则表达式：<(S* ? ) > >. ? < / 1> | <.* ? / > (复杂的嵌套标记依旧无能为力)

首尾空白字符的正则表达式： ^ s * | s * $或(^ s*) | (s * $) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等))

腾讯QQ号：[1 - 9][0 - 9]{ 4, } (腾讯QQ号从10000开始)

中国邮政编码：[1 - 9]d{ 5 }(? !d) (中国邮政编码为6位数字)

IP地址：d + .d + .d + .d + (提取IP地址时有用)

IP地址：((? : (? : 25[0 - 5] | 2[0 - 4]d | [01] ? d ? d).) { 3 }(? : 25[0 - 5] | 2[0 - 4]d | [01] ? d ? d))

例如匹配邮箱，直接拷贝，注意需要把空格去掉，并把单斜杆变成双斜杠

#include
using namespace std;
int main()
{
    //构造一个正则对象
    regex regx("^\w+([-+.]\w+)*@\w+([-.]\w+)*.\w+([-.]\w+)*$");
    //字符串可以直接当作正则规则
    regex rege("ILoveYou");
    return 0;
}

正则表达式的使用做匹配

调用函数即可：bool regex_match(string str，regex reg)；
第一个参数是要匹配的字符串，第二个参数是正则规则 / 对象

返回值：满足要求返回true 不满足返回false

正则匹配，一定是完全匹配

#include 
#include 
using namespace std;
void  test_regex_match() 
{
#if 0
    //构建正则规则
	regex reg("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$");
    //用户输入邮箱
	string userName;
	while (1) 
	{
		cout << "请输入一个邮箱:";
		cin >> userName;
        //传入参数
		bool result = regex_match(userName, reg);
		if (result) 
		{
			cout << "正确邮箱" << endl;
			break;
		}
	}
#endif 
	//正则匹配一定是完全匹配
	string str = "ILoveyou1314";
	regex  reg("[a-z0-9]+");      //小写字母或者数字多个
	if (regex_match(str, reg)) 
	{
		cout << "匹配" << endl;
	}
	else 
	{
		cout << "不匹配" << endl;  //打印不匹配 由于 IL 不满足正则规则
	}
	//大小写问题 提供带参构造方式 构造对象的时候可以忽略大小写-> 枚举类型
	regex reg2("[a-z0-9]+", regex_constants::icase);
	if (regex_match(str, reg2))
	{
		cout << "匹配" << endl;
	}
	else
	{
		cout << "不匹配" << endl; 
	}

	//字符串也可以直接充当正则规则-> 必须要完全一样
	regex reg3("ILoveyou");
	if (regex_match(str, reg3))
	{
		cout << "匹配" << endl;
	}
	else
	{
		cout << "不匹配" << endl; 
	}
}

int main() 
{
	test_regex_match();
	test_regex_replace();
	test_regex_search();
	return 0;
}

正则替换

string regex_replace(string str，regex reg, string newstr)；

第一个参数是要匹配的字符串，第二个参数是正则规则 / 对象，第三个参数是要把满足规则的替换成某一个新的字符

返回值：返回一个新的字符串

regex_constants 类 | Microsoft Docs

void test_regex_replace() 
{
	string  str = "ILoveyou1314520IMissyou520me";
    //把字符串中多个数字替换成"我爱你"
	regex reg("\d+");
    cout << "str:" << regex_replace(str, reg, "我爱你") << endl;
    //原字符串不变
	cout << "oldstr:" << str << endl;
	//如何控制替换
	//1.只替换第一次出现的 加一个替换标准
	cout << "only first:" << regex_replace(str, reg, "我爱你", regex_constants::format_first_only) << endl;
	//2.不拷贝
	cout << "no copy:" << regex_replace(str, reg, "我爱你", regex_constants::format_no_copy) << endl;
	//3.默认方式
	cout<<"default:"<< regex_replace(str, reg, "我爱你", regex_constants::format_default) << endl;
	//4.sed格式规则
	cout << "sed:" << regex_replace(str, reg, "我爱你", regex_constants::format_sed) << endl;
}



       str:ILoveyou我爱你IMissyou我爱你me
    oldstr:ILoveyou1314520IMissyou520me
only first:ILoveyou我爱你IMissyou520me
   no copy:我爱你我爱你
   default:ILoveyou我爱你IMissyou我爱你me
       sed:ILoveyou我爱你IMissyou我爱你me

正则截取处理字符串

bool regex_search(string str，smatch result，regex reg)；

第一个参数是要匹配的字符串，第二个参数 smatch 用来保存捕获到的结果，第三个参数是正则表达式对象

返回值：bool 类型

using smatch = match_results；

smatch 存储捕获到的字符串的前缀和后缀

假设匹配到 1314，前缀就是 ILoveyou，后缀就是 IMissyou520me

如果没有后缀，获取的就是空字符，写一个循环判断后缀是否为空即可，如果不为空，就一直做截取，就可以把每一个匹配到的都截取出来

void test_regex_search()
{
	//正常截取处理匹配项
	string str = "ILoveyou1314IMissyou520me";
    //存储结果
	smatch result;
    //捕获处理-> 捕获多个数字
	bool flag = regex_search(str, result, regex("\d+"));
	if (flag)
	{
		cout << "size:" << result.size() << endl;
        //匹配到的字符串存储在result中
		for (int i = 0; i < result.size(); i++)
		{
            //获取匹配到字符串
			cout << result.str() << endl;  
		}
        //匹配到的字符串的前缀
		cout << "pre:" << result.prefix() << endl;
        //匹配到的字符串的后缀
		cout << "suf:" << result.suffix() << endl;
	}
	cout << "str:" << str << endl;

    //把每一块找到的都截取出来  result.suffix作为循环条件去持续截取即可
	// srgex_iterator
	regex rule("\d+");
    //构建位置:原字符串开始位置 原字符串结束位置 这一串按照rule正则规则去截取
	sregex_iterator pos(str.begin(), str.end(), rule);
    //无参构造代表结束
	sregex_iterator end;   //end_of_iterator
    //当前位置不等于结束位置
	while (pos != end)
	{
        //获取数据
		cout << pos->str() << endl;
		pos++;
	}

	//拆解字符串
	//sregex_token_iterator(iterator begin,iteartor end,regex regex, int flag);
	//flag: 0 存储所有匹配的，-1 存储所有不匹配的
	regex regexRule("\d+");
    //原字符串开始位置 原字符串结束位置 规则 标记
	sregex_token_iterator Begin(str.begin(), str.end(), regexRule, 0);
    //无参构造代表结束
	sregex_token_iterator End;
	while (Begin != End) 
	{
        //获取数据
		cout << Begin->str() << endl;
		Begin++;
	}
	cout << endl;
}



size:1
//匹配到的字符串
1314
//前缀
pre:ILoveyou
//后缀
suf:IMissyou520me
str:ILoveyou1314IMissyou520me
//把后续满足条件的每一部分都截取出来
1314
520
//获取所有匹配的-> 按照正则规则把每一部分都拆解出来
1314
520

c++正则表达式的组成和使用

C/C++/C#相关栏目本月热门文章