HIT软件构造：Java正则表达式

最近上了软件构造的第一节习题课，课程内容大概是讲了有关于h-index的一道Java题目：

Given an array of citations (each citation is a non-negative integer) of a researcher, write a function to compute the researcher's h-index.According to the definition of h-index on Wikipedia: "A scientist has index h if h of his/her N papers have at least h citations each, and the other N −h papers have no more than h citations each."

在进行健壮性的优化的时候，在针对非法输入的时候，其中一个策略是“用正则表达式检查分割后字符串是否匹配"[0-9]+"[1-9][0-9]*”，我又成功地被“正则表达式”吸引了注意力。这篇blog来简单记录一下~

正则表达式

是什么？

正则表达式（regular expression）对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。

能做什么？

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

1. 给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）。

2. 可以通过正则表达式，从字符串中获取我们想要的特定部分。

第一次见到正则表达式是在大一的时候学习Python爬虫，当时跟着b站视频生敲代码，也没有学懂到底是什么。这学期学的形式语言与自动机里面涉及到了一些正则表达式正则语言的知识，具体如下

这里将正则表达式和正则语言关联

个人理解：正则表达式就是在描述一个具有相同格式的字符串的集合。就像“红色的衣服”代表了那些带有红色属性的卫衣、秋衣、牛仔裤、短裙……等等一些列的集合。表达式提炼出了一些鲜明的属性，并表示出来。

Java正则表达式

字符类

预定义字符类

逻辑操作符

边界匹配符

正则表达式应用

对于软件来说，面向客户是很重要的，机器在获取信息的时候，正则表达式的作用就被凸显出来了。

我的理解：正是因为正则表达式是一个集合的属性提炼，所以在寻找或者判断某个事物是否存在于这个集合，就只需要看他具不具有正则表达式提炼出来的属性就可以啦

所以怎么去使用呢？

匹配字符串的方法

String类中的matches方法，可以匹配符合一个模式的字符串集。

如，判断整数

String re="\d*[.]\d*";
if(strings[j].matches(re))
{
    return false;
}

再如，以下结果都为true。

"java is fun".matches("java.*");
"java is cool".matches("java.*");
"java is nb".matches("java.*");

在java.util.regex包下有两个用于正则表达式的类, 一个是Matcher类, 另一个Pattern。

Pattern可以理解为一个模式, 字符串需要与某种模式进行匹配。创建Pattern对象时调用的是Pattern类中的compile方法。

Matcher可以理解为模式匹配某个字符串后产生的结果。字符串和某个模式匹配后可能会产生很多个结果。

如，以下输出结果为true

public class Demo2 {	
    public static void main(String[] args) {	
        //[a-z]表示a~z之间的任何一个字符, {3}表示3个字符, 意思是匹配一个长度为3, 并且每个字符属于a~z的字符串	
        Pattern p = Pattern.compile("[a-z]{3}");	
        Matcher m = p.matcher("abc");	
        System.out.println(m.matches());	
    }	
}

替换和拆分字符串

String类包含replaceAll、replaceFirst 和 split方法，用于替换和拆分字符串。

//replaceAll()方法
System.out.printLn("java java java".replaceAll("v\w","wi"));
//输出 jawi jawi jawi

//replaceFirst()方法
System.out.printLn("java java java".replaceFirst("v\w","wi"));
//输出 jawi java java

//split(regex,limit=0)方法
//使用匹配的分隔符将字符串拆分为子字符串
//limit>0时，最多匹配limit-1次，最终拆分成limit个子字符串。
String[] tokens;
tokens="edg1zhen2ta3ma4niu5bi".split("\d");
System.out.printLn(tokens);
//输出 edg zhen ta ma niu bi
tokens="edg1zhen2ta3ma4niu5bi6".split("\d",1);
System.out.printLn(tokens);
//输出 edg1zhen2ta3ma4niu5bi
tokens="edg1zhen2ta3ma4niu5bi6".split("\d",2);
System.out.printLn(tokens);
//输出 edg zhen2ta3ma4niu5bi
tokens="edg1zhen2ta3ma4niu5bi6".split("\d",3);
System.out.printLn(tokens);
//输出 edg zhen ta3ma4niu5bi
tokens="edg1zhen2ta3ma4niu5bi6".split("\d",4);
System.out.printLn(tokens);
//输出 edg zhen ta ma4niu5bi
tokens="edg1zhen2ta3ma4niu5bi6".split("\d",5);
System.out.printLn(tokens);
//输出 edg zhen ta ma niu5bi
tokens="edg1zhen2ta3ma4niu5bi6".split("\d",6);
System.out.printLn(tokens);
//输出 edg zhen ta ma niu bi

常用的正则表达式

积累！以备不时之需！

校验数字的表达式

数字：^[0-9]*$
n位的数字：^d{n}$
至少n位的数字：^d{n,}$
m-n位的数字：^d{m,n}$
零和非零开头的数字：^(0|[1-9][0-9]*)$
非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$
带1-2位小数的正数或负数：^(-)?d+(.d{1,2})?$
正数、负数、和小数：^(-|+)?d+(.d+)?$
有两位小数的正实数：^[0-9]+(.[0-9]{2})?$
有1~3位小数的正实数：^[0-9]+(.[0-9]{1,3})?$
非零的正整数：^[1-9]d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^+?[1-9][0-9]*$
非零的负整数：^-[1-9][]0-9"*$ 或 ^-[1-9]d*$
非负整数：^d+$ 或 ^[1-9]d*|0$
非正整数：^-[1-9]d*|0$ 或 ^((-d+)|(0+))$
非负浮点数：^d+(.d+)?$ 或 ^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$
非正浮点数：^((-d+(.d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$
正浮点数：^[1-9]d*.d*|0.d*[1-9]d*$ 或 ^(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$
负浮点数：^-([1-9]d*.d*|0.d*[1-9]d*)$ 或 ^(-(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*)))$
浮点数：^(-?d+)(.d+)?$ 或 ^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$

校验字符的表达式

汉字：^[u4e00-u9fa5]{0,}$
英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
长度为3-20的所有字符：^.{3,20}$
由26个英文字母组成的字符串：^[A-Za-z]+$
由26个大写英文字母组成的字符串：^[A-Z]+$
由26个小写英文字母组成的字符串：^[a-z]+$
由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$
由数字、26个英文字母或者下划线组成的字符串：^w+$ 或 ^w{3,20}$
中文、英文、数字包括下划线：^[u4E00-u9FA5A-Za-z0-9_]+$
中文、英文、数字但不包括下划线等符号：^[u4E00-u9FA5A-Za-z0-9]+$ 或 ^[u4E00-u9FA5A-Za-z0-9]{2,20}$
可以输入含有^%&',;=?$"等字符：[^%&',;=?$x22]+
禁止输入含有~的字符：[^~x22]+

特殊需求表达式

Email地址：^w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$
域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
nternetURL：[a-zA-z]+://[^s]* 或 ^https://([w-]+.)+[w-]+(/[w-./?%&=]*)?$
手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])d{8}$
电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX)：^((d{3,4}-)|d{3.4}-)?d{7,8}$
国内电话号码(0511-4405222、021-87888822)：d{3}-d{8}|d{4}-d{7}
身份证号：
       15或18位身份证：^d{15}|d{18}$
       15位身份证：^[1-9]d{7}((0d)|(1[0-2]))(([0|1|2]d)|3[0-1])d{3}$
       18位身份证：^[1-9]d{5}[1-9]d{3}((0d)|(1[0-2]))(([0|1|2]d)|3[0-1])d{4}$
短身份证号码(数字、字母x结尾)：^([0-9]){7,18}(x|X)?$ 或 ^d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^[a-zA-Z]w{5,17}$
强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)：^(?=.*d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
日期格式：^d{4}-d{1,2}-d{1,2}
一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$
一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$
xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$
中文字符的正则表达式：[u4e00-u9fa5]
双字节字符：[^x00-xff] (包括汉字在内，可以用来计算字符串的长度(一个双字节字符长度计2，ASCII字符计1))
空白行的正则表达式：ns*r (可以用来删除空白行)
HTML标记的正则表达式：<(S*?)[^>]*>.*?|<.*? /> (网上流传的版本太糟糕，上面这个也仅仅能部分，对于复杂的嵌套标记依旧无能为力)
首尾空白字符的正则表达式：^s*|s*$或(^s*)|(s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式)
腾讯QQ号：[1-9][0-9]{4,} (腾讯QQ号从10000开始)
中国邮政编码：[1-9]d{5}(?!d) (中国邮政编码为6位数字)
IP地址：d+.d+.d+.d+ (提取IP地址时有用)

文末致谢：

Java面试题汇总之正则表达式_Vaingloryss的博客-CSDN博客_java正则表达式面试题

一文教会你如何在Java中使用正则表达式_javageektech的博客-CSDN博客

Java 正则表达式_回眸郎的博客-CSDN博客_java 正则

java正则表达式_给我打的博客-CSDN博客_java正则

java正则表达式大全（常用）_努力成就未来的博客-CSDN博客_java正则表达式大全

HIT软件构造：Java正则表达式

Java相关栏目本月热门文章