Python语法进阶篇 - 76 - 正则表达式的综合小练习

万叶集
 隐约雷鸣，阴霾天空。 
 但盼风雨来，能留你在此。 

前言：
✌ 作者简介：渴望力量的哈士奇，大家可以叫我 哈士奇 。(我真的有一只哈士奇)
 CSDN博客专家认证、新星计划第三季全栈赛道 top_1 、华为云享专家、阿里云专家博主 
 如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步
 人生格言：优于别人,并不高贵,真正的高贵应该是优于过去的自己。
 如果感觉博主的文章还不错的话，还请关注、点赞、收藏三连支持一下博主哦

 系列专栏：
               ⛽️ Python全栈系列 - [更新中]     【本文在该系列】
                        Python零基础入门篇
                        Python语法进阶篇
                网安之路系列
                        网安之路踩坑篇
                       网安知识扫盲篇
                       Vulhub 漏洞复现篇
                       Shell脚本编程篇
                       Web攻防篇   2021年9月3日停止更新，转战先知等安全社区
                       渗透工具使用集锦  2021年9月3日停止更新,转战先知等安全社区
               ⭐️ 点点点工程师系列
                       测试神器 - Charles 篇
                        测试神器 - Fiddler 篇
                       测试神器 - Jmeter 篇
                       自动化 - RobotFrameWork 系列
                       自动化 - 基于 JAVA 实现的WEB端UI自动化
                        自动化 - 基于 MonkeyRunner 实现的APP端UI自动化

前面我们学习了正则表达式的基本用法、字符匹配、量词与组的概念，接下来就做一个综合性的练习吧。把之前学到的知识点全部过一遍，加深对正则的理解。吐槽一句 —> 说实话，正则的这玩意儿，基本上属于学完就忘，用的时候还得学系列…

文章目录
 匹配网址 url 的小练习
 匹配邮箱地址的小练习
 获取前端代码内容的练习

 匹配网址 url 的小练习

定义一个函数，判断 url 是否是一个正常的地址。

定义一个函数，只获取 url 的域名部分

import re


url_ture = "https://www.csdn.net/"
url_false = "ftp://110.110.110.110:8080"

def check_url(url):
    result = re.findall('[a-zA-z]{4,5}://w*.*w+.w+', url)

    if not len(result) == 0:
        return 'url 是一个合法的网站地址'
    else:
        return 'url 是一个不合法的网站地址'


def get_url(url):
    result = re.findall('https://(w*.*w+.w+)', url)

    if not len(result) == 0:
        return result[0]
    else:
        return []



if __name__ == '__main__':
    result_true = check_url(url_ture)
    print(result_true)
    result_false = check_url(url_false)
    print(result_false)

    result_url_01 = check_url("http://csdn.com")
    print(result_url_01)
    result_url_02 = check_url("https://www.csdn.com")
    print(result_url_02)

    get_url_true = get_url(url_ture)
    print(get_url_true)
    get_url_false = get_url(url_false)
    print(get_url_false)

执行结果如下：

 匹配邮箱地址的小练习

定义一个函数，获取邮箱的地址。

import re


email = "Neo@protonmail.com"


def get_email(email):
    # result = re.findall('[0-9a-zA-Z]+@[0-9a-zA-Z]+.[a-zA-Z]+', email)      # 这样写比较复杂，可以使用通配符
    result = re.findall('.+@.+.[a-zA-Z]', email)
    return result


if __name__ == '__main__':
    get_email = get_email(email)
    print(get_email)
    
# >>> 执行结果如下：
# >>> ['Neo@protonmail.com']

 获取前端代码内容的练习

接下来做一个稍微复杂一些的练习：

定义一个函数，获取一段前端代码中双引号包裹的内容。

定义一个函数，获取该段前端代码中所有的双引号包裹的内容

import re


html = (''
        '')		# 这是前端代码，暂时不用理解是什么意思


def get_html_data(html):
    re_g = re.compile('')      # 非贪婪模式获取 style 标签的内容
    										# compile 函数会将这个匹配规则的字符串变成一个匹配规则的对象。接下来我们只需要调用这个对象去传入被匹配的字符串就可以匹配出来相应的信息了。
    result = re_g.findall(html)
    return result


def get_all_data_html(html):
    re_g = re.compile('="(.+?)"')
    result = re_g.findall(html)
    return result


if __name__ == '__main__':
    get_html_data = get_html_data(html)
    print(get_html_data)

    get_all_data_html = get_all_data_html(html)
    print(get_all_data_html)
    
# >>> 执行结果如下：
# >>> ['display:none;']
# >>> ['s-top-nav', 'display:none;', 's-center-box']

通过获取前端代码标签内容的例子，我们可以看出，只要找到字符串的规律，通过这些规律去定义正则匹配的规则就可以拿到想要的信息。

OK，今天的练习就到这里了，下一章节我们会正式的学习正则表达式模块以及它的函数。正则表达式最最核心最最重要的就是匹配的相关操作，这几个章节所使用的的 findall 与 search 函数就是常用的两个函数，以及其它函数的匹配规律都是完全相同的，只不过它们返回的值会存在着不同，或者说这些函数的使用场景存在着一定的区别，但是返回的结果几乎都是相同的，所以下一章节我们几种来为大家介绍这些函数。

Python语法进阶篇 - 76 - 正则表达式的综合小练习

Python相关栏目本月热门文章