栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫笔记day03

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫笔记day03

正则表达式re模块使用

使用方法1:r_list=re.findall(‘正则表达式’,html,re.S)
使用方法2:pattern=re.compile(‘正则表达式’,re.S)
r_list=pattern.findall(html)
注意:
1、使用findall()方法得到的结果一定为列表
2、re.S作用为使得正则表达式元字符可匹配到‘n’在内的所有字符

正则表达式中爬虫常用的元字符
. 任意一个字符(不包括换行)
d 一个数字
s 空白字符
S 非空白字符
[] 包含[]内容
* 出现0次或多次
+ 出现1次或多次
w 普通字符

#例子:匹配任意一个字符的正则表达式(这里都采用第二种书写格式,比较常用)
#方法一:
import  re
pattern=re.compile('[sS]') #s空白字符 S非空白字符 []两条件组合
result=pattern.findall('fdrfvn')
print(result)

#方法二:
import re
pattern=re.compile('.',re.S) #.任意多个字符不包括n,re.S包含n
result=pattern.findall('fdrfvn')
print(result)
例子:

假设我们有一段html代码,但是我们只需要里面文字的部分,不要标签,那么我们就需要使用正则表达式分组
注意:在正则表达式中分贪婪匹配和非贪婪匹配
贪婪匹配:例如两行文字,会组成一个列表元素[‘p1p2’] 书写格式:一般书写模式
非贪婪匹配:两行元素就分为两个列表元素[‘p1’,‘p2’] 书写格式:需要比贪婪匹配末尾多一个?

正则表达式分组则只需在需要的提取的部分加上()即可

#例子:提取html代码中的文字
import re
html=""" 

p1

p2

""" #注意一定要加上re.S #贪婪匹配提取文字: pattern1=re.compile('

(.*)

',re.S) r_list1=pattern1.findall(html) print(r_list1) #非贪婪匹配 pattern2=re.compile('

(.*?)

',re.S) r_list2=pattern2.findall(html) print(r_list2)
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/580782.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号