爬虫笔记day03

正则表达式re模块使用

使用方法1：r_list=re.findall(‘正则表达式’,html,re.S)
使用方法2：pattern=re.compile(‘正则表达式’,re.S)
r_list=pattern.findall(html)
注意：
1、使用findall()方法得到的结果一定为列表
2、re.S作用为使得正则表达式元字符可匹配到‘n’在内的所有字符

正则表达式中爬虫常用的元字符
. 任意一个字符（不包括换行）
d 一个数字
s 空白字符
S 非空白字符
[] 包含[]内容
* 出现0次或多次
+ 出现1次或多次
w 普通字符

#例子：匹配任意一个字符的正则表达式（这里都采用第二种书写格式，比较常用）
#方法一：
import  re
pattern=re.compile('[sS]') #s空白字符 S非空白字符 []两条件组合
result=pattern.findall('fdrfvn')
print(result)

#方法二：
import re
pattern=re.compile('.',re.S) #.任意多个字符不包括n，re.S包含n
result=pattern.findall('fdrfvn')
print(result)

例子：

假设我们有一段html代码，但是我们只需要里面文字的部分，不要标签，那么我们就需要使用正则表达式分组
注意：在正则表达式中分贪婪匹配和非贪婪匹配
贪婪匹配：例如两行文字，会组成一个列表元素[‘p1p2’] 书写格式：一般书写模式
非贪婪匹配：两行元素就分为两个列表元素[‘p1’,‘p2’] 书写格式：需要比贪婪匹配末尾多一个？

正则表达式分组则只需在需要的提取的部分加上()即可

#例子：提取html代码中的文字
import re
html=""" p1
        p2  
"""
#注意一定要加上re.S
#贪婪匹配提取文字：
pattern1=re.compile('(.*)',re.S)
r_list1=pattern1.findall(html)
print(r_list1)

#非贪婪匹配
pattern2=re.compile('(.*?)',re.S)
r_list2=pattern2.findall(html)
print(r_list2)

爬虫笔记day03

Python相关栏目本月热门文章