栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫:数据清洗与提取

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫:数据清洗与提取

1.正则表达式


2. re模块使用案例
例:提取 index.html 里的Eamil和手机号


# 导入re模块
import re

with open('index.html','r',encoding='utf-8') as f:  # 读取index文件

    html = f.read()     # 返回读取文件
    
    # re.sub('正则表达式','替换成的字符串','被匹配的字符串')
    html = re.sub('n','',html)	

    print(html)

    pattern_1 = '(.*?)'	# 正则表达式提取字符串
    
    # re.findall('正则表达式','被提取的字符串') 
    ret_1 = re.findall(pattern_1,html)	
    
    print(ret_1[0].strip())     # strip() 清除空格和换行符

# re.match('正则表达式','被匹配的字符串')
password_pattern = r'^[a-zA-Z][a-zA-Z0-9_]{5,15}$'

pass1 = '1356'
pass2 = 't23456'
pass3 = 'k135'

print(re.match(password_pattern,pass1))
print(re.match(password_pattern,pass2))
print(re.match(password_pattern,pass3))

3.xpath 语法
工具:
xpath 两种查询方式:

 一://div[contains(@class,"关键字")]/a/text()

 二://div[@]/a/text()


4.python中的lxml

python中如何使用xpath:

# 导包
import lxml.etree as le

with open('提取的文件','r',encoding='utf-8') as f:

	html = f.read()	 # 提取文件内容
	
	htmll_x = le.HTML(html)	 # 把字符串转化成xpath对象
	
	html_x_s = html_x.xpath('xpath代码')	# 对xpath_x写xpth语法
	
	print(html_x_s)

5.JsonPath 使用案例
常用的的四个命令:dumps loads dump load

# 导入json
import json

python_data[
	{
		'username':'name1'
		'vip':'False'
	},
	{
		'username':'None'
		'vip':'True'
	}
]

# dump 把python类型的字符串转换成json类型的字符串、
json_data = json.dumps(python_data)

print(json_datta)

# lodas 把json类型的字符换转换成python类型的字符串
python2_data = json.lodas(python_data)

print(python2_data)

# dump 把python类型的字符串转换成Json类型的字符串,保存在本地
python_dump = json.dump(python_data,open('json.txt','w'))

# loda 读取本地的json数据,并转换成python对象
pytho2_data = json.load(open('json.txt'))
print(python2_data)
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/725295.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号