栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python 解析网页html,提取需要的页面信息

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python 解析网页html,提取需要的页面信息

爬虫网络请求方式:urllib、 requests, scrapy(框架)、 pyspider(框架) 爬虫数据提取方式:正则表达式, bs4, lxml, xpath, css

Python网络爬虫四大选择器(正则表达式、BS4、Xpath、CSS)总结

如果你的爬虫瓶颈是下载网页,而不是抽取数据的话,那么使用较慢的方法(如BeautifulSoup) 也不成问题。如果只需抓取少量数据,并且想要避免额外依赖的话,那么正则表达式可能更加适合。

通常情况下,lxml(该模块可以实现xpath和css)是抓取数据的最好选择,这是因为该方法既快速又健壮,而正则表达式和BeautifulSoup只在某些特定场景下有用。

1、获取网页
2、解析数据
---------------------------------------------------------------------------------
import requests
from lxml import etree
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
r = requests.get('https://www.zhihu.com/question/68584669/answer/265070848',headers=headers)
s = etree.HTML(r.text)
# 获取问题内容
q_content = s.xpath('//*[@]/text()')[0]
# 获取关注数和浏览量,这两个属性一样
q_number = s.xpath('//*[@]/text()')
concern_num = q_number[0]
browing_num = q_number[1]
# 打印
print('问题:',q_content,'n','关注数:',concern_num,'n','浏览量:',browing_num)

----------------------------------------------------------------------------
问题: 行人重识别(re-ID)与跟踪(tracking)有什么区别? 
 关注数: 535 
 浏览量: 68,555
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/331206.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号