python之标准库html

html库是用于解析HTML的一个工具，是python自带的标准库之一。
html库位置：

__init__.py文件提供两个函数：

__all__ = ['escape', 'unescape']

介绍 escape 和 unescape：

escape(s, quote=True) #用来将特殊字符进行转义成实体字符
"""
参数介绍：
  s 指定要转义的特殊字符
  quote 默认为True,表示要将 " 或者 ' 也要转义成实体字符，False反之不用转义成实体字符
"""
unescape(s) #用来将实体字符进行还原到特殊字符

escape 和 unescape 的使用：

import html

s = 'div'
res = html.escape(s)
print(res)
print(html.escape(s,quote=False))

print(html.unescape(res)) #理解还原即可

输出结果：

escape源码的实现：

html库中的 entities 模块

该模块定义： HTML字符实体引用。
该模块提供四个字典对象：

__all__ = ['html5', 'name2codepoint', 'codepoint2name', 'entitydefs']

导入：

from html import entities
html = entities.html5
name2codep = entities.name2codepoint
codep = entities.codepoint2name
ent = entities.entitydefs
print(html)
print(name2codep)
print(codep)
print(ent)

输出结果：

html库中的 parser 模块

该模块是HTML和XHTML的解析器。
该模块提供一个类：

__all__ = ['HTMLParser']

导入：

from html import parser
htmlParser=parser.HTMLParser()

介绍该类的常用属性和常用方法：
常用属性：

lasttag #保存上一个解析的标签名，返回字符串。

已实现的常用方法：

feed(data) #将数据馈送到解析器。无返回值
unescape(s) #往上看，前面有介绍的
get_starttag_text() #返回开始标记的完整来源
close() #关闭

未实现的常用方法：
注意：这些方法在源码中都没有具体实现，需要我们定义一个子类继承自HTMLParser类，在子类中重写这些方法，实现自己逻辑

handle_starttag(tag, attrs) #处理开始标签，如 ；这里的attrs获取到的是属性列表，属性以元组的方式展示
handle_endtag(tag) #处理结束标签, 如 
handle_data(data) #处理数据，标签之间的文本
handle_comment(data) #处理注释，


热门相关搜索



路由器设置
木托盘
宝塔面板
儿童python教程
心情低落
朋友圈
vim
双一流学科
专升本
我的学校
日记学校
西点培训学校
汽修学校
情书
化妆学校
塔沟武校
异形模板
西南大学排名
最精辟人生短句
6步教你追回被骗的钱
南昌大学排名
清朝十二帝
北京印刷学院排名
北方工业大学排名
北京航空航天大学排名
首都经济贸易大学排名
中国传媒大学排名
首都师范大学排名
中国地质大学(北京)排名
北京信息科技大学排名
中央民族大学排名
北京舞蹈学院排名
北京电影学院排名
中国戏曲学院排名
河北政法职业学院排名
河北经贸大学排名
天津中德应用技术大学排名
天津医学高等专科学校排名
天津美术学院排名
天津音乐学院排名
天津工业大学排名
北京工业大学耿丹学院排名
北京警察学院排名
天津科技大学排名
北京邮电大学(宏福校区)排名
北京网络职业学院排名
北京大学医学部排名
河北科技大学排名
河北地质大学排名
河北体育学院排名







学习工具
代数计算器
三角函数
解析几何
立体几何


知识解答
教育知识
百科知识
生活知识
常识知识


写作必备
作文大全
作文素材
句子大全

实用范文


关于我们
关于我们
联系我们
网站地图


 
名师互学网交流群


名师互学网客服





名师互学网 版权所有 (c)2021-2022      ICP备案号：晋ICP备2021003244-6号
 






关于我们
文章归档
网站地图
联系我们
版权所有 (c)2021-2022 MSHXW.COM
ICP备案号：晋ICP备2021003244-6号