html库是用于解析HTML的一个工具,是python自带的标准库之一。
html库位置:
__all__ = ['escape', 'unescape']
介绍 escape 和 unescape:
escape(s, quote=True) #用来将特殊字符进行转义成实体字符 """ 参数介绍: s 指定要转义的特殊字符 quote 默认为True,表示要将 " 或者 ' 也要转义成实体字符,False反之不用转义成实体字符 """ unescape(s) #用来将实体字符进行还原到特殊字符
escape 和 unescape 的使用:
import html s = 'div' res = html.escape(s) print(res) print(html.escape(s,quote=False)) print(html.unescape(res)) #理解还原即可
输出结果:
escape源码的实现:
该模块定义: HTML字符实体引用。
该模块提供四个字典对象:
__all__ = ['html5', 'name2codepoint', 'codepoint2name', 'entitydefs']
导入:
from html import entities html = entities.html5 name2codep = entities.name2codepoint codep = entities.codepoint2name ent = entities.entitydefs print(html) print(name2codep) print(codep) print(ent)
输出结果:
该模块是HTML和XHTML的解析器。
该模块提供一个类:
__all__ = ['HTMLParser']
导入:
from html import parser htmlParser=parser.HTMLParser()
介绍该类的常用属性和常用方法:
常用属性:
lasttag #保存上一个解析的标签名,返回字符串。
已实现的常用方法:
feed(data) #将数据馈送到解析器。无返回值 unescape(s) #往上看,前面有介绍的 get_starttag_text() #返回开始标记的完整来源 close() #关闭
未实现的常用方法:
注意:这些方法在源码中都没有具体实现,需要我们定义一个子类继承自HTMLParser类,在子类中重写这些方法,实现自己逻辑
handle_starttag(tag, attrs) #处理开始标签,如 ;这里的attrs获取到的是属性列表,属性以元组的方式展示 handle_endtag(tag) #处理结束标签, 如 handle_data(data) #处理数据,标签之间的文本 handle_comment(data) #处理注释,热门相关搜索路由器设置 木托盘 宝塔面板 儿童python教程 心情低落 朋友圈 vim 双一流学科 专升本 我的学校 日记学校 西点培训学校 汽修学校 情书 化妆学校 塔沟武校 异形模板 西南大学排名 最精辟人生短句 6步教你追回被骗的钱 南昌大学排名 清朝十二帝 北京印刷学院排名 北方工业大学排名 北京航空航天大学排名 首都经济贸易大学排名 中国传媒大学排名 首都师范大学排名 中国地质大学(北京)排名 北京信息科技大学排名 中央民族大学排名 北京舞蹈学院排名 北京电影学院排名 中国戏曲学院排名 河北政法职业学院排名 河北经贸大学排名 天津中德应用技术大学排名 天津医学高等专科学校排名 天津美术学院排名 天津音乐学院排名 天津工业大学排名 北京工业大学耿丹学院排名 北京警察学院排名 天津科技大学排名 北京邮电大学(宏福校区)排名 北京网络职业学院排名 北京大学医学部排名 河北科技大学排名 河北地质大学排名 河北体育学院排名



