栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python > python爬虫

Python爬虫BeautifulSoup库中常见对象有哪些

python爬虫 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬虫BeautifulSoup库中常见对象有哪些

Python爬虫在运用requests库爬取网页内容时,要是需要进一步解析HTML页面格式,应调用python爬虫另一个BeautifulSoup库。BeautifulSoup库有四个常见对象,为1、HTML中的一个个标签的Tag;2、用来包装tag中的字符串的NavigableString;3、表示的是一个文档的全部内容BeautifulSoup;4、用于操作文档的注释部分Comment。本文向大家介绍。

1、Tag:

Tag通俗点讲就是HTML中的一个个标签。

# 获取title标签的所有内容 print(bs.title)

2、NavigableString:用来包装tag中的字符串

如果拿到标签后,还想获取标签中的内容。那么可以通过tag.string获取标签中的文字。

print(bs.title.string)
 
print(type(bs.title.string))

3、BeautifulSoup:

表示的是一个文档的全部内容,包含了一个值为’[document]'的属性大部分时间可以把它当做Tag对象,它支持遍历文档树和搜索文档树中描述的大部分方法。

soup.name
# '[document]'

4、Comment:

用于操作文档的注释部分,是一个特殊类型的 NavigableString 对象。

comment
# 'Hey, buddy. Want to buy a used parser'

以上就是python爬虫BeautifulSoup库有四个常见对象,需要注意的是Tag查找方式是所有内容中的第一个符合要求的标签哦~更多python爬虫推荐:python爬虫教程。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/12535.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号