栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python自学记录--bs4

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python自学记录--bs4

#BeautifulSoup模块简介和安装

from bs4 import BeautifulSoup
import re

#CSS 选择器:BeautifulSoup4
#和lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器
#主要的功能也是如何解析和提取 HTML/XML 数据。


#模块下载安装:pip install bs4

#基础例子
html = """
The Dormouse's story

The Dormouse's story

once upon a time there were three little sisters; and their names were , Lacie and Tillie; and they lived at the bottom of a well.

...

""" #解析字符串形式的html soup=BeautifulSoup(html,"lxml") # #解析本地html文件 # soup2=BeautifulSoup(open("index.html")) #格式化输出soup对象 #print(soup.prettify()) # #根据标签名获取标签信息 soup.标签名 # print(soup.title) # #获取标签内容 # print(soup.title.string) # #获取标签名 # print(soup.title.name) # #获取标签内所有属性 # print(soup.p.attrs["name"]) #获取标签内子标签,结果是一个列表 #print(soup.head.contents) #获取标签内子标签,结果是一个生成器 # print(soup.head.children) # for i in soup.head.children: # print(i) #获取所有子标签 # print(soup.p.descendants) # for i in soup.p.descendants: # print(i) #搜索文档树 fild #根据字符串查找所有的a标签,返回一个结果集,里面装的是标签对象 # data=soup.find_all("a") # for i in data: # print(i.string) #根据正则表达式查找标签 # data2=soup.find_all(re.compile("^b")) # for i in data2: # print(i.string) #根据属性查找标签 # data3=soup.find_all(id="link2") # for i in data3: # print(i) #根据标签内容获取标签内容 # data4=soup.find_all(text="Lacie") # data5=soup.find_all(text=["Lacie","Tillie"]) # data6=soup.find_all(text=re.compile("Do")) # print(data6) #CSS选择器 select() #根据CSS样式表来查找标签 #CSS选择器内容:标签选择器,类选择器,id选择器 # #通过标签名获取标签 # data=soup.select("a") #通过类名查找 #data=soup.select(".sister") #通过id查找 #data=soup.select("#link2") #组合查找 #data=soup.select("p #link1") #通过其他属性查找 data=soup.select('a[href="http://example.com/elsie"]') print(data)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/268438.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号