栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python爬虫学习总结(三)之BeautifulSoup使用心得

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬虫学习总结(三)之BeautifulSoup使用心得

解析库的使用大同小异。

bs4最大的优点就是解析式简练,提取简单。缺点就是需要对提取出来的文本进行再处理。不像re和lxml需要什么直接可以非常简练不带赘余的提取需要的文本。

具体的用法这位老哥写的非常详细了

对官方文档bs4库的用法做了本土化的详细的讲解。可以说概括的非常全面了。

class TiebaSpider(object):
    def __init__(self):
        self.url=''
        
    def get_html(self,url):
        res=requests.get(url=url,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'})       
        html=res.text
        return html
    
    def parse_html(self,html):
        parse_html = BeautifulSoup(html, 'html.parser')
        text = parse_html.select('#content p')
        return text
        
    def save_html(self,filename,html):
        with open('D:/request/'+filename,'w') as f:
            for i in html:
                j = str(i)
                j = j[3:-4]
                j=j+'n'
                f.write(j)

部分源码

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/444925.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号