Python爬虫处理文档树【三方库—bs4】

一、bs4是什么？

Beautiful Soup是一个Python库，用于从HTML和XML文件中提取数据。它与您喜欢的解析器一起工作，提供导航、搜索和修改解析树的惯用方法。它通常为程序员节省数小时或数天的工作。Beautiful Soup适用于Python 2.7及以上版本。It works better if lxml and/or html5lib is installed.
三方库官方文档查看：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

二、使用步骤 1. bs4逻辑图

2. 三方库安装

pip intsall bs4

3.代码示例：

代码Demo

# -*- coding:utf-8 -*-

#beautofusoup模块，其强悍之处在于能够快速定位文档元素

import os
from bs4 import BeautifulSoup
import bs4

html_str = '''



    
    
    
    管理页面
    
        .contain{
            color: red;
            font-size: 14px;
        }
    


    
        生命真谛！！
        
            第一条
            第二条
            第三条
        
    


'''

html_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'input/demo.html')
print(html_path)


# 实例化bs4对象，需要制定解析方式为：lxml
def instantiation_bs4():
    #方法一:可以将字符串实例化为bs4对象，其中bs4会自动补齐标签
    htmlDom = BeautifulSoup(html_str, 'lxml') #
    print(type(htmlDom))

    #方法二：将file对象实例化bs4对象
    with open(html_path, 'r', encoding='utf-8') as f:
        htmlDom = BeautifulSoup(f, 'lxml')
        print(type(htmlDom))

    return htmlDom

#bs4 api 节点选择器
#节点有比较明显的两个属性：name和attrs
#方法描述：通过节点的名字和位置关系定位具体元素
#优点：便捷快速的定位元素，只管简单
#缺点：针对路径较深、需要精确定位的元素来讲，该方法太多粗浅，无法满足
def bs4_base_api_by_tag(dom):
    #一、单节点：根据标签名字查找对应的元素
    div_e = dom.div #从上到下，匹配第一个div元素
    print('-------------------------------------------------------')
    print(type(div_e)) #return 

    a_e = dom.div.a
    print(a_e)
    print(a_e.name) #节点名称
    print(a_e.attrs) #获取节点属性
    print(a_e.attrs['class']) #获取节点某个元素属性，如下简写
    print(a_e['class']) #[] 表示获取某个元素的属性值
    print(a_e.string) # 获取节点元素的文本内容

    #二、多节点：针对整个DOM数节点
    div_e_parent = dom.div.parent #返div节点的父节点
    print(type(div_e_parent)) #

    div_e_parents = dom.div.parents #返回div节点的所有祖先节点
    print(div_e_parents) #

    div_e_children = dom.div.children #返回div元素的直接子节点
    print(div_e_children) # 

    div_e_contents = dom.div.contents #返回div元素的所有直接子节点, 方法同上，返回值类型不同
    print(type(div_e_contents)) #

    div_e_descendants = dom.div.descendants #返回div元素的所有子孙节点
    print(type(div_e_descendants)) #

    div_next_sibling = dom.div.next_sibling #返回div元素的下一个兄弟节点，注意换行符号&空白也算
    print(type(div_next_sibling))#

    div_next_siblings = dom.div.next_siblings #返回 div节点后的所有兄弟节点 
    print(div_next_siblings) #

    div_previous_sibling = dom.previous_sibling #返回 div节点的前一个兄弟节点
    print(div_previous_sibling) 

    div_previous_siblings = dom.previous_siblings #返回div节点的所有前面兄弟节点
    print(div_previous_siblings) #

    #三、特别强调一个方法：strings，获取节点的所有文本内容
    div_all_text = dom.div.strings #return 
    print(div_all_text)
    for text in div_all_text:
        try:  #这里解决 h5中乱码场景
            print(text) 
        except Exception as e:
            print('decode error 2')
            pass   
    print('---------------------------------------------------------------------------')    

    # #二、获取元素文本内容
    # #2.1 获取某个元素的文本内容
    # a_text = dom.a.string
    # print(a_text)
    # #2.2 获取整个dom的文本
    # all_text = dom.strings #return 
    # print(all_text)
    # for text in all_text:
    #     try:  #这里解决 h5中乱码场景
    #         print(text) 
    #     except Exception as e:
    #         print('decode error 2')
    #         pass
    
#bs4 api 方法选择器：
#方法描述：通过find方法定位元素，
def bs4_base_api_by_func(dom):
    #find( name , attrs , recursive , text , **kwargs )
    #find_all( name , attrs , recursive , text , **kwargs )
    # find_parents(name , attrs , recursive , text , **kwargs )
    # find_parent(name , attrs , recursive , text , **kwargs )
    # find_next_siblings(name , attrs , recursive , text , **kwargs )
    # find_next_sibling(name , attrs , recursive , text , **kwargs )
    # find_previous_siblings(name , attrs , recursive , text , **kwargs )
    # find_previous_sibling(name , attrs , recursive , text , **kwargs )
    # find_all_next(name , attrs , recursive , text , **kwargs )
    # find_next(name , attrs , recursive , text , **kwargs )
    # find_all_previous()和find_previous()
    ####以上所有方法使用方法是一样的，具体的含义，与借点选其中一个道理

    #使用例子：xpath=//*[@id="html"]/body/div[2]/div[1]/div[2]，class=sons下所有文本内容【诗词和出处一一对应】
    # div_e = dom.find('div', attrs=['class':'sons',]))
    
    div_e = dom.find('div', attrs={'class':'sons', 'style':'padding-bottom:12px;'})
    print(type(div_e))

    sons_divs = div_e.find_all('div', attrs={'class':'cont'})
    for div in sons_divs:
        a_poem = div.find('a') #匹配第一个 a
        span = div.find('span')
        a_book = a_poem.find_next_sibling('a') #下一个兄弟节点

        a_poem_text = a_poem.string
        span_text = span.string
        a_book_text = a_book.string

        print(a_poem_text+span_text+a_book_text)


#bs4 api CSS选择器
#方法描述：tag 或 BeautifulSoup 对象的 .select()方法中传入字符串参数,即可使用CSS选择器的语法找到tag:
def bs4_base_api_by_css(dom):
    #css选择器:https://www.w3school.com.cn/cssref/css_selectors.asp
    #dom.select('css选择器')
    #CSS选择器简单表达式：.class  #id  [attribute=value]
    print(type(dom.select('body div'))) # 返回body下的所有div元素

    #应用，通过CSS选择器获取到古诗文与文章出处
    #xpath =//*[@id="html"]/body/div[2]/div[1]/div[2] ; class=sons
    f_div_e = dom.select('body>div>div.left>div.sons')
    print(len(f_div_e))
    son_divs_e = f_div_e[0].select('div')
    for son in son_divs_e:
        a_poem_e = son.select('a')#
        span_e = son.select('span') #
        # print(type(a_poem_e))

        if len(a_poem_e) == 2:
            print(a_poem_e[0].string+span_e[0].string+a_poem_e[1].string)
        else:
            continue


if __name__=="__main__":
    dom = instantiation_bs4()
    bs4_base_api_by_tag(dom)
    bs4_base_api_by_func(dom)
    bs4_base_api_by_css(dom)

HTML文件



	名句大全_古诗文网



    


    




    
        
            古诗文网
        
        
            
                推荐
                   
                  诗文
                  
                  名句
                   
                  作者
                   
                  古籍
                  
                  我的
                  
                手机版
            
            
                
                
                    
                    
                    
                
                
                
            
        
    
      

    
         
        
        推荐名句
        
            
            
            类型：
            
            
            
                                    春天
                                        
                                    夏天
                                        
                                    秋天
                                        
                                    冬天
                                        
                                    爱国
                                        
                                    写雪
                                        
                                    思念
                                        
                                    爱情
                                        
                                    思乡
                                        
                                    离别
                                        
                                    月亮
                                        
                                    梅花
                                        
                                    励志
                                        
                                    荷花
                                        
                                    写雨
                                        
                                    友情
                                        
                                    感恩
                                        
                                    写风
                                        
                                    西湖
                                        
                                    读书
                                        
                                    菊花
                                        
                                    长江
                                        
                                    黄河
                                        
                                    竹子
                                        
                                    哲理
                                        
                                    泰山
                                        
                                    边塞
                                        
                                    柳树
                                        
                                    写鸟
                                        
                                    桃花
                                        
                                    老师
                                        
                                    母亲
                                        
                                    伤感
                                        
                                    田园
                                        
                                    写云
                                        
                                    庐山
                                        
                                    山水
                                        
                                    星星
                                        
                                    荀子
                                        
                                    孟子
                                        
                                    论语
                                        
                                    墨子
                                        
                                    老子
                                        
                                    史记
                                        
                                    中庸
                                        
                                    礼记
                                        
                                    尚书
                                        
                                    晋书
                                        
                                    左传
                                        
                                    论衡
                                        
                                    管子
                                        
                                    说苑
                                        
                                    列子
                                        
                                    国语
                                        
                                    节日
                                        
                                    春节
                                         
                                    元宵节
                                     
                                    寒食节
                                     
                                    清明节
                                     
                                    端午节
                                     
                                    七夕节
                                     
                                    中秋节
                                     
                                    重阳节
                                     
                                    韩非子
                                     
                                    罗织经
                                     
                                    菜根谭
                                     
                                    红楼梦
                                     
                                    弟子规
                                     
                                    战国策
                                     
                                    后汉书
                                     
                                    淮南子
                                     
                                    商君书
                                     
                                    水浒传
                                     
                                    西游记
                                     
                                    格言联璧
                                     
                                    围炉夜话
                                     
                                    增广贤文
                                     
                                    吕氏春秋
                                     
                                    文心雕龙
                                     
                                    醒世恒言
                                     
                                    警世通言
                                     
                                    幼学琼林
                                     
                                    小窗幽记
                                     
                                    三国演义
                                     
                                    贞观政要
                                    
            
            


            
            
            
            作者：
            
            
            
                                    李白
                                    
                                    杜甫
                                    
                                    苏轼
                                    
                                    王维
                                    
                                    杜牧
                                    
                                    陆游
                                    
                                    李煜
                                    
                                    元稹
                                    
                                    韩愈
                                    
                                    岑参
                                    
                                    齐己
                                    
                                    贾岛
                                    
                                    柳永
                                    
                                    曹操
                                    
                                    李贺
                                    
                                    曹植
                                    
                                    张籍
                                    
                                    孟郊
                                    
                                    皎然
                                    
                                    许浑
                                    
                                    罗隐
                                    
                                    贯休
                                    
                                    韦庄
                                    
                                    屈原
                                    
                                    王勃
                                    
                                    张祜
                                    
                                    王建
                                    
                                    晏殊
                                    
                                    岳飞
                                    
                                    姚合
                                    
                                    卢纶
                                    
                                    秦观
                                    
                                    钱起
                                    
                                    朱熹
                                    
                                    韩偓
                                    
                                    高适
                                    
                                    方干
                                    
                                    李峤
                                    
                                    赵嘏
                                    
                                    贺铸
                                    
                                    郑谷
                                    
                                    郑燮
                                    
                                    张说
                                    
                                    张炎
                                     
                                    白居易
                                     
                                    辛弃疾
                                     
                                    李清照
                                     
                                    刘禹锡
                                     
                                    李商隐
                                     
                                    陶渊明
                                     
                                    孟浩然
                                     
                                    柳宗元
                                     
                                    王安石
                                     
                                    欧阳修
                                     
                                    韦应物
                                     
                                    温庭筠
                                     
                                    刘长卿
                                     
                                    王昌龄
                                     
                                    杨万里
                                     
                                    诸葛亮
                                     
                                    范仲淹
                                     
                                    陆龟蒙
                                     
                                    晏几道
                                     
                                    周邦彦
                                     
                                    杜荀鹤
                                     
                                    吴文英
                                     
                                    马致远
                                     
                                    皮日休
                                     
                                    左丘明
                                     
                                    张九龄
                                     
                                    权德舆
                                     
                                    黄庭坚
                                     
                                    司马迁
                                     
                                    皇甫冉
                                     
                                    卓文君
                                     
                                    文天祥
                                     
                                    刘辰翁
                                     
                                    陈子昂
                                     
                                    纳兰性德
                                    
            
            


            
                
            
            朝代：
            
            
            
                     先秦            
                    
                     两汉            
                    
                     魏晋            
                    
                     南北朝            
                    
                     隋代            
                    
                     唐代            
                    
                     五代            
                    
                     宋代            
                    
                     金朝            
                    
                     元代            
                    
                     明代            
                    
                     清代            
                    
            
            


            
                
            
            形式：
            
            
            
                     诗文            
                    
                     古籍            
                    
                     谚语            
                    
                     对联            
                    
            
            
          
          
          
                   
                    夕阳西下几时回？
                    
                    ——晏殊《浣溪沙·一曲新词酒一杯》
                    
                 
              
                   
                    可与言而不与之言，失人；不可与言而与之言，失言。知者不失人亦不失言。
                     
                    ——《论语·卫灵公篇》
                    
                 
              
                   
                    居轩冕之中，不可无山林的气味；处林泉之下，须要怀廊庙的经纶。
                     
                    ——《菜根谭·概论》
                    
                 
              
                   
                    声喧乱石中，色静深松里。
                    
                    ——王维《青溪 / 过青溪水作》
                    
                 
              
                   
                    风蒲猎猎小池塘。过雨荷花满院香。
                    
                    ——李重元《忆王孙·夏词》
                    
                 
              
                   
                    凡大事皆起于小事，小事不论，大事又将不可救
                     
                    ——《贞观政要·卷一·论政体》
                    
                 
              
                   
                    虽有天下易生之物也，一日暴之，十日寒之。未有能生者也。
                     
                    ——《孟子·告子章句上·第九节》
                    
                 
              
                   
                    花红易衰似郎意，水流无限似侬愁。
                    
                    ——刘禹锡《竹枝词·山桃红花满上头》
                    
                 
              
                   
                    昆仑之高有积雪，蓬莱之远常遗寒。
                    
                    ——王令《暑旱苦热》
                    
                 
              
                   
                    君子时诎则诎，时伸则伸也。
                     
                    ——《荀子·仲尼》
                    
                 
              
                   
                    明主劳于求贤，而逸于任人。
                     
                    ——《日知录·卷九》
                    
                 
              
                   
                    况属高风晚，山山黄叶飞。
                    
                    ——王勃《山中》
                    
                 
              
                   
                    旧山松竹老，阻归程。
                    
                    ——岳飞《小重山·昨夜寒蛩不住鸣》
                    
                 
              
                   
                    纵有千年铁门槛，终须一个土馒头。
                    
                    ——范成大《重九日行营寿藏之地》
                    
                 
              
                   
                    为我一挥手，如听万壑松。
                    
                    ——李白《听蜀僧濬弹琴 / 听蜀僧浚弹琴》
                    
                 
              
                   
                    渔舟唱晚，响穷彭蠡之滨，雁阵惊寒，声断衡阳之浦。
                    
                    ——王勃《滕王阁序》
                    
                 
              
                   
                    万里桥边女校书，枇杷花里闭门居。
                    
                    ——王建《寄蜀中薛涛校书》
                    
                 
              
                   
                    征蓬出汉塞，归雁入胡天。
                    
                    ——王维《使至塞上》
                    
                 
              
                   
                    行水得其理，漂石折舟；用民得其性，则令行如流。
                     
                    ——《孙膑兵法·奇正》
                    
                 
              
                   
                    愿此生终老温柔，白云不羡仙乡。
                     
                    ——《长生殿·第二出·定情》
                    
                 
              
                   
                    忠告而善道之，不可则止，毋自辱焉。
                     
                    ——《论语·颜渊篇》
                    
                 
              
                   
                    窗含西岭千秋雪，门泊东吴万里船。
                    
                    ——杜甫《绝句》
                    
                 
              
                   
                    万壑树参天，千山响杜鹃。
                    
                    ——王维《送梓州李使君》
                    
                 
              
                   
                    油壁香车不再逢，峡云无迹任西东。
                    
                    ——晏殊《无题·油壁香车不再逢》
                    
                 
              
                   
                    夜深忽梦少年事，梦啼妆泪红阑干。
                    
                    ——白居易《琵琶行 / 琵琶引》
                    
                 
              
                   
                    若无水殿龙舟事，共禹论功不较多。
                    
                    ——皮日休《汴河怀古二首》
                    
                 
              
                   
                    漠漠水田飞白鹭，阴阴夏木啭黄鹂。
                    
                    ——王维《积雨辋川庄作 / 秋归辋川庄作》
                    
                 
              
                   
                    明月出海底，一朝开光曜。
                    
                    ——李白《古风·齐有倜傥生》
                    
                 
              
                   
                    流光容易把人抛，红了樱桃，绿了芭蕉。
                    
                    ——蒋捷《一剪梅·舟过吴江》
                    
                 
              
                   
                    通则骄而偏，穷则弃而儑。
                     
                    ——《荀子·不苟》
                    
                 
              
                   
                    彼之理是，我之理非，我让之；彼之理非，我之理是，我容之。
                     
                    ——《格言联璧·接物类》
                    
                 
              
                   
                    人家见生男女好，不知男女催人老。
                    
                    ——王建《短歌行》
                    
                 
              
                   
                    千里澄江似练，翠峰如簇。
                    
                    ——王安石《桂枝香·登临送目》
                    
                 
              
                   
                    戏马台南追两谢，驰射，风流犹拍古人肩。
                    
                    ——黄庭坚《定风波·次高左藏使君韵》
                    
                 
              
                   
                    掩妾泪，听君歌。
                    
                    ——李白《夜坐吟》
                    
                 
              
                   
                    天油然作云，沛然下雨，则苗浡然兴之矣。
                     
                    ——《孟子·梁惠王章句上·第六节》
                    
                 
              
                   
                    为学无间断，如流水行云，日进而不已也。
                     
                    ——《围炉夜话·第十四则》
                    
                 
              
                   
                    机在于应事；战在于治气
                     
                    ——《尉缭子·十二陵》
                    
                 
              
                   
                    迢递嵩高下，归来且闭关。
                    
                    ——王维《归嵩山作》
                    
                 
              
                   
                    不如饮美酒，被服纨与素。
                    
                    ——佚名《驱车上东门》
                    
                 
              
                   
                    及时当勉励，岁月不待人。
                    
                    ——陶渊明《杂诗·人生无根蒂》
                    
                 
              
                   
                    我觉秋兴逸，谁云秋兴悲？
                    
                    ——李白《秋日鲁郡尧祠亭上宴别杜补阙范侍御》
                    
                 
              
                   
                    诸侯之宝三：土地，人民，政事。宝珠玉者，殃必及身。
                     
                    ——《孟子·尽心章句下·第二十八节》
                    
                 
              
                   
                    云间连下榻，天上接行杯。
                    
                    ——李白《与夏十二登岳阳楼》
                    
                 
              
                   
                    遥知朔漠多风雪，更待江南半月春。
                    
                    ——苏轼《惠崇春江晚景二首 / 惠崇春江晓景二首》
                    
                 
              
                   
                    虽则如云，匪我思存。
                    
                    ——佚名《出其东门》
                    
                 
              
                   
                    一粥一饭，当思来处不易；半丝半缕，恒念物力维艰。
                     
                    ——《朱子家训·全文》
                    
                 
              
                   
                    火山五月行人少，看君马去疾如鸟。
                    
                    ——岑参《武威送刘判官赴碛西行军》
                    
                 
              
                   
                    井底引银瓶，银瓶欲上丝绳绝。
                    
                    ——白居易《井底引银瓶·止淫奔也》
                    
                 
              
                    
                    予独爱莲之出淤泥而不染，濯清涟而不妖，中通外直，不蔓不枝，香远益清，亭亭净植，可远观而不可亵玩焉。
                    
                    ——周敦颐《爱莲说》
                    
                    
                
          
          

          
            
            
              下一页
               
                                  上一页
                                  
                      / 5页
                      
                      1
                      5
                      
                      
                      
                      
         
         
    
             
    

    

关注公众号
将古诗文随身携带


        
        
            类型
        

        写景
        咏物
        春天
        夏天
        秋天
        冬天
        写雨
        写雪
        写风
        写花
        梅花
        荷花
        菊花
        柳树
        月亮
        山水
        写山
        写水
        长江
        黄河
        儿童
        写鸟
        写马
        田园
        边塞
        地名
        抒情
        爱国
        离别
        送别
        思乡
        思念
        爱情
        励志
        哲理
        闺怨
        悼亡
        写人
        老师
        母亲
        友情
        战争
        读书
        惜时
        婉约
        豪放
        诗经
        民谣
        论语
        史记
        老子
        庄子
        孟子
        中庸
        荀子
        尚书
        汉书
        节日
        春节
        元宵节
        寒食节
        清明节
        端午节
        七夕节
        中秋节
        重阳节
        鬼谷子
        菜根谭
        韩非子
        红楼梦
        淮南子
        名贤集
        忧国忧民
        咏史怀古
        三十六计
        资治通鉴
        增广贤文
        了凡四训
        文心雕龙
        围炉夜话
        随园诗话


    
         

扫码下载
古文岛客户端
    


        
        
            作者
        

      李白
      白居易
      杜甫
      苏轼
      辛弃疾
      李清照
      刘禹锡
      王维
      李商隐
      纳兰性德
      杜牧
      陆游
      陶渊明
      孟浩然
      元稹
      李煜
      柳宗元
      岑参
      王安石
      韩愈
      欧阳修
      齐己
      贾岛
      韦应物
      曹操
      刘长卿
      温庭筠
      柳永
      李贺
      张籍
      曹植
      王昌龄
      皎然
      孟郊
      贯休
      许浑
      罗隐
      陆龟蒙
      张祜
      杨万里
      王建
      韦庄
      诸葛亮
      范仲淹
      王勃



    

扫码关注
古文岛公众号


        
        
            朝代
        

    先秦
    两汉
    魏晋
    南北朝
    隋代
    唐代
    五代
    宋代
    金朝
    元代
    明代
    清代

      

        
        
            形式
        

    诗文
    古籍
    谚语
    对联

      
   
    
           




    
        
            
                关注公众号（获取小程序）
            
            
        
        
            
        
    





    
        
            
                微信扫码登录 | 账号登录
            
            
        
        
            
        
    








    © 2021 古诗文网 | 诗文 | 名句 | 作者 | 古籍 | 纠错










古诗文网

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

Python爬虫处理文档树【三方库—bs4】

推荐名句

Python相关栏目本月热门文章