栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python爬虫学习Day5:数据提取之xpath

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬虫学习Day5:数据提取之xpath

一、数据提取之xpath 1、为什么要学习xpath和lxml? lxml 是一款高性能的 Python HTML/XML 解析器,我们可以利用 XPath ,来快速的定位特定元素以及获取节点信息。 2、什么是xpath? XPath (XML Path Language) 是一门在 HTMLXML 文档中查找信息的 语言 ,可用来在 HTMLXML 文档中对 元素和属性进行遍历 。 3、lxml的树结构
text = '''' 
             
                Everyday Italian 
                Giada De Laurentiis 
                2005 
                30.00 
             
             
                Harry Potter 
                J K. Rowling 
                2005 
                29.99 
              
                Learning XML 
                Erik T. Ray 
                2003
                39.95 
             
            
        '''
上面的 xml 内容可以表示为下面的树结构          上面的这种结构关系在 xpath 被进一步细化 4、xpath的节点关系 每个 XML 的标签我们都称之为节点,其中最顶层的节点称为根节点。

 

 5、xpath的语法使用 XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的 电脑文件系统中看到 的表达式 非常相似。 使用 chrome 插件选择标签时候,选中时,选中的标签会添加属性 class = " xh - highlight " 下面列出了最有用的表达式:

 

实例: 安装模块:pip install lxml
text = '''' 
             
                Everyday Italian 
                Giada De Laurentiis 
                2005 
                30.00 
             
             
                Harry Potter 
                J K. Rowling 
                2005 
                29.99 
              
                Learning XML 
                Erik T. Ray 
                2003
                39.95 
             
            
        '''
(1)获取所有book下面title的文本值

(2)获取所有book下面title的lang属性值

注意:属性值需使用@+属性名获取

(3)获取第二个book下面author的文本值

(4)其他路径表达式和结果

(6)通过找到父节点遍历子节点获取信息
text = '''' 
                 
                    Everyday Italian 
                    Giada De Laurentiis 
                    2005 
                    30.00 
                 
                 
                    Harry Potter 
                    J K. Rowling 
                    2005 
                    29.99 
                  
                    Learning XML 
                    Erik T. Ray 
                    2003
                    39.95 
                 
            
        '''

 

 

 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/753732.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号