XPath数据提取(Java版)(网络爬虫常用方法)

XML XML是一种用于标记电子文件使其具有结构性的标记语言. 虽然HTML和XML同宗同源,但是两者还是存在着重要的区别:

与HTML不同,XML是大小写敏感的.例如：与是不同的XML标签.在HTML中,如果从上下文中可以分清哪里是段落或列表项的结尾,那么结束标签(

或)就可以省略,而XML中结束标签绝对不能省略.在XML中,只有单个标签而没有相对应的结束标签的元素必须以"/"结尾，如这样解析器就不去查找标签了在XML中,属性值必须用括号括起来,而在HTML中,引号是可有可无的.如对HTML来说是合法的,但是对XML来说则是不合法的,在XML中必须使用引号,即 width="300" height="300"在HTML中,属性名可以没有值,如,在XML中属性必须都有属性值,如checked="true"或checked="checked". XML文档应该以一个文档头开始:

或

XPath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历.它使用路径表达式来选取XML文档中的节点或节点集,节点是通过沿着路径(path)或者步(steps)来选取的. XPath语法实例(关于实例语法选自:RUNOOB.COM):


 

 

  Harry Potter
  29.99

 

  Learning XML
  39.95

Java利用XPath方法解析XML时所需依赖包:


    javax.xml
    jaxp-api
    1.4.2

选取节点

表达式	描述
nodename	选取此节点的所有子节点.
/	从根节点选取(取子节点)
//	从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置(取子孙节点)
.	选取当前节点
…	选取当前节点的父节点
@	选取属性

表达式及结果:

路径表达式	结果
bookstore	选取bookstore元素所有子节点
/bookstore	选取根元素bookstore,假如路径起始于"/",则此路径始终代表到某元素的绝对路径
/bookstore/book	选取属于bookstore的子元素的所有book元素
//book	选取所有book子元素,而不管它在文档中的位置
bookstore//book	选取属于bookstore元素的后代的所有book元素,而不管它们位于bookstore之下的什么位置
//@lang	选取名为lang的所有属性

Java代码示例:

import org.w3c.dom.document;
import org.w3c.dom.NodeList;

import javax.xml.parsers.documentBuilder;
import javax.xml.parsers.documentBuilderFactory;
import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathFactory;
import java.io.ByteArrayInputStream;
import java.io.FileReader;
import java.io.InputStream;
import java.io.Reader;
import java.nio.charset.StandardCharsets;

public class Main {
    public static void main(String[] args) {
        try
        {

            
            Reader reader=null;
            int length=0;
            char[] ch=null;
            reader=new FileReader("test.xml");
            ch=new  char[1024];
            length=reader.read(ch);
            String testtext=new String(ch,0,length);

            
            document doc=null;
            XPath xPath=null;
            documentBuilderFactory dbf=documentBuilderFactory.newDefaultInstance();
            dbf.setValidating(false);
            InputStream inputStream=new ByteArrayInputStream(testtext.getBytes(StandardCharsets.UTF_8));
            documentBuilder db=dbf.newdocumentBuilder();
            doc=db.parse(inputStream);
            XPathFactory factory=XPathFactory.newInstance();
            xPath=factory.newXPath();

            NodeList nodeList_bookstore=(NodeList) xPath.evaluate("bookstore",doc, XPathConstants.NODESET);
            int nodeList_bookstoreLength=nodeList_bookstore.getLength();
            for(int i=0;i 
谓语(Predicates) 
谓语用来查找某个特定的节点或者包含某个指定的值的节点.谓语被嵌在方括号中: 
路径表达式 结果
/bookstore/book[1] 选取属于bookstore子元素的第一个book元素
/bookstore/book[last()] 选取属于bookstore子元素的最后一个book元素
/bookstore/book[last()-1] 选取属于bookstore子元素的倒数第二个book元素
/bookstore/book[position()< 3] 选取最前面的两个属于bookstore元素的子元素的book元素
//title[@lang] 选取所有拥有名为lang的属性的title元素
//title[@lang=‘eng’] 选取所有title元素,且这些元素拥有值为eng的lang属性
/bookstore/book[price>35.00] 选取bookstore元素的所有book元素,且其中的price元素的值须大于35.00
/bookstore/book[price>35.00]//title 选取bookstore元素中的book元素的title元素,且其中的price元素的值须大于35.00
选取未知节点 
通配符 描述
* 匹配任何元素节点
@* 匹配任何属性节点
node() 匹配任何类型的节点
表达式及结果: 
路径表达式 结果
/bookstore
            Reader reader=null;
            int length=0;
            char[] ch=null;
            reader=new FileReader("test.xml");
            ch=new  char[1024];
            length=reader.read(ch);
            String testtext=new String(ch,0,length);

            
            document doc=null;
            XPath xPath=null;
            documentBuilderFactory dbf=documentBuilderFactory.newDefaultInstance();
            dbf.setValidating(false);
            InputStream inputStream=new ByteArrayInputStream(testtext.getBytes(StandardCharsets.UTF_8));
            documentBuilder db=dbf.newdocumentBuilder();
            doc=db.parse(inputStream);
            XPathFactory factory=XPathFactory.newInstance();
            xPath=factory.newXPath();

            NodeList nodeList=(NodeList) xPath.evaluate("此处代入表达式或通配符",doc, XPathConstants.NODESET);
            int nodeListLength=nodeList.getLength();
            for(int i=0;i



转载请注明：文章转载自 www.mshxw.com
本文地址：https://www.mshxw.com/it/780952.html


   上一篇  【SpringSecurity】SpringSecurity基础
 
   下一篇  Flink的累加器和广播变量、广播流、分布式缓存
  






Java相关栏目本月热门文章

  1【Linux驱动开发】设备树详解（二）设备树语法详解
  2别跟客户扯细节
  3Springboot+RabbitMQ+ACK机制(生产方确认(全局、局部)、消费方确认)、知识盲区
  4【Java】对象处理流（ObjectOutputStream和ObjectInputStream）
  5【分页】常见两种SpringBoot项目中分页技巧
  6一文带你搞懂OAuth2.0
  7我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节：虚拟机与Java虚拟机介绍
  8【Spring Cloud】新闻头条微服务项目：FreeMarker模板引擎实现文章静态页面生成
  9JavaSE - 封装、static成员和内部类
  10树莓派mjpg-streamer实现监控及拍照功能调试
  11用c++写一个蓝屏代码
  12从JDK8源码中看ArrayList和LinkedList的区别
  13idea 1、报错java: 找不到符号 符号: 变量 log 2、转换成Maven项目
  14在openwrt使用C语言增加ubus接口（包含C uci操作）
  15Spring 解决循环依赖
  16SpringMVC——基于MVC架构的Spring框架
  17Andy‘s First Dictionary C++ STL set应用
  18动态内存管理
  19我的创作纪念日
  20Docker自定义镜像-Dockerfile







热门相关搜索



路由器设置
木托盘
宝塔面板
儿童python教程
心情低落
朋友圈
vim
双一流学科
专升本
我的学校
日记学校
西点培训学校
汽修学校
情书
化妆学校
塔沟武校
异形模板
西南大学排名
最精辟人生短句
6步教你追回被骗的钱
南昌大学排名
清朝十二帝
北京印刷学院排名
北方工业大学排名
北京航空航天大学排名
首都经济贸易大学排名
中国传媒大学排名
首都师范大学排名
中国地质大学(北京)排名
北京信息科技大学排名
中央民族大学排名
北京舞蹈学院排名
北京电影学院排名
中国戏曲学院排名
河北政法职业学院排名
河北经贸大学排名
天津中德应用技术大学排名
天津医学高等专科学校排名
天津美术学院排名
天津音乐学院排名
天津工业大学排名
北京工业大学耿丹学院排名
北京警察学院排名
天津科技大学排名
北京邮电大学(宏福校区)排名
北京网络职业学院排名
北京大学医学部排名
河北科技大学排名
河北地质大学排名
河北体育学院排名







学习工具
代数计算器
三角函数
解析几何
立体几何


知识解答
教育知识
百科知识
生活知识
常识知识


写作必备
作文大全
作文素材
句子大全

实用范文


关于我们
关于我们
联系我们
网站地图


 
名师互学网交流群


名师互学网客服





名师互学网 版权所有 (c)2021-2022      ICP备案号：晋ICP备2021003244-6号
 






关于我们
文章归档
网站地图
联系我们
版权所有 (c)2021-2022 MSHXW.COM
ICP备案号：晋ICP备2021003244-6号

路径表达式	结果
/bookstore/book[1]	选取属于bookstore子元素的第一个book元素
/bookstore/book[last()]	选取属于bookstore子元素的最后一个book元素
/bookstore/book[last()-1]	选取属于bookstore子元素的倒数第二个book元素
/bookstore/book[position()< 3]	选取最前面的两个属于bookstore元素的子元素的book元素
//title[@lang]	选取所有拥有名为lang的属性的title元素
//title[@lang=‘eng’]	选取所有title元素,且这些元素拥有值为eng的lang属性
/bookstore/book[price>35.00]	选取bookstore元素的所有book元素,且其中的price元素的值须大于35.00
/bookstore/book[price>35.00]//title	选取bookstore元素中的book元素的title元素,且其中的price元素的值须大于35.00

通配符	描述
*	匹配任何元素节点
@*	匹配任何属性节点
node()	匹配任何类型的节点