栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

在Java中针对HTML使用XPath包含

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

在Java中针对HTML使用XPath包含

关于此:

我可以使用HTML Cleaner将其清理为XML,将其序列化为字符串,然后将其与另一个XPath库一起使用,但是找不到适合字符串的Java
XPath评估器。

正是 我所要做的(除非您不需要对字符串进行操作(请参见下文))。

许多HTML解析器 试图做太多事情 。例如,HTMLCleaner不能正确/完全实现XPath 1.0规范(

contains
例如,
是XPath 1.0函数)。好消息是您不需要它。您只需HTMLCleaner即可解析格式错误的输入。完成此操作后,最好 使用标准XML接口
来处理生成的(现在格式正确的)文档。

首先将文档转换成这样的标准

org.w3c.dom.document

TagNode tagNode = new HtmlCleaner().clean(        "<div><table><td id='1234 foo 5678'>Hello</td>");org.w3c.dom.document doc = new DomSerializer(        new CleanerProperties()).createDOM(tagNode);

然后使用标准的JAXP接口对其进行查询:

XPath xpath = XPathFactory.newInstance().newXPath();String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()",  doc, XPathConstants.STRING);System.out.println(str);

输出:

Hello


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/437759.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号