栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

jsoup的奇怪编码行为

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

jsoup的奇怪编码行为

这是网站本身的错误。实际上是三个错误:

  1. 该页面在HTTP 响应标头中 不带 任何字符集的 情况下提供

    Content-Type
    。有
    ISO-8859-1
    在HTML meta标签,但在页面都通过HTTP这个被忽略!一般的网络浏览器将尝试智能检测或使用平台默认编码对网页进行编码,该网页在Windows计算机上为CP1252。

  2. <meta>
    标签假装内容编码ISO-8859-1,但实际的字符
    (U + 2013 EN DASH)是 不能 覆盖由字符集的。但是,CP1252字符集将其覆盖为
    0x0096

  3. 根据网页源代码,产品名称使用原义字符

    而不是HTML实体
    &ndash;
    ,而HTML实体是在同一网页上其他位置发现的。

Jsoup可以透明地修复许多不良开发的网页,但这确实超出了Jsoup的范围。您需要手动读取它,然后将其作为CP1252馈入Jsoup。

String url = "http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html";InputStream input = new URL(url).openStream();document doc = Jsoup.parse(input, "CP1252", url);String title = doc.select(".products_name").first().text();// ...


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/509447.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号