栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

Java使用哪种编码使用UTF-8或UTF-16?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Java使用哪种编码使用UTF-8或UTF-16?

人物是人类文化中的图形实体。当计算机需要处理文本时,它将使用这些字符的字节 表示形式 。所使用的确切表示形式称为 编码

有许多编码可以表示相同的字符-通过Unipre字符集,或通过其他字符集(例如各种ISO-8859编码或JIS X 0208)。

在内部,Java使用UTF-16。这意味着每个字符可以由两个字节的一个或两个序列表示。您所使用的字符最糟的是代码点U +
6700,它以UTF-16表示为字节0x67和字节0x00。

那是 内部 编码。除非您转储内存并查看转储图像中的字节,否则您将看不到它。

但这种方法

getBytes()
没有 返回这个内部表示。它的文档说:

public byte[] getBytes()

String
使用平台的默认字符集将其编码为字节序列,并将结果存储到新的字节数组中。

语言环境变量说的是“平台的默认字符集”。即

UTF-8
。因此,它将采用UTF-16内部表示形式,并将其转换为其他表示形式-UTF-8。

注意

new String(bytes, StandardCharsets.UTF_16);

不会像您假设的 那样
“将其明确转换为UTF-16”。此字符串构造函数采用一个字节序列,该字节序列应该位于第二个参数中给出的编码中,并将其转换为UTF-16表示形式,以表示这些字节在该编码中表示的任何字符。

但是您给了它一个以UTF-8编码的字节序列,并告诉它将其解释为UTF-16。这是错误的,并且您没有获得期望的字符或字节。

您无法告诉Java如何在内部存储字符串。它始终将它们存储为UTF-16。构造函数

String(byte[],Charset)
告诉Java从应该位于给定字符集中的字节数组中创建UTF-16字符串。该方法
getBytes(Charset)
告诉Java给您一个字节序列,该字节序列表示给定编码(字符集)中的字符串。而且
getBytes()
不带参数的方法也一样-
但是使用平台的默认字符集进行转换。

所以你误解了

getBytes()
给你的东西。这 不是
内部表示。您不能直接得到它。只会
getBytes(StandardCharsets.UTF_16)
给您,并且因为您知道那
UTF-16
是Java的内部表示。如果Java的未来版本决定以不同的编码表示字符,则
getBytes(StandardCharsets.UTF_16)
不会向您显示内部表示。

编辑: 实际上,Java
9在字符串的内部表示中引入了这种更改,默认情况下,所有字符都在ISO-8859-1范围内的字符串在内部用ISO-8859-1表示,而带有at的字符串与以前一样,该范围之外的至少一个字符在UTF-16中内部表示。因此的确,

getBytes(StandardCharsets.UTF_16)
不再返回内部表示。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/388462.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号