您的代码示例中没有任何内容直接使用UTF-8。而是使用UTF-16在内存中对Java字符串进行编码。不适合单个16位字符的Unipre代码点将使用称为代理对的2个字符对进行编码。
如果未将参数值传递给
String.getBytes(),它将返回一个字节数组,该数组的
String内容使用基础操作系统的默认字符集进行编码。如果要确保使用UTF-8编码的数组,则需要
getBytes("UTF-8")改用。调用
String.charAt()仅从String的内存存储中返回原始UTF-16编码的char。
因此,在您的示例中,Unipre字符使用UTF-16编码的两个字节(或取决于字节序)
ョ存储在
String内存中,但使用三个字节(使用任何操作系统进行编码)存储在字节数组中默认字符集为。
0x6E0xFF``0xFF 0x6E``getBytes()
在UTF-8中,该特定Unipre字符也恰好使用3个字节(
0xEF 0xBD 0xAE)。



