-
首先我们要知道"尚"字的Unicode编码值为 : 23578(十进制)
-
对应为二进制: 0101 1100 0001 1010
-
那么具体到UTF -8中的编码是怎样的?
-
我们要明白 – 这个时候的"尚"是一个中文字符 – 而中文字符在UTF-8中是通过三个字节进行存储的
-
UTF-8编码集中的三个字节的存储格式为: 1110xxxx 10xxxxxx 10xxxxxx
- 我们可以发现这个时候x一共有16个,刚刚够填充我们的"尚"字在Unicode中的编码的二进制(也是16位)
-
那么我们将"尚"字在Unicode中存储的二进制的16位数据填充到UTF-8编码集中三个字节的存储格式中,就得到了"尚"字在UTF-8中的存储编码 : 11100101 10110000 10011010
- 1110xxxx 10xxxxxx 10xxxxxx
- +
- 0101 110000 011010
- =
- 结果为: 11100101 1011000 10011010


![具体字符使用UTF-8编码集存储的举例 [Java] 具体字符使用UTF-8编码集存储的举例 [Java]](http://www.mshxw.com/aiimages/31/692433.png)
