java中char类型无法表示全部字符

为什么java中有的字符char无法表示

首先要知道Unicode字符集和UTF-8、UTF-16等的区别：Unicode属于一种规则，它规定了什么字符该由哪种数字表示，而UTF-8、UTF-16是实现这种规则的，它们分别用不同的法式在计算机中存储这个数字。而java语言内部使用的就是UTF-16编码，这种编码方式以代码单元为单位对字符进行存储，UTF-16中一个代码单元占16位，也就是两个字节，由于两个字节并不能表示所有字符，它用1-2个代码单元表示字符。

首先要知道Unicode不止2^16个字符。一个代码单元两字节最多表示65536个字符，在这个范围之内的字符一个代码单元就能表示，即两字节表示；而超过这个范围之外的字符则需要两个代码单元存储，也就是四个字节。由于一个char只有两个字节，那么在字符需要四字节才能表示的时候char类型就无法表示了。关于Unicode

Unicode有17个平面，每个平面最多能表示两个字节65536个字符。

Unicode字符集的范围：0x0000~0x10FFFF：16进制表示，前两位代表平面（16进制0~10,刚好17个平面），后四位代表平面内表达的字符数（4个16进制数，即16位，最多655366个字符）。

第0个平面字符的时候范围是0x0000~0xFFFF，这个平面成为基本的多语言平面（BMP），它包含了经典的字符，一个字节就能存储，我们平时大多数都是这样。

在字符超出第0个平面表示范围的时候，此时的字符需要两个代码单元才能表示，而char只能表示一个代码单元。

而java在最初采用Unicode字符集的时候Unicode字符还没有超过65536个，后来加入大量中文等文字才超过，此时一个char的16位就不能表示所有字符了。

例如：

char car = '턞';
System.out.println(car);

此时会报错：
这里提示未结束的字符文字，其实就是这个字符需要两个代码单元才能表示完全，而char只能表示一个代码单元的字符。

java中char类型无法表示全部字符

Java相关栏目本月热门文章