首先要知道Unicode字符集和UTF-8、UTF-16等的区别:Unicode属于一种规则,它规定了什么字符该由哪种数字表示,而UTF-8、UTF-16是实现这种规则的,它们分别用不同的法式在计算机中存储这个数字。而java语言内部使用的就是UTF-16编码,这种编码方式以代码单元为单位对字符进行存储,UTF-16中一个代码单元占16位,也就是两个字节,由于两个字节并不能表示所有字符,它用1-2个代码单元表示字符。
首先要知道Unicode不止2^16个字符。一个代码单元两字节最多表示65536个字符,在这个范围之内的字符一个代码单元就能表示,即两字节表示;而超过这个范围之外的字符则需要两个代码单元存储,也就是四个字节。 由于一个char只有两个字节,那么在字符需要四字节才能表示的时候char类型就无法表示了。 关于Unicode
Unicode有17个平面,每个平面最多能表示两个字节65536个字符。
Unicode字符集的范围:0x0000~0x10FFFF:16进制表示,前两位代表平面(16进制0~10,刚好17个平面),后四位代表平面内表达的字符数(4个16进制数,即16位,最多655366个字符)。
第0个平面字符的时候范围是0x0000~0xFFFF,这个平面成为基本的多语言平面(BMP),它包含了经典的字符,一个字节就能存储,我们平时大多数都是这样。
在字符超出第0个平面表示范围的时候,此时的字符需要两个代码单元才能表示,而char只能表示一个代码单元。
而java在最初采用Unicode字符集的时候Unicode字符还没有超过65536个,后来加入大量中文等文字才超过,此时一个char的16位就不能表示所有字符了。
例如:
char car = '턞'; System.out.println(car);
此时会报错:
这里提示未结束的字符文字,其实就是这个字符需要两个代码单元才能表示完全,而char只能表示一个代码单元的字符。



