utf-8_PHP

总结：

一.

ASCII：美版编码半个字节
ISO ：欧版编码一个字节
GBK ：中版编码两个字节兼容了ASCII 编码

3.1 GBK 如何区分采用GBK编码还是使用ASCII编码：

GBK编码规定，计算机每次都不能只读一个字节，先看第一位是否是0，如果是0的话按照ASCII来编码，若不是就按照GBK编码。

4.unicode : 综合了全世界大部分的编码三个字节

二.utf_8 ,utf_16,utf_32的区别：

utf-8是用一个字节来编码所有的字符，

utf-16是用两个字节来编码所有的字符，

utf-32是用两个字节来编码所有的字符

一.utf-8和unicode的区别

接下来说说Unicode的由来：

在计算机发明的时候 ,由于计算机你只能表示二进制的数据，美帝人民为了交流通信方便，约定了一个编码系统，就是ASCII码，把abc..xyz...ABC...XYZ...!@#...等字符分别和0,1,2,3,4......对应，发现差不多刚好128个数，半个字节的长度，为了防止以后需要为新的符号编码，于是干脆取一个字节，最高位置为0。后七位从0-127分别对每一个符号编码。
- 于是，计算机每次读取一个字节，然后参照ASCII表把这些编码翻译成字符。美国人民很高兴，拿着自己玩去了.......
后来欧洲人也玩计算机，发现不行啊，还有很多符号（法语，德语）ASCII没办法表示啊，于是欧洲人自己也撸了一套编码，一个字节的长度，把最高位也用掉了。这套编码叫ISO。
- 和ASCII表类似，计算机也是每次只读一个字节，然后按照ISO表，解码出字符。于是欧洲人民也很高兴。
中国人不高兴了，特么我们汉字有几万个，常用的就有几千个，没有两个字节根本交不了货。于是勤劳勇敢的中国人民就破天荒的用了两个字节来表示中文。整出一套GBK。为了现实我中华民族兼容并蓄，我们兼容了ASCII编码。
- 计算机 : WTF ?? !!
- gbk编码规定，计算机不能在每次都只读一个字节那么死板了，你要先看看第一位是不是为0，要是为0 的话，就当作ASCII码来读入一个字节，不然的话就读入两个字节。

于是天下就很乱了，欧洲人看不懂我们发过去的信息，我们也看不懂他们的东西，美国人看不懂我的东西，不过我们能看懂他们的信息。。。哈哈。

总之，天下大乱，群雄并起，百姓生灵涂........

这个时候，就有个国际组织站出来了，说，这么着吧，我来撸一套编码，把大家的编码都归纳进来。于是unicode编码就出现了。这套编码表的编号从0一直算到了100多万（三个字节）。每一个区间都对应着一种语言的编码。目前几乎收纳了全世界大部分的字符。所有的字符都有唯一的编号，这就解决了解码的冲突，于是天下大定！但是，unicode把大家都归纳进来，却没有为编码的二进制传输和二进制解码做出规定。只留下一句：大哥只能帮你到这里了。

我知道你一定在想，要个毛的规定啊，每次让计算机读取三个字节然后参照Unicode表解码就好了。想法是好的，但是如果类似于1号编码这样的小数据编号也要三个字节的话，那么也就是0x000001,这简直就是浪费啊，明明一个字节就可以表示了，你非得整三个，所以你到底是几个意思呢？

不管怎么样，大哥虽然走了，但是问题还得解决啊，于是，就出现了如下解决方案：uft-8，utf-16，utf-32这些编码方案。utf-16是用两个字节来编码所有的字符，utf-32则选择用4个字节来编码。下面只讲一下utf-8这种解决方案，因为它用的最多，用得最多是因为在当时它的方案最好，最节省资源。

总结来说 utf-8 和 unicode 的区别如下图所示：

二.utf8与UTF-8的区别

1、“UTF-8”是标准写法，php在Windows下边英文不区分大小写，所以也可以写成“utf-8”。“UTF-8”也可以把中间的“-”省略，写成“UTF8”。一般程序都能识别，但也有例外（如下文），为了严格一点，最好用标准的大写“UTF-8”。

2、在数据库中只能使用“utf8”(MySQL) 在MySQL的命令模式中只能使用“utf8”，不能使用“utf-8”，也就是说在PHP程序中只能使用“set names utf8(不加小横杠)”，如果你加了“-”此行命令将不会生效，但是在PHP中header时却要加上“-”，因为IE不认识没杠的“utf8”，原因见下文。

三. utfmb4与utf-8的区别

MySQL在5.5.3版本之后增加了这个utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。其实，utf8mb4是utf8的超集，理论上原来使用utf8，然后将字符集修改为utf8mb4，也会不会对已有的utf8编码读取产生任何问题。当然，为了节省空间，一般情况下使用utf8也就够了。

既然utf8应付日常使用完全没有问题，那为什么还要使用utf8mb4呢? 低版本的MySQL支持的utf8编码，最大字符长度为 3 字节，如果遇到 4 字节的字符就会出现错误了。四字节的字符例如最常见的就是Emoji 表情（Emoji 是一种特殊的 Unicode 编码，常见于 ios 和 android 手机上），和一些不常用的汉字，以及任何新增的 Unicode 字符等等。

为了获取更好的兼容性，应该总是使用 utf8mb4 而非 utf8，事实上，最新版的phpmyadmin默认字符集就是utf8mb4。显然，对于 CHAR 类型数据，使用utf8mb4 存储会多消耗一些空间。我觉得，为了获取更好的兼容性，应该总是使用 utf8mb4 而非 utf8. 对于 CHAR 类型数据，utf8mb4 会多消耗一些空间，根据 Mysql 官方建议，使用 VARCHAR 替代 CHAR。

utf-8

PHP相关栏目本月热门文章