栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

字符编码检测算法

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

字符编码检测算法

几年前,我们对邮件应用程序进行了字符集检测,然后我们推出了自己的字符集。邮件应用程序实际上是WAP应用程序,而电话期望使用UTF-8。分几个步骤:

普遍

我们可以很容易地检测到文本是否为UTF-8,因为在字节2/3 / etc的高位有一个特定的位模式。一旦发现该模式重复了一定次数,就可以确定它是UTF-8。

如果文件以UTF-16字节顺序标记开头,则可以假设文本的其余部分就是该编码。否则,除非可以检测到代理对模式,否则检测UTF-16几乎不像UTF-8那样容易:但是代理对的使用很少,因此通常不起作用。UTF-32与之类似,只是没有代理对可检测。

区域检测

接下来,我们假设读者在某个地区。例如,如果用户看到的UI本地化为日语,那么我们可以尝试检测三种主要的日语编码。ISO-2022-JP再次位于东部,可以检测转义序列。如果失败,那么确定EUC-
JP和Shift-JIS之间的区别就不那么容易了。用户更有可能收到Shift-JIS文本,但是EUC-JP中的某些字符在Shift-
JIS中不存在,反之亦然,因此有时您可以获得很好的匹配。

中文编码和其他区域使用相同的步骤。

用户的选择

如果这些方法不能提供令人满意的结果,则用户必须手动选择一种编码。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/573671.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号