实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 面试经验 > 面试问答

如何可靠地猜测MacRoman，CP1252，Latin1，UTF-8和ASCII之间的编码

面试问答更新时间：2026-05-21 14:59:46 发布时间：1623天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

首先，简单的情况：

ASCII码

如果您的数据不包含大于0x7F的字节，则为ASCII。（或者是7位ISO646编码，但是已经过时了。）

UTF-8

如果您的数据验证为UTF-8，则可以安全地假定它为 UTF-8。由于UTF-8严格的验证规则，误报极为罕见。

ISO-8859-1与Windows-1252

这两种编码之间的唯一区别是ISO-8859-1具有C1控制字符，而Windows-1252具有可打印字符€，ƒ„…†‡ˆ‰Š‹ŒŽ“”•-〜™š›
œžŸ。我见过很多使用弯引号或破折号的文件，但是没有使用C1控制字符的文件。因此，甚至不必理会它们或ISO-8859-1，而只需检测Windows-1252。

现在只剩下一个问题了。

您如何区分MacRoman和cp1252？

这要复杂得多。

未定义的字符

Windows-1252中未使用字节0x81、0x8D，0x8F，0x90、0x9D。如果发生这种情况，则假定数据为MacRoman。

相同字符

两种编码中的字节0xA2（¢），0xA3（£），0xA9（©），0xB1（±），0xB5（µ）都相同。如果这些是唯一的非ASCII字节，那么选择MacRoman还是cp1252都没有关系。

统计方法

在您知道为UTF-8的数据中计数字符（不字节！）的频率。确定最频繁的字符。然后使用此数据确定cp1252或MacRoman字符是否更常见。

例如，在我仅对100条随机英语Wikipedia文章执行的搜索中，最常见的非ASCII字符为

·•–é°®’èö—

。基于这个事实，

字节0x92、0x95、0x96、0x97、0xAE，0xB0、0xB7、0xE8、0xE9或0xF6建议使用Windows-1252。
字节0x8E，0x8F，0x9A，0xA1、0xA5、0xA8、0xD0、0xD1、0xD5或0xE1表示MacRoman。

计数cp1252建议字节和MacRoman建议字节，并选择最大的一个。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/650411.html

上一篇在括号之间返回文本的正则表达式

下一篇当第一列是字符串而其余列是数字时，如何使用numpy.genfromtxt？

面试问答相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号