栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

用Java将UTF-16转换为ASCII

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

用Java将UTF-16转换为ASCII

这个怎么样:

String input = ... // my UTF-16 stringStringBuilder sb = new StringBuilder(input.length());for (int i = 0; i < input.length(); i++) {    char ch = input.charAt(i);    if (ch <= 0xFF) {        sb.append(ch);    }}byte[] ascii = sb.toString().getBytes("ISO-8859-1"); // aka LATIN-1

对于大型字符串,这可能不是最有效的转换方法,因为我们将字符复制了两次。但是,它具有简单明了的优点。

顺便说一句,严格来说,没有这样的字符集,例如8位ASCII。ASCII是7位字符集。LATIN-1是最接近“
8位ASCII”字符集的东西(Unipre的块0等效于LATIN-1),所以我假设这就是您的意思。

编辑:根据问题的更新,解决方案甚至更简单:

String input = ... // my UTF-16 stringbyte[] ascii = new byte[input.length()];for (int i = 0; i < input.length(); i++) {    ascii[i] = (byte) input.charAt(i);}

此解决方案效率更高。因为现在我们知道要期待多少字节,所以我们可以预先分配字节数组并复制(截断的)字符,而无需使用StringBuilder作为中间缓冲区。

但是,我不认为以这种方式处理错误数据是明智的。

编辑2:还有一个晦涩的“陷阱”。Unipre实际上将代码点(字符)定义为“大约21位”值… 0x000000到0x10FFFF
…并使用替代来表示> 0x00FFFF的代码。换句话说,Unipre代码点>
0x00FFFF实际上在UTF-16中表示为两个“字符”。我的回答或任何其他回答都没有考虑到这一点(深奥的)。实际上,在Java中处理>
0x00FFFF的代码点通常比较棘手。这是因为’char’是16位类型,而String是根据’char’定义的。

编辑3:也许处理不转换为ASCII的意外字符更明智的解决方案是用标准替换字符替换它们:

String input = ... // my UTF-16 stringbyte[] ascii = new byte[input.length()];for (int i = 0; i < input.length(); i++) {    char ch = input.charAt(i);    ascii[i] = (ch <= 0xFF) ? (byte) ch : (byte) '?';}


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/437946.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号