栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 系统运维 > 运维 > Linux

c++ linux utf-8 编码 中文汉字分割(超简单代码)

Linux 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

c++ linux utf-8 编码 中文汉字分割(超简单代码)

UTF-8 编码对于英文字母,占用一个字节;
UTF-8 编码对于中文字母,占用多个字节,最大占用6个字节,其中第一个字节二进制的最高位连续1的个数来表示占用字节的个数,例如;
汉字“中”占3个字节

“中” : ‭11100100  10111000  10101101‬ // 最高位连续3个1
“国” : ‭11100101  10011011  10111101‬  // 最高位连续3个1

实现汉字的分割代码:

vector list;
int strSize = str.size();
int i = 0;

while (i < strSize) {
    int len = 1;
    for (int j = 0; j < 6 && (str[i] & (0x80 >> j)); j++) {
        len = j+1;
    }
    list.push_back(str.substr(i, len));
    i += len;
}
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/361810.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号