linux c/c++ 判断是否为中文(不包括中文符号,非正则)

在linux环境下,c/c++默认的中文编码为UTF-8,中文的unicode编码是双字节的编码。有趣的是,windows环境下中文utf-8的编码为两个字节,而linux环境下UTF-8的为三个字节,而匹配中文使用正则表达式为linux [\u4e00-\u9fa5] 不管你是怎么搜索,百度出来匹配中文的正则基本都是上述的表达式。所以linux环境下3字节的UTF-8也用这个正则来匹配显然是不正
相关文章
相关标签/搜索