字符编码问题:ANSI、ASCII、UNICODE、UTF8、GBK及其相互转换

在使用tesseract时,不可避免地会遇到各种字符编码问题。 各种ANSI、UNICODE、UTF8、GBK总是搞不清楚,制作训练样本时刚好借机了解了下字符编码相关问题,在此记录备忘。 首先介绍最熟悉的ascii码(American Standard Code for Information Interchange,美国信息互换标准代码): 使用8位二进制,0-127表示128个字符,其中前32
相关文章
相关标签/搜索