Python对中文字符的处理(utf-8/ gbk/ unicode)

如今在作分词的时候会处理大量有关中文字符的处理,常常输出乱码,老大让我暂时不考虑字符编码,可是为了看着爽不得不研究一下。python 分词系统:NLPIR 程序员 由于不一样的编译环境默认的汉字编码可能不同,个人环境是OSX10.11 + Pycharm + python2.7python2.7 文件第一行永远默认ide # coding: utf-8 数据集我用的是“tc-corpus-trai
相关文章
相关标签/搜索