python自然语言处理-读书笔记5

#使用UniCode进行文字处理 #Unicode支持超过一百万种字符。每个字符分配一个编号,称为编码点。在 Python中, 编码点写作\uXXXX 的形式,其中 XXXX是四位十六进制形式数。 #从文件中提取已编码文本 import codecs path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt') f = code
相关文章
相关标签/搜索