Python自然语言处理 2 获得文本语料和词汇资源

时间 2021-01-13

原文原文链接

#古腾堡语料库----文学作品 Project Gutenberg import nltk nltk.corpus.gutenberg.fileids() emma = nltk.corpus.gutenberg.words('austen-emma.txt') #<简爱> len(emma) 192427 文本的3个统计量:平均词长,平均句子长度和每个词出现的平均次数 sents(