Python自然语言处理 2 获得文本语料和词汇资源

#古腾堡语料库----文学作品    Project Gutenberg import nltk nltk.corpus.gutenberg.fileids() emma = nltk.corpus.gutenberg.words('austen-emma.txt')    #<简爱> len(emma) 192427 文本的3个 统计量:平均词长,平均句子长度和每个词出现的平均次数 sents(
相关文章
相关标签/搜索