【读书笔记】Python Natural Language Processing by Jalaj Thanaki

Corpus analysis nltk包括四种形式的corpora Isolate corpus:文本和自然语言的集合,例如gutenberg、webtext等。 Categorized corpus:这里的文本被打包分类成不同的类别,例如brown包含了news、hobbies、humor等类别。 Overlapping corpus:这里的类别与类别之间会有重叠区域,例如retuers,比如
相关文章
相关标签/搜索