gensim 理论篇

gensim 是 Radim Rehurek 写的一个用来处理文本相似度的 python 库。可以很方便的用 tfidf,LDA,LSA,word2vec 等模型,涵盖了 NLP 里常见的词袋模型,主题模型,词嵌入等。下面简单介绍一下这些概念。 Vector Space model 在自然语言处理中,我们经常需要表示一个文档。一种常见的做法是写成向量的形式,比如直接统计一下该文章的词频,那么向量的
相关文章
相关标签/搜索