NLP文本分类--词向量

1.基于规则,对于要提取的分类维护一个dict,在dict里面保存需要提取的关键词,存在关键词的对应标记为分类;(缺点,不断的去维护词典) 2.基于机器学习:HMM(分词最常用的),CRF,SVM,LDA,CNN 3.词袋模型:bag of word :(one hot)一种是统计词频和位置,一种是只存储是否出现;(缺点很明显,只有词出现信息,对于词的重要度完全没有体现) 4.tf-idf:先考虑
相关文章
相关标签/搜索