NLP文本分类--词向量

时间 2020-12-30

原文原文链接

1.基于规则，对于要提取的分类维护一个dict,在dict里面保存需要提取的关键词，存在关键词的对应标记为分类；（缺点，不断的去维护词典） 2.基于机器学习：HMM(分词最常用的)，CRF,SVM,LDA,CNN 3.词袋模型：bag of word :(one hot)一种是统计词频和位置，一种是只存储是否出现；（缺点很明显，只有词出现信息，对于词的重要度完全没有体现） 4.tf-idf：先考虑