python+word2vec+随机森林 微博文本情感极性分析(一)

数据源:36万条微博文本,已标注情感。源数据中label0:开心,label1-3:低落或忧伤。本文只考虑情感正负极性,因此1-3都划为负样本。 项目思路:分词后利用gensim.models.word2vec训练词向量,词向量表示训练集文本,sklearn训练随机森林模型,auc=0.86。python 加载相关python包:web import jieba import re import
相关文章
相关标签/搜索