python进行文本分类，基于word2vec,sklearn-svm对微博垃圾评论分类

时间 2020-08-02

标签 python 进行文本分类基于 word2vec word vec sklearn svm 微博垃圾评论栏目 Python 繁體版

原文原文链接

差很少一年前的第一个分类任务，记录一下语料库是关于微博的垃圾用户评论，分为两类，分别在normal,和spam文件夹下。里面是不少个txt文件，一个txt是一条用户评论。python 1、进行分词app 利用Jieba分词和去除停用词（这里我用的是全模式分词），每一篇文档为一行用换行拼接，获得result.txt。其中用到的停用词是在网上随便下载的。dom # 对句子进行分词 def seg_

>>阅读原文<<