python进行文本分类,基于word2vec,sklearn-svm对微博垃圾评论分类

差很少一年前的第一个分类任务,记录一下 语料库是关于微博的垃圾用户评论,分为两类,分别在normal,和spam文件夹下。里面是不少个txt文件,一个txt是一条用户评论。python 1、进行分词app 利用Jieba分词和去除停用词(这里我用的是全模式分词),每一篇文档为一行 用换行拼接,获得result.txt。其中用到的停用词是在网上随便下载的。dom # 对句子进行分词 def seg_
相关文章
相关标签/搜索