基于10个类别假新闻1000篇文章数据训练中文word2vec模型

时间 2020-12-30

原文原文链接

爬取语料库利用爬虫爬取百度网页每个类别假新闻10页，共1000篇文章。爬取的类别如下：数据预处理汇总把爬取到的10个txt文件都放在同一个文件夹下，利用程序将这10个txt文件合并在一起。把汇总的txt文件命名为result.txt。程序如下： file: FileMerage.py # os模块中包含很多操作文件和目录的函数 import os # 获取目标文件夹的路径 mer