基于10个类别假新闻1000篇文章数据训练中文word2vec模型

爬取语料库 利用爬虫爬取百度网页每个类别假新闻10页,共1000篇文章。爬取的类别如下:   数据预处理 汇总 把爬取到的10个txt文件都放在同一个文件夹下,利用程序将这10个txt文件合并在一起。 把汇总的txt文件命名为result.txt。 程序如下:  file: FileMerage.py # os模块中包含很多操作文件和目录的函数 import os # 获取目标文件夹的路径 mer
相关文章
相关标签/搜索