数据集的清洗

6月17日实训记录 儿童文学的相关数据集是分散在每一个文件夹下有一本书,做为总的训练集需要汇总成一个txt文件,今天进行了部分的数据集的整理入图: 将文章开头的一些信息和描述去除 消除所有的间隔和章节的描述,形成一个长文本的形式。如下图:
相关文章
相关标签/搜索