儿童读物的数据集清洗(三)

1.完成全部数据集的清洗

根据昨天的数据集清洗方法,清洗完成全部的数据集
如下所示:
在这里插入图片描述

2.合并数据集

将不容的小故事的数据集合并成一个txt文件
在这里插入图片描述

这些数据将做为训练数据集进行标点符号的预训练

3.to do list

处理小学生作文数据集,随机生成错误的标点符号,形成小学生含错误标点的样本。