根据昨天的数据集清洗方法,清洗完成全部的数据集 如下所示:
将不容的小故事的数据集合并成一个txt文件 这些数据将做为训练数据集进行标点符号的预训练
处理小学生作文数据集,随机生成错误的标点符号,形成小学生含错误标点的样本。