天然语言处理 数据集(更新于2020.04.19)

天然语言处理 20 newsgroups:分类任务,将出现的单词映射到新闻组 ID。用于文本分类的经典数据集之一,一般可用做纯分类的基准或任何 IR /索引算法的验证。 路透社新闻数据集:(较旧)纯粹基于分类的数据集,包含来自新闻专线的文本。经常使用于教程。 宾州树库:用于下一个单词或字符预测。 UCI‘s Spambase:来自著名的 UCI 机器学习库的(旧版)经典垃圾邮件数据集。根据数据集的
相关文章
相关标签/搜索