腾讯AI Lab开源800万中文词的NLP数据集

时间 2021-01-15

原文原文链接

又一来自腾讯AI实验室的资源帖。腾讯AI实验室宣布，正式开源一个大规模、高质量的中文词向量数据集。该数据包含800多万中文词汇，相比现有的公开数据集，在覆盖率、新鲜度及准确性上大幅提高。在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面，腾讯内部效果提升显著。数据集特点总体来讲，腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇，其中每个词对应一个200维的向量

>>阅读原文<<