论文阅读:STC data set for single-turn short text conversation——Wang 2013 Noah's Ark Lab

首先吐槽一句,不公开完整human labelled 数据集…… 这是一个基于Sina微博的数据集,是从一些中国搞NLP的高级知识分子的微博posts中爬下来的(posts的质量较高),但是comments(replies)是所有人都可以发的。 一、data set构建的方法如下: 1、 crawling the community of users 首先确定10个在sina微博上活跃的NLP大牛
相关文章
相关标签/搜索