微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

策划编辑 | Natalie
做者 | Vani Mandava
译者 | 核子可乐
编辑 | Debra
AI 前线导读:近日,微软研究院开源了新的数据项目,致力于促进全球研究界的普遍合做。有专家对这次开放数据项目评价道“ 这将成为大数据社区的游戏规则改变者。微软研究开放数据这样的项目可以减小数据共享的障碍,并经过云计算的力量鼓励可重复性。”微软在官方博客中写道:“微软研究外联小组一直在与外部研究团队开展普遍合做,并在过去几年当中积极推进云研究基础设施的采用工做。在这一过程当中,咱们体验到 Jim Gray 提出的数据密集型科学第四种发展模式的广泛性——目前,几乎全部研究项目都包含数据元素。这一趋势同时代表,除了计算机科学领域,其它跨学科与区域科学领域一样对通过精心规划以及有意义的数据集抱有旺盛需求。”这也是微软开放此数据项目的初衷。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

今天,咱们很高兴向你们介绍微软研究开放数据项目——这套新的云数据存储库致力于促进全球研究界的普遍合做。微软研究开放数据将提供一套便捷的数据集云托管平台,其同时表明着微软公司多年以来在一系列项目当中所使用的数据管理与研究成果。算法

为什么要开放?

咱们的目标是为微软研究人员及各合做方提供一套简单的平台,用以共享数据集以及相关研究技术与工具。微软研究开放数据项目旨在简化对这些数据集的访问流程,促进各使用云资源的研究人员之间的协做,同时尽量实现研究的可重复性。咱们将继续塑造并发展这套存储库,并根据社区的反馈意见不断添加新的功能。json

咱们意识到,研究人员目前正在使用数十套数据存储库,并迫切但愿其容量可以与现有工做的需求相契合。微信

图1 微软研究开放数据项目中的数据集并发

这将成为大数据社区的游戏规则改变者。微软研究开放数据这样的项目可以减小数据共享的障碍,并经过云计算的力量鼓励可重复性。less

-Sam Madden,麻省理工学院教授工具

随着数据总量以指数速度增加,人们广泛认为到 2025 年全球数据规模将超过 150 ZB。很明显,面对如此庞大的数据体量,咱们应优先将处理资源引入数据,而非经过互联网带宽迁移海量数据。咱们相信,提供这样一套将处理与数据加以结合的方案可以带来巨大的现实意义。开发工具

特色:分类多、覆盖范围广

微软研究开放数据中的数据集按照其主要研究领域进行分类,具体如图2所示。你能够在数据集当中找到研究项目或者出版物的连接。你能够浏览可用数据集并进行下载,也能够经过自动化工做流程利用 Auzre 订阅实现直接复制。该存储库尽量符合数据共享领域的最高执行标准,旨在确保数据集的可发现性、可访问性、可互操做性以及可复用性 ; 且整套素材库不包含任何我的身份信息。咱们将从用户当中获取反馈,从而推进该站点的进一步发展。测试

图2 数据集分类大数据

精选数据集先睹为快

微软开放的数据集中包含不少有用的数据集,如下介绍若干精选数据集:ui

微软机器阅读理解(MS MARCO)

微软机器阅读理解(MS MARCO)是一个全新的阅读理解和问题解答大型数据集。 在 MS MARCO 中,全部问题都是从真正的匿名用户查询中抽样的。 从上下文语境中获得的回答是使用最高级版本的 Bing 搜索引擎从真实的 Web 文档中提取的。若是用户可以总结答案,则查询的答案由他们人工生成。

文件大小:469.03 MB

文件类型:json

许可证:微软研究数据许可协议

上次修改时间:6/5/18

类别:社会科学、社交媒体等

详细信息:

https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903

SigmaDolphin

用于创建一个自动解决用天然语言编写的数学单词问题的计算机系统。SigmaDolphin 是 2013 年初在微软亚洲研究院启动的一个项目,其主要目标是创建一个具备天然语言理解和推理能力的计算机智能系统。咱们专一于研发自主解决问题的应用,即自动解决用天然语言编写的问题(特别是数学问题)。

文件大小:11.54 MB

文件类型:json,pdf,pkl,py,txt

许可证:微软研究数据许可协议

上次修改时间:6/21/18

类别:数学、统计学、逻辑学等

详细信息:

https://msropendata.com/datasets/f0e63bb3-717a-4a53-aa79-da339b0d7992

微软研究社交媒体对话语料库

此数据集是从 Twitter 日志中提取的表明 4232 个三步会话片断的 12,696 个 Tweet ID 集合。数据集中的每一行表示一个单独的上下文-消息-响应三元关系,众包注释者为上下文响应质量的评分平均为 4 或更高。数据已被随机分为调优(开发)和测试集,分别包含 2118 和 2114 个三元关系。但这个在天然语言处理社区的数据集仅供学术研究之用。为了访问底层推文和相关元数据,你须要调用 Twitter API。

若是你在研究中使用相似材料,能够引用如下文章:Alessandro Sordoni,Michel Galley,Michael Auli,Chris Brockett,Jiufeng Feng,Meg Mitchell,Jian-Yun Nie, Jianfeng Gao 和 Bill Dolan,A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015)。

与此和相关项目的更多信息能够在 http: //research.microsoft.com/en-us/projects/convo/ 上找到。

文件大小:245.46 KB

文件类型:txt

许可证:微软研究数据

许可协议:微软研究数据许可协议

上次修改时间:6/21/18

类别:社会科学,社交媒体等

详细信息:

https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903

NewsQA

每秒钟都会产生大量的书面文字,咱们如何确保咱们有最新的相关信息供使用呢? 微软研究蒙特利尔正在经过构建可以实时读取和理解大量复杂文本的 AI 系统来解决这个问题。NewsQA 数据集旨在帮助研究团体构建可以回答须要人类理解和推理技能的问题的算法。

文件大小:18.23 MB

文件类型:csv,md,pdf

许可证:微软研究数据

许可协议:微软研究数据许可协议

上次修改时间:6/21/18

类别:计算机科学

详细信息:

https://msropendata.com/datasets/939b1042-6402-4697-9c15-7a28de7e1321

在 Bing 查询中训练双字嵌入

这些数据仅可用于研究目的。DESM Word Embeddings 数据集包含一些可能被认为具备冒犯性、不雅或其余使人反感的词语。 Microsoft 还没有审查或修改数据集的内容。 Microsoft 此数据集仅为了便利的目的,对经过该数据集产生的任何不适内容概不负责。使用数据集须要你自担风险,保持判断力。有问题请联系论文做者。

文件大小:10.38 GB

文件类型:txt

许可证:微软研究数据

许可协议:微软研究数据许可协议

上次修改时间:6/21/18

类别:计算机科学

详细信息:

https://msropendata.com/datasets/30a504b0-cff2-4d4a-864f-3bc9a66f9d7e

其余的精选数据集还包括 Frames、Filling the Blanks for Mad Libs 等,这里就不一一详细介绍了。

如何获取微软开放数据集

微软这次开放的数据项目其中不少都是微软内部很先进技术会用到的数据集,数据分类多、覆盖范围广、资源珍贵,且用且珍惜,传送门先奉上:

https://msropendata.com/

除了提供数据资产下载选项以外,用户还能够将数据集直接复制至基于 Azure 的 Data Science 虚拟机当中,具体如图 3 所示。

图3 将数据由 microsoftopendata.com 复制至基于 Azure 的 Linux 虚拟机

Data Science 虚拟机预先安装有各种广受研究人员与从业者喜好的开发工具,如图 4 所示。

图4 Linux Data Science 虚拟机

“我常常收到进行研究数据共享的请求,而我过去已经进行的单独分享也得到了不错的效果。利用 Azure,咱们能够在统一平台上对数据集进行协调与编目,从而帮助内部与外部研究人员更轻松地实现访问、鼓励彼此协做。这同时也将为微软研究院提供便捷的云共享数据访问能力。”

-John Krumm,微软研究院 AI 首席研究员

微软研究开放数据项目是微软研究院外联数据科学计划的成果之一。在这里,咱们要感谢微软公司内各团队、微软研究人员、行业合做伙伴以及学术顾问之间的能力配合。没有他们的贡献,这一项目将不可能顺利完成。

原文连接:

https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/

相关文章
相关标签/搜索