全球最大 COVID-19 研究数据集正式开放,增强科技抗疫

图片描述

近日,全球多家研究机构以及科技企业为了更好的应对疫情,联合发布了一个 COVID-19 开放研究数据集(简称为 CORD-19 ),该数据集中包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等,并聚集了有关 SARS-CoV-2 病毒内容在内的近 29,000 篇文章。这次公开的数据集是机器可读的,所以能够轻松地进行解析,以用于机器学习目的。ios

该项目由艾伦 AI 研究所、Chan Zuckerberg Initiative(CZI)、乔治敦大学安全与新兴技术中心(CSET)、微软以及美国国立卫生研究院国家医学图书馆(NLM)等机构组成。在新闻发布会上,美国首席技术官 Michael Kratsios 称新数据集为“迄今为止最普遍的机器可读冠状病毒文献集”。算法


多年来,科学家一直在研究和发表有关各类冠状病毒株的发现,包括 SARS、MERS 和最新的 COVID-19 等其余变体。微软首席科学官埃里克·霍维茨(Eric Horvitz)说,利用人工智能工具寻找数千篇此类已发表文章的共性和差别,将有助于科学家发现他们可能错过的事物。安全

Kaggle 的联合创始人兼首席执行官 Anthony Goldbloom 表示:“人们很难手动浏览 2 万多篇文章并综合他们的发现。” “最近的技术进步在这里可能会有所帮助。咱们将这些文章的机器可读版本显示在咱们超过 400 万数据科学家的社区中。咱们但愿,人工智能能够用来帮助找到有关 COVID-19 的一系列关键问题的答案。”机器学习

Chan Zuckerberg Initiative 科学部负责人 Cori Bargmann 表示:“在科学界和医学界之间共享重要信息,对于提升咱们应对冠状病毒大流行的能力相当重要,新的 COVID-19 开放研究数据集将帮助全球研究人员更快地访问重要信息。”工具

据悉,科学期刊和文学的出版商已经赞成将其完整的文章提供给研究人员,以便机器学习算法能够从中寻找关键的看法。他们说,随着世界各地科学家继续发表新的研究成果,期刊出版商已经赞成在印刷版本以前以电子形式提供这些文章。学习

COVID-19 开放研究数据集地址:https://pages.semanticscholar...优化

clipboard.png