全球最大 COVID-19 研究数据集正式开放，增强科技抗疫

时间 2020-03-18 标签全球最大 covid 研究数据正式开放增强科技

近日，全球多家研究机构以及科技企业为了更好的应对疫情，联合发布了一个 COVID-19 开放研究数据集（简称为 CORD-19 ），该数据集中包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等，并聚集了有关 SARS-CoV-2 病毒内容在内的近 29,000 篇文章。这次公开的数据集是机器可读的，所以能够轻松地进行解析，以用于机器学习目的。ios

该项目由艾伦 AI 研究所、Chan Zuckerberg Initiative（CZI）、乔治敦大学安全与新兴技术中心（CSET）、微软以及美国国立卫生研究院国家医学图书馆（NLM）等机构组成。在新闻发布会上，美国首席技术官 Michael Kratsios 称新数据集为“迄今为止最普遍的机器可读冠状病毒文献集”。算法

多年来，科学家一直在研究和发表有关各类冠状病毒株的发现，包括 SARS、MERS 和最新的 COVID-19 等其余变体。微软首席科学官埃里克·霍维茨（Eric Horvitz）说，利用人工智能工具寻找数千篇此类已发表文章的共性和差别，将有助于科学家发现他们可能错过的事物。安全

Kaggle 的联合创始人兼首席执行官 Anthony Goldbloom 表示：“人们很难手动浏览 2 万多篇文章并综合他们的发现。” “最近的技术进步在这里可能会有所帮助。咱们将这些文章的机器可读版本显示在咱们超过 400 万数据科学家的社区中。咱们但愿，人工智能能够用来帮助找到有关 COVID-19 的一系列关键问题的答案。”机器学习

Chan Zuckerberg Initiative 科学部负责人 Cori Bargmann 表示：“在科学界和医学界之间共享重要信息，对于提升咱们应对冠状病毒大流行的能力相当重要，新的 COVID-19 开放研究数据集将帮助全球研究人员更快地访问重要信息。”工具

据悉，科学期刊和文学的出版商已经赞成将其完整的文章提供给研究人员，以便机器学习算法能够从中寻找关键的看法。他们说，随着世界各地科学家继续发表新的研究成果，期刊出版商已经赞成在印刷版本以前以电子形式提供这些文章。学习

COVID-19 开放研究数据集地址：https://pages.semanticscholar...优化