来源 | 谷歌开发者公众号git
文 / Tulsee Doshi, Google AI 产品经理github
发布大型的、对公众开放的图像数据集(如 ImageNet,Open Images 和 Conceptual Captions),是推进计算机视觉领域巨大进步的因素之一。 虽然这些数据集是开发实用的机器学习(ML)模型的一个极其重要的部分,可是咱们已经发现,有些开源数据集在收集方式上存在地理上的偏移。由于数据集的形状告诉咱们 ML 模型的学习内容,但若是有些地理区域的数据的表明数不足,低于必定比例,这种误差可能会致使研究团体在无心中开发出一些绘制图像表现较差的模型。 例如,如下图像显示在 Open Images 数据集上训练的一个标准开源图像分类器,可是因为世界各地的婚礼习俗五花八门,该分类器就没法将 “婚礼” 相关的标签准确无误地标注上去。算法
注:在地理上的偏移连接markdown
尽管 Google 正致力于构建更具表明性的数据集,但咱们仍想鼓励人们在该领域进行更多的研究,以便在数据源并不完善的状况下,机器学习方法能够更强劲,并兼具包容性。 这是一项重要的研究挑战,在目前建立的机器学习模型方式方法上,推进咱们不断突破向前发展。良好的解决方案将有助于确保即便在某些数据源不彻底包容的状况之下,也依旧能够利用它们来开发模型。ide
为了支持这项工做,并促进具备包容性的 ML 模型的进一步发展,咱们很高兴地宣布在 Kaggle 上举办包容性图像竞赛。 该项竞赛与 Conference on Neural Information Processing Systems Competition Track(神经信息处理系统竞赛轨道会议)合做,鼓励参赛者使用 Open Images,这是一个大型的,多标签的,公开的图像分类数据集,主要在北美和欧洲进行采样,训练模型对从全球不一样地区采集来的图像进行评估。oop
注:Kaggle 上举办包容性图像竞赛连接学习
神经信息处理系统竞赛轨道会议连接网站
Open Images 连接
咱们经过 Crowdsource 项目建立了两个 Challenge 数据集进行模型评估,里面邀请了世界各地的志愿者参与贡献周边环境的照片。 咱们但愿这些由 Google 全球社区捐赠而创建的数据集将为本次竞赛提供具备挑战性的基于地理位置的压力测试。 咱们还计划在比赛结束时发布更多的图像,提供更多的包容数据,来进一步鼓励包容性发展。
注:Crowdsource 项目连接
包容性图像竞赛于 9 月 5 日正式启动,提供可用的培训数据和第一阶段挑战的数据集。 提交结果的截止日期为 11 月 5 日星期一,测试集将于 11 月 6 日星期二发布。 欲知详情以及时间表,请访问包容性图像竞赛网站。
注:包容性图像竞赛网站连接
比赛结果将在 2018 Conference on Neural Information Processing Systems(2018 年神经信息处理系统会议)上公布,咱们将为排名靠前的参赛者提供旅行补助金,帮助他们来参加会议(详情请见本页)。 咱们期待成为社区开发更具包容性的全球图像分类算法的一份子!
注:详情请见本页连接
在这里咱们要感谢如下人士,感谢他们为实现包容性图像比赛和数据集做出的不懈努力:James Atwood,Pallavi Baljekar,Parker Barnes,Anurag Batra,Eric Breck,Peggy Chi,Tulsee Doshi,Julia Elliott,Gursheesh Kour,Akshay Gaur,Yoni Halpern ,Henry Jicha,Matthew Long,Jigyasa Saxena 和 D. Sculley。