当达摩院大牛学会抠图，这一切都不受控制了……

时间 2020-02-05

标签达摩学会一切不受控制繁體版

原文原文链接

在外界人眼中，达摩院人才辈出，大可能是奇人异士，作着神秘且高端的研究，有如扫地僧通常的存在，可是若是有一天，当神秘专家再也不神秘，你发现他们也开始玩抠图，且这一切都朝着不受控制的方向发展了的时候，那么抠图他们能玩出哪些花样？html

你看看，万物接可抠！

换成视频试试？能够！

视频连接：https://ucc-vod.alicdn.com/sv...git

咱们为何要开始研究抠图？

这要从阿里巴巴智能设计实验室自主研发的一款设计产品鹿班提及。鹿班的初衷是改变传统的设计模式，使其在短期内完成大量banner图、海报图和会场图的设计，提升工做效率。商家上传的宝贝图良莠不齐，直接投放效果不佳，经过鹿班制图能够保证会场风格统1、高质视觉效果传达，从而提高商品吸引力和买家视觉体验，达到提高商品转化率的目的。web

而在制图的过程当中，咱们发现商品抠图是一项不可避免且繁琐的工做，一张人像精细抠图平均须要耗费设计师2h以上的时间，这样无需创意的纯体力工做亟需被AI所取代，咱们的抠图算法应运而生。算法

近几年图像抠图算法逐渐进入人们的视野，如腾讯（每天P图）、百度（人像抠图、汽车分割）等。而潜藏在其背后的行业：泛文娱，电商行业、垂直行业，诸如在线餐饮、媒体、教育等行业商业价值不容小觑，能够知足各类战报、在线课程教师抠图、视频封面制做等不一样形式的图片制做需求拓展。市面上的一些抠图算法效果在人像发丝细节处理均不是很好，且对一些通用场景（电商等）支持也不是很好。咱们针对这两个问题一方面设计更具备泛化能力的系统、一方面深化发丝和高度镂空相关算法，均有更好的效果。小程序

遇到的难题和解决方案

咱们最开始在上手鹿班“批量抠图”需求时，发现用户上传的图像质量、来源、内容五花八门，想用一个模型实现业务效果达到一劳永逸很难。在通过对场景和数据的大量分析后，定制总体框架以下：设计模式

主要涵盖了过滤、分类、检测、分割四个模块：api

过滤：滤掉差图（过暗、过曝、模糊、遮挡等），主要用到分类模型和一些基础图像算法；
分类：瓶饮美妆等品类商品连通性比较好，3C、日用、玩具等品类则反之，另外场景（如人头、人像、动物）需求也是各具差别，故而设计不一样的分割模型提高效果；
检测：在鹿班场景用户数据多来自于商品图，不少是通过高度设计的图像，一图多商品、多品类、主体占比小，也不乏文案、修饰、logo等冗余信息，增长一步检测裁剪再作分割效果更精准；
分割：先进行一层粗分割获得大体mask，再进行精细分割获得精确mask，这样一方面能够提速，一方面也能够精确到发丝级；

如何让效果更精准？架构

目前分类、检测模型相对比较成熟，而评估模型则须要根据不一样场景作一些定制（电商设计图、自然摄影图等），分割精度不足，是全部模块中最薄弱的一个环节，所以成为了咱们的主战场。详述以下：框架

分类模型：分类任务每每须要多轮的数据准备，模型优化，数据清洗才可以落地使用。据此，咱们设计完成了一个自动分类工具，融合最新的优化技术，并借鉴autoML的思想，在有限GPU资源的状况下作参数和模型搜索，简化分类任务中人员的参与，加速分类任务落地。
评估模型：直接使用回归作分数拟合，训练效果并很差。该场景下做为一个前序过滤任务，做为分类问题处理则比较合理。实际咱们也采用一些传统算法，协助进行过暗、过曝等判断。
检测模型：主要借鉴了FPN检测架构。

一、对特征金字塔每一层featuremap都融合上下相邻层特征，这样输出的特征潜在表征能力更强；
二、特征金字塔不一样层特征分别预测，候选anchors可增长对尺度变化的鲁棒性，提高小尺度区域召回；
三、对候选anchor的设定增长一些可预见的scale，在商品尺寸比例比较极端的状况下大幅提高普适性；工具

分割融合模型：参考论文 >>点击查看<<

与传统的只须要分别前景、背景的图像分割（segmentation）问题不一样，高精度抠图算法须要求出某一像素具体的透明度是多少，将一个离散的0-1分类问题变成[0, 1]之间的回归问题。在咱们的工做中，针对图像中某一个像素p，咱们使用这样一个式子来进行透明度预测：

应用产品化开放

得以商业应用的基础是咱们在应用层单点能力，如人像/人头/人脸/头发抠图、商品抠图、动物抠图，后续还会逐步支持卡通场景抠图、服饰抠图、全景抠图等。据此咱们也作了一些产品化工做，如鹿班的批量白底图功能、E应用证件照/战报/人物换背景（钉钉->个人->发现->小程序->画蝶）等。

试用地址：https://ivpd.console.aliyun.com/api-image
接入说明：https://help.aliyun.com/document_detail/139269.html

本文做者：机器智能技术

阅读原文

本文为阿里云内容，未经容许不得转载。