咱们都知道,AI技术正在以可见的速度被应用于各行各业,然而绝大部分业务场景想应用AI技术,都须要算法工程师根据自身业务的标注数据,来进行单独训练,才能打磨出合适的AI模型。如此一来,如何以最低的门槛和成本,实现AI技术落地变成了行业急需解决的问题。算法
市场上的AI服务很是多,可是在视觉领域,通用的AI服务主要是基于图像的架构来作的,视频时代已经到来,基于图像的AI架构是否还能被普遍应用?阿里云视频云团队专一于视频领域,因此在针对视频的AI处理方面也有独特的思考和实践。3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,阿里云高级计算专场周源针对图像和视频的AI处理有什么不一样?团队是如何基于视频构建全新的AI架构?针对AI大量的数据、训练效果不够好、时间与成本消耗大等痛点,他们如何解决等以上问题作了悉数解答。网络
1、市场上通用的图像架构是怎样的?
市场上大部分AI的服务,输入的都是图像,也就是图片文件,是基于图片进行处理。在业界,图像的算法比较成熟,数量也较多,从大类来看有图像分类、检测、识别、分割等等。大部分AI服务的架构也是基本相似,通常包含图像算法层、引擎框架层、资源管理层、硬件基础层,以后基于各自的业务领域知识,构建一个面向特定领域的AI推理服务,而后经过API提供对外的访问。架构
2、挑战:视频与图像的不一样
随着如今视频(直播、点播、短视频)的愈来愈普遍应用,内容从原先的图像分析升级到视频分析。由于复用已有的技术以及架构的改形成本等等因素,通常的AI服务通常会保持现有的框架,不一样是把视频转换成图像来进行处理。通常作法是按照固定的时间间隔采样截取视频的图像信息,这样整个服务架构不须要作任何改动,只是在最上面一层增长了视频帧截取和结果汇聚的服务。框架
固然,这个架构在视频时代就会存在不少问题:运维
由于增长了视频截帧和结果汇聚这样的中间操做,因此处理时间长;视频下载下来,处理后图片再上传,网络传输也会致使时效性变差;举个例子,在相同画质下,使用一张张图片组成的视频,和H.264编码的视频,大小的比是10:1,图片是10倍于视频的存储量。异步
视频截帧通常会采用开源的FFmpeg,若是遇到问题须要解决,比较依赖于开源社区。好比格式和编码的兼容性、直播、点播中遇到数据异常、时间戳不许、定制协议、分辨率切换、卡死等。学习
把视频转换成批量的图片,就须要对这些临时的图片进行管理,另外还涉及顺序处理、异步操做、网络抖动等问题,须要关注的非核心业务功能就要求很是多,致使业务系统总体的复杂性变高。阿里云
截帧是一种采样,会引发信息丢失,丢失的信息中颇有可能包含了关键图像。另外,截帧的处理是对没有时间信息的图像结果的简单累加,效果也不理想。编码
既然有这么多问题,基于视频的AI计算该怎么作呢?
3、阿里云解决方案:面向视频的新架构
周源所在的阿里云视频云团队,具备多年音视频编解码、媒体处理相关技术经验,他们推出的面向视频的新架构是:把视频做为第一类对象(First-Class Object)来看待。把视频解码、时间域分析、智能汇聚、音频处理等引入到系统里面来,把视频处理和AI计算有机结合,以面向视频的方式,在视频处理的同时完成AI计算,精简的流程可以大幅度缩短处理时间,从时间维度提高分析效果,并能简化业务架构,让用户聚焦在核心业务的发展上。为用户提供高效稳定、简单易用、功能丰富的视频AI服务。spa
新架构具备如下几个特色:
相较于以前多余的截帧、上传等一系列操做,新方案不产生临时图片,同时能减轻存储的带宽和空间需求。能充分利用视频的并行分片机制,大幅度缩短总体处理时间。
面向视频的架构,视频处理和AI计算集成在一块儿,简化了对图片的处理过程,进而简化整个处理逻辑,下降复杂度。
阿里云视频云团队是具备10多年丰富视频处理经验的专业团队,兼容性、运维各类问题都不须要用户考虑。
对离散的图像结果按照时间的关系进行更合理的汇聚,得到更优的效果。
4、AI应用的痛点和解法
周源团队自研的新架构很好的解决了图像AI架构时效性差、稳定性差、复杂度高、效果不佳的问题。然而在AI的应用上,开发者也会关注到一些其余问题,好比:
目前,分类算法有ResNet、Inception、VGG等等,识别算法有FasterRCNN、SSD、YOLO等等,物体检测、人脸识别算法也有不少,那么如何选择最适合本身的呢?
针对自身业务标注数据,须要大量人力投入,同时真实数据少,采集十分困难,一般须要花费很是多的视觉才可以收集足够多的数据,怎么办?
每次模型训练时间长、反馈慢,训练好的模型更是须要复杂的上线流程,总体业务反馈太慢,怎么办?
智能视觉产品针对关键的数据和时间问题,给出了以下解法:
基于阿里巴巴在视频和AI领域的长期积累,已经帮你们选择好了算法,如今推出的是分类和识别,以后将推出更多算法。
迁移学习的基本原理是,根据天然图像中的基础边缘、色块、纹理的规律来概括物体特征,而且经过在浅层网络中复用这些基础特征,来减小标注数据,能以更快的时间、更高的质量生成业务场景相关数据,大幅度减小数据需求,进一步减小计算量,达到缩短新模型训练时间的效果,使业务迭代更快。
在深度学习层面,在其余条件相同的状况下,数据越多训练效果是越好的。这就产生了一个问题,更好的效果必定须要更多的数据,这须要花费大量的人力去标注。
智能视觉采用数据增广策略,增长数据的多样性,增强模型泛化能力,对图像进行旋转、斜切、仿射变换、对比度调整、色度变化、水平镜像等变换,增长数据量的同时保持增广数据的真实性,实现了少许数据状况下效果加强10-15%的训练效果,同时有效下降标注数据的人力和时间成本。
智能视觉能够帮助零算法基础的用户,快速训练本身领域的定制化模型,仅须要少许标注数据,完成快速的模型生成、加强的场景效果,并将训练模型转换成高可用、弹性可扩展的视频AI服务,让用户可以以最低的成本实现AI技术的落地。