阿里云视频云技术专家 LVS 演讲全文:《“云端一体”的智能媒体生产制做演进之路》

2020年11月1日,阿里云视频云亮相 LiveVideoStackCon 音视频技术大会,阿里云智能视频云高级技术专家邹娟,就智能媒体生产展开主题演讲——《“云端一体”的智能媒体生产制做演进之路》,如下为完整的演讲内容:html

你们好,我是来自阿里云视频云的邹娟,我在视频云是负责媒体生产平台的架构设计和开发工做。我今天分享的主题是“云端一体的智能媒体生产制做的技术演进之路”。个人整个分享将会从三个部分来展开。web

Part 1 媒体生产制做技术的演进

第一部分是媒体生产制做技术的演进,若是咱们把制做放大到整个视频全链路的范围来看的话。视频全链路是把它抽象成了5个环节,从采集开始,历经制做管理,最后是分发和消费。算法

之前到如今,过去这么多年,视频技术在整个行业发展了好几十年。在整个环节的流转当中,视频全链路的每个环节之前跟如今都发生了很大的变化。数据库

好比,在采集环节,咱们从最开始的采集过程,必需要经过专业的像索尼松下这种摄像机来去拍摄。到如今咱们能够用手机就可以拍摄视频。在制做这个环节,咱们从最开始必需要用专业的非线性编辑软件和桌面的这样的工具,或者是像这种演播车硬件导播台来去作这种后期或者实时的制做,如今,咱们能够在手机上一键美颜,能够在外部上作在线的剪辑。canvas

从管理来看,最开始传统模式是咱们须要用人工的方式去进行原数据的编幕,而后要历经不少个审核的环节,到如今咱们能够用智能思惟来构建动态的原数据体系,去作知识图谱的这个素材之间的挖掘。并能够用智能审核去就是减轻审核的压力,提高整个流程的性能。微信

整个发展的路径是从最开始都是靠人工,到如今咱们能够用智能化的方式去融入整个过程中来提高整个的效率。数据结构

之前制做视频的都是专业的机构来制做。像电视台或者电影电视制做公司来制做。到如今每个老百姓均可以去来制做视频。整个的趋势就是从人工到智能,从小众到大众。架构

最后分发和消费的环节实际上是一个。从咱们之前很传统的一个被动的接收,像最先看电视的被动接收模式,到如今咱们能够去互动,能够去按需求个性化的去选择咱们所看到的内容。整个媒体生产的这个演进过程,实际上就是从一个很专业的门槛到如今一个普惠的变化。app

如今关于制做自己的话,其实我以为是有两方面的因素。第一个是手机的厂商,把视频拍摄的这个技术可以更大更加深刻的在手机上应用起来。因此在手机上咱们能够拍摄很高清的视频。ide

另外一个是抖音快手这种短视频的平台,它提高了普通老百姓对于审美的追求,以及对于视频质量的追求和视频产量的要求。因此在整个过程中,制做这个环节愈来愈重要了。

咱们将视野放大到制做这个自己的过程。看一下媒体生产制做模式及它的变迁的过程。最先的时候,其实整个视频制做是线性编辑的过程,也就是编辑须要一边放一边录。

甚至最先的电影制做的阶段是真的要去剪那个胶片的,要把胶片作一个正片,而后用剪子剪开,而后去用透明胶带粘起来。到了八九十年代的时候,出现了一些专业化制做,视频编辑能够用一些软件去作。到中间阶段咱们能够把制做分红两个模式了。第一个是现场制做的,而后还有一个是后期制做。

在上一阶段的现场制做的过程当中,咱们通常会用这种如演播室或者是硬件导播台,或者是转播车来实时制做。到后期使用非线性编辑软件来作。整个的生产制度模式是音频、视频和图文,它们是分开来作的。有专门的字幕制做设备和机器来作。经过进一步的发展,如今这个阶段,咱们增长了一些云端制做和快速制做的一些方式。好比说咱们的现场制做,能够在直播的过程当中实时的去叠加不少的东西,作不少的加工。而后在云端把硬件导播台换成云导播台,在云端去实时作个性化的导播的切换。

在后期制做这个环节,咱们再也不只局限于用非线性编辑软件来作。咱们能够在云端使用云剪辑,而后在手机端用短视频app制做工具进行视频制做。生产制做模式发生了很大的变化。生产制做模式是在原有的基础上叠加了一些新的场景和模式。

整个云计算和AI的发展,其实是补充了不少新的一些生产制度模式,可以让内容的生产方式会更加的丰富。在整个过程中,AI在整个如今整个制做的模式的变迁过程当中,它起到的是一个辅助的做用。咱们但愿将来AI可以达到智能创做一些有故事的视频的阶段。

这是咱们视频云在整个智能化制做中演进的路线。

咱们要知道智能化制做的需求,第一步要作的是什么?

首先,咱们如今有不少的AI算法能力,这些能力能够跟制做流程有联系的。好比说视觉相关的,像分镜,人物的识别,视频的分割,包括一些视频画面的主体的识别。还有声音的语音识别,语音合成,颜色相关的,颜色的分析,还有调色等。还有一些图片内容相关的。比方说智能的封面多是静态的,也多是动态的。这些是咱们可以达到的。在制做这个领域可能会用到的一些原子的 AI 能力。咱们第一步是把这些原子的 AI 能力,经过 API 化让你们能够看到。

第二个阶段是咱们作了一个智能的体验馆。由于 AI 的原子能力可能隐藏在后台,咱们只放出 API 的话,可能没有办法给人很直观的感受。

因此第二阶段咱们作了一个体验馆,而后可以让不少客户去尝试这样的能力,看到这样的效果。通过了第二阶段以后,咱们发现一些客户他会对其中的一些点会比较感兴趣。由于 AI 的能力是不少的,可是针对不一样的场景,可能客户关注的点也是不同的。

咱们抽象了几种场景、几种应用,从内容的策划到创做的包装管理。客户能够根据在体验馆上提交一些本身的反馈。通过这个反馈咱们就能够了解到客户的需求。

因而咱们把它变成一个真正云服务的过程。也就是第四个阶段。由于把一个原子的 AI 能力,将它 API 化使咱们可以真正的提供一个云服务。但中间的 gap 是巨大的。因此咱们作了一些体系的构建。咱们作了基础源数据,提供了一些标签库、人物库、镜头库,而且从工程上去作了不少数据的服务体系,包括日志和监控的体系。把这一套体系都作完,才能算是咱们作了一个可提供给客户的服务。

到了第五个阶段的话,咱们发现这些服务可以很稳定的提供出去是远远不够的。客户可能须要的不是人脸识别的一个结果,而是须要解决实际场景中的问题。这里可能咱们就须要就进入到下一阶段。我必需要把这些AI的服务跟场景去结合起来,可以为生产制做自己发挥做用。这里咱们抽象了一些场景,图文合成视频,模板工厂等,根据模板化来生产视频,像直播剪辑、智能字幕、智能配音等。这些场景才是客户最终须要的。因此在第五阶段,咱们把整个制做和AI作了一个结合,提供了一波场景化制做服务。

在整个过程当中,咱们会依赖像媒资系统,像剪辑系统,像版权系统,作一些任务的调度和策略的解析。而后把不一样场景的服务去使用不一样的策略去实现。因此,能够看到咱们整个视频云在智能化的制做过程当中,它不是一个凭空想象的过程。AI 的能力,是须要跟场景结合起来,才能真正的为客户提供服务的

Part 2 云端一体的架构设计

接下来是咱们智能制做云端一体化架构设计。

在讲这个架构设计以前,我想先给你们分享一下咱们以前所分析的一些媒体市场制做的核心组成和核心痛点。在媒体生产制做的过程中,咱们能够把整个的制做过程抽象成四个阶段。

第一个阶段是创意的过程,这个过程其实是目前整个过程当中我认为耗时最久的一个过程。

首先创意这个门槛就比较高,创意的过程是很是烧脑的。因此创意的过程当中,我须要去搜集,去编排不少的素材。那素材的收集和挑选就成了一个难题。若是是在作一个须要多人协同来完成的一项工做的时候,那会发现素材共享也很困难。而且原始的素材,这些素材须要在多人之间流转,但可能它的体积会很大。文件大小的问题也是一个很突出的问题。

到了第三个阶段是我素材已经大概找好了,但我是须要可以把它经过剪辑或者包装的手段去实现我想要的一个效果。这个时候我发现工具用起来很是复杂。

举个例子:好比说我周五的时候作了一个大概4分钟的视频,在创意过程大概花了我4个小时,而后收集素材又花了两个小时。而后最后我在整个剪辑和包装的过程,又花了我好几个小时。因此我从周五中午就开始,最终那个视频是在周六的凌晨两点才出来的。

因此工具的复杂,素材巨大传输的不便,还有包括协做的不便。这样的场景可能适用于非我的制做,须要多人去协同完成。

因此咱们设计了一套这样的架构。

咱们这套架构的一个核心的点是,它是包括了云和端的部分,而且整个架构它不是一般你们理解的 SaaS 工具这样的一个架构,它是云+端,能够分开也能够合起来的一个很是开放的架构。

首先,中间这个部分是生产工具的部分,这个部分也是你们最容易想到的,由于咱们在进入云剪辑以前,咱们都是在用一些客户端的工具来作。

在整个过程当中,咱们的工具会抽象成三个组件。其中最核心的是这个故事版的组件,也就是时间线。其中还有两个子组件,一个是播放器,由于要去在播放器上去预览剪辑过程的效果,而且还有一些效果编辑的一些组件。这些组件会完成针对视频音频包括贴图,包括字幕的一些各类效果编辑。

最核心的是个人预览的渲染引擎。这个其实组成了生产工具的一个端侧的组件。在这个端的话,实际上咱们最开始只作了外部端和移动端。并且最开始的时候,外部端和移动端它的时间线是没有统一的。在这个过程中,最终是这样一个架构。开始可能这个架构比较简单,咱们只考虑了外部端,没有考虑某外部端跟外部端的协同。如今咱们是一个多端统一的架构。

在整个在右侧,是咱们的一个生产制度的服务端,至关于咱们把整个云服务的体系划分红了三个组件。其中最核心的是时间线的处理中心。也就是当我拿到了一个时间轴,这个时间轴上有不少的轨道素材及效果。我须要对这个时间线进行处理。由于有可能我拿到了一个时间线,是一个个人客户直接经过 API 请求提交过来的时间线,那么这个时间线的参数可能会有不少的问题。

若是我简单粗暴的把它拒绝掉的话,那么整个体验是比较差的。因此咱们在服务端作了不少的容错校验和补全,以及预测的机制,可以让这个时间线呈现给客户所预期须要的状态。最终经过模板工厂下降整个门槛。渲染合成是最终的硬实力。咱们支持多层的视频,而后多轨的混音,而且支持智能的引擎去调度到不一样的底层,有特效引擎去用来作视频的渲染。

能够看到 API 的左侧、API 的右侧的部分(上图中),分别是端和云的部分。整个的设计是这两部分能够独立来使用的。比方说我能够只使用外部 sdk 的部分,我也能够只使用云端的部分,或者直接不使用外部 sdk,直接经过请求来去调用。

固然也能够在一个 SaaS 化的工具上,把这两个部分去融合。这个是咱们一个云端可分可合的架构设计,它的设计初衷是,不是一个纯 PaaS 或者是一个纯 SaaS ,或者是一个只是端和云的结构,它是一体化而且能够拆开的一个结构。在这个结构的上面,是咱们基于结构包装出来的一些服务和页面。这部分是能够由阿里云来作,也能够由咱们的客户来作。最终上面的是咱们的一些场景。咱们能够把这些技术抽象成一些场景,可以在这些场景上用到咱们这些技术。

最左边的这一块其实是咱们后来加上的,在开始咱们作初版的时候,是没有 AI 部分的。把 AI 的这个部分加上来,是为了可以智能的对时间线作一个编排。对时间线的编排,咱们把它抽象成了三个场景。

第一个场景是创做类的场景。第二个是加强类的场景。第三个是替换类的场景。在这三个场景当中,咱们能够对素材去进行分析,拿到一个初步的时间线,而且将这个时间线跟人工的时间线再去作一个结合。生产一个最终的时间线。

因此能够看到在整个智能制做中最核心的关键点是关于时间线的设计。由于时间线它描述了多个轨道,而后多个素材按照一个创意,去编排、作多种效果融合的这样的一个产物。

因此后面咱们要讲的是一个咱们对时间线的设计。

时间线的话,其实业界是没有标准的,无论是专业的仍是云端的,都是没有标准的。

咱们来看一下专业的非编,像 3A(Apple/Avid/Adobe),每一家都有本身定义的时间线结构。这些专业非编它的设计都是多个轨道的设计。首先它们确定是音轨,视轨。

视轨是有多个轨道,而且它的素材和效果的设计都是各不相同的。固然也有传统EDL的这种设计。这种设计的话相对来说是比较简单的,它只有单轨,只定义的素材,可是它没有定义效果。由于效果在不一样厂家之间的描述是不同的。咱们基于这样一个现状,咱们作了云加端能够复用的设计。咱们是在时间线的核心四个要素,就是轨道、素材、效果和舞台中间进行一个取舍和平衡。

首先来说特效这个东西是比较复杂的。在一些专业的设计当中,特效轨道是独立出现的,颇有多是独立出现的。在咱们这个设计当中,特效轨道不强求独立出现,它能够做为视频素材的一个属性来出现。这样是为了下降云端用户和互联网用户的使用复杂度。

同时咱们会保留轨道素材的设计,而后轨道素材所指向的原始视频仅仅是一个引用的关系。这样的话是为了增长应用性。不然的话整个时间线的设计会很是的臃肿。

另外,咱们为了考虑后面的可扩展性,咱们对整个时间线作了一个多轨的设计。由于最开始,不少智能制做在设计的过程当中,都是单轨。但咱们作初版设计的时候,就考虑了一个多轨。由于多轨的设计能够保证以后程序迭代的过程当中,不会由于打地基打的很差,而在原有基础上作颠覆性的改造。

因此咱们在开始就把这个轨道按照素材类型去作了一个多轨的设计。最后,咱们对于输出的画布,也就是输出的舞台的设计,是一个自动化、个性化和自定义结合的设计。既能够在不设置布局舞台的时候,可以根据原始素材的分辨率作自动的输出,也能够经过指定布局的方式作自定义的布局。

由于云端的设计须要考虑不少,要考虑不少不一样的场景需求。可能绝大部分场景是 4:三、16:9 或者 9:16 或者 3:4 这样的需求。还有一些特殊的场景,它的分辨率多是须要自定义的。因此咱们整个的设计其实是在轨道效果舞台和素材中间去进行了一个取舍和平衡。

(图中)左边的 timeline 的四个要素,是咱们整个设计的核心元素,也就是时间线抽象成四层,每一层都是逐层递进的。可能一个 timeline 有多个轨道,每一个轨道有多个素材,每一个素材有多种效果。效果能够由人编排,也能够由机器编排。最后输出到舞台也好,画布也好。

这是视频最终输出的一个形态,这四个要素是时间线设计的核心。

前面说到的时间线能够你们能够想象一下,它的总体是比较复杂的。若是我本身要组织这样一个时间线的数据结构的话,那么个人工做量会很是大。为了下降时间线使用的门槛,而且同时保证专业性。咱们作了一个模板工厂的设计。

在模板工厂的设计当中,咱们会抽象出一些模板来。

这些模板是至关于把时间线完整的部分,或者是时间线一小部分进行抽象,而后用参数的方式去指定。在整个模板的设计过程当中,支持嵌套或者组合。好比说作的一个比较炫酷的视频,须要素材的编排,包括效果的切换。或者添加些动图或者字幕,那咱们能够用对应的模板去作嵌套和组合式的设计。

这样能够最大的利用模板的成果转化。这个模板工厂它核心解决的问题是:下降了使用时间线的门槛。同时还有一个最重要的,解决了制做创意的门槛。这两个设计为整个制做领域的专业度的提供保障。

模板工厂真正体如今包装和使用上。能在保证专业性的同时下降门槛,把整个制做设计普惠到每个想要制做视频的民众身上。这两个门槛是咱们认为在整个制做过程当中最核心的门槛。

基于前面的一个结果,这是咱们设计的一个智能媒体生产数据的数据流。

由于前面的架构比较干涩,是一个纯技术架构。那最终数据是怎么流转,怎么能从最原始的素材到最后合成出我想要的视频呢?

它的流程是这样的。个人左边是素材,个人素材和我想要制做的视频是一脉相承的。原始素材是有不少的类型的,可能会有音视图文,有一些副文本,甚至会有html 代码片断。这些都是个人素材库。

到了中间的过程,是最核心的智能生产制做链路。首先个人素材会通过一系列的AI处理,拿到结构化的信息。

在拿到结构化的信息以前,会先对素材进行处理。比方说会先去分析这个音视频的流信息,包括一些尺寸信息格式信息,这些信息会辅助中间智能生产过程当中的输入。以后拿到这个预处理的信息以后,会对整个智能化的这个过程去作一个分析。这里的分析是多维度的。输出的多是视觉层面上跟时间轴相关的,或者是跟时间区间相关的,也有多是语音方面的,还有多是一些颜色的配比,仍是实时过程当中抠像出来的像素集。而后拿到这些通过处理的数据以后,我就能够去跟工具结合制做了。

固然这些工具并非每种工具都会用到每种能力。可是这些能力均可以做为这些工具的输入。工具的也是有多种的。包括移动端及web端、经过模板化批量化来生产的,以及经过AI的方式来辅助的。最终咱们会有一系列生产效果。

图中智能生产制做右边这一部分,就是在制做过程当中最经常使用的效果的抽象概念。

比方说咱们会用到多层的图像的叠加,这个图像多是视频,有多是图片,会用到多轨的混音调音,用到图文在同一个轨道上的混编,会把素材的效果去作一个滤镜或者转场,会对一些直播流作前景人物或者主体的实时的抠像,也能够作智能的字幕。还能够作智能的集锦。也就说经过对视频的分析去提取出这个视频的精彩片断作一个集锦。

固然还有一些综合的制做过程,就是须要人工和智能去结合,来完成整个制做过程。

最终输出的话,实际上咱们也把它抽象成三类。

  • 第一类是用于分发播放的成片。成片咱们能够把它总结为创做类,集锦就是创做类。
  • 第二类是加强类:视频本來沒有字幕,经过语音识别加上字幕,这是属于加强类的。
  • 第三类是替换类:主播直播时的背景不太美观,把背景替换成较吸引人的背景。

这个是输出成片的3种类型,固然还能够输出的是素材,输出的是素材时候,输出的内容是能够用于二次制做的。

这些素材实际上是有的时候是比成片更为宝贵的。由于它是能够反复利用的。咱们这套系统也可以输出素材。

最后咱们在技术上并非跟专业非编对立的,咱们和专业非编是技术上合做的关系。

咱们的模式至关因而互联网方式的新媒体剪辑。咱们须要专业场合的时候,能够在云端作一个粗剪,而后在线下去作一个精编。这样能够把时间线去作一个交换,可以把总体的效果达到最优。

因此说咱们在整个媒体内容消费过程当中,获得一些反馈的体验,又会回馈到AI的体系。在数据上成一个闭环。推进这些算法继续迭代。同时的话咱们生产的内容也会回到媒资库。回到媒资库以后,这些内容同时也会做为下一次视频制做的一个输入。你们能够看到阿里云在整个智能媒体生产制做中,设计的中心理念,是以生产制做为核心、AI 辅助。

Part 3 生产制做为核心、AI 辅助

可是咱们为何还须要 AI 呢?为何还那么重视 AI 呢?这张图比较简单,可是,是一个咱们实际上在思考这个用 AI 来辅助咱们作生产的一个思路。

当最开始咱们最原始的阶段是全部的东西都是由人来去编辑的,时间线的编排也是明确的,彻底由人来主导。可是有一些场景是人比较费时间来主导或者不那么容易主导的。

举个例子,比方说幼儿园监控视频。家长说我特别想看到咱们家小孩在幼儿园的表现,那从监控视频一帧一帧找本身小孩是很是费劲的。海量的视频要去处理的时候,会发现经过人已经没有办法去处理识别了,因此产量会很低。

当咱们从人工编排方式要进化到大规模化的制做方式时,以及须要大幅度的提高自我效率的时候,咱们势必要经过云计算和 AI 相结合的方式来作这件事情。

在整个过程中,咱们是要使用 AI 的能力。我以为这个也是AI最大的魅力和价值,就是它能跟云计算很好的结合,可以为规模化制做以及海量素材分析提供帮助,提高媒体制做的一个效率。

接下来我会从三个实际的例子,来跟你们分享一下 AI 技术跟生产制做流程的一个融合。

这是一个咱们一个在云上转播的一个例子。在这个例子当中,咱们能够看到传统的转播可能在现场有不少机位,有不少镜头,拍下来不少的视频素材。

可是咱们在电视上看到的就是那几个频道,可能不少的视频素材被浪费掉了。咱们在电视台看到的,是现场导播给咱们生成的这样的画面。但实际上还有很是多的视频素材没有利用上。

所以,咱们作了一个云上转播的一个架构。技术逻辑是这样的,咱们首先仍是会把视频的直播流,经过直播中心保存下来。而后咱们用云端的导播建立多个导播的实例,在每个实例可使用不一样的视角去作我想要的导播的场景。

云转播由于能够在互联网上分发,因此它对于原始直播流和素材的利用率是很是高的。咱们也能够把这个视频收下来,进入这个直播的录制的过程。对这个实时的直播流用AI进行快速的处理。

在冬奥会转播以前,青奥会的演练有一个例子。咱们当时是作了三种体育赛事的演练。针对这三个赛事,咱们对运动员的运动轨迹进行跟踪,作云端的分析。而后把每个运动员每一段运动当中精彩镜头经过AI处理的方式,利用云端剪辑的方式快速的生成素材,而且把素材又转推成视频流,再回转到云导播的输入,这至关因而对单边的直播流的收入。

另外一方面是我经过实时技术去自动生成了这种回放集锦。而且在镜头之间还能够加一些效果。那这个时候其实若是不考虑彻底实时性跟硬件导播台的差异的话,其实整个生产制做的模式已经跟传统的模式很是接近了。

咱们的魅力就在于说,咱们能够把很是多的直播流的利用起来。尤为是在一些赛事上,有些国家的运动员可能并非前三名,可能这个播放镜头没有给到他们太多。可是这个国家的民众会很是关心本身国家的运动员。那这个时候咱们能够经过这样的技术去让每一家机构都是一个导演,而后都可以去作整个转播过程,从直播流中导播本身想导播的画面。因此云直播的流程是把AI的能力和实时制做及离线或后期制做进行链接,同时可以大规模的利用上咱们的系统,而且可以让全部的直播流都能发挥它的价值。

这是咱们在云直播技术上的一个应用。

这个例子也是用的很是多的。咱们在作一个片子的时候,咱们不可能每一个节目都是用彻底不同的创意。当我须要想复制个人创意的时候,可是我又想我复制的不那么的生硬的时候,我会很是须要这种的场景,就是一个成片模板化的制做,就是个人素材库里的东西是不少的。

前面也有讲到咱们的素材库,多是直播流,也有多是离线的视频文件,还有多是一些纯音频,多是人声,多是背景音乐,而后有多是一些字幕。这些字幕多是外挂字幕也有多是一些横幅文字。而后还有多是一些各类各样的图片,包括一些文本信息。甚至是一个代码段。例如 html 的代码段,或者是我代码当中的 canvas 的一个结构体。这些其实都是咱们用于制做的素材。经过这些素材,咱们怎么才能把这个节目制做出来呢?

咱们可能还须要一个模板库,这个模板库是一个库的概念,咱们能够在模板库利用设计师生态圈,设计师会在里面设计出不少的模板。可是咱们其实并不须要用 AI 的方式去对整个的模板化的制做去进行一个进阶。但进阶在哪里呢?也就是说咱们并不想原封不动的套用这些模板而不作一点变化。

比方说如今设计师设计了一个泡泡弹来弹去的背景,须要跟个人前景图片进行一个融合。这个泡泡他设计的时候,设计师只会设计配色和一些运动轨迹的一个变化。

可是我实际在作合成的时候,若是我每一张图片都用这个背景去合成的时候,可能会显得这个背景跟个人图片它是不协调的。

那我怎么才能去用 AI 的手段去来作这样一个改进呢?

就咱们可能会去分析这个图片的色彩,而且去分析整个图片的调性和这个模板的运动轨迹的变化。经过分析的话,会把当前的素材,它所依赖的特征跟这个模板的参数进行解析的分割。而后可以把整个参数级的变化跟我素材的特征去进行结合。这样的话我就能够把基础的模板裂变成不少个性化的模板。这个个性化的模板能够相对应于每个不一样的素材。经过这个个性化的模板,再结合素材集。那前面的左边是说个人完整的素材集。可能个人素材集是一个海量的,我到底要用什么样的素材来作个人这个视频呢?那这里可能有一个挑选的过程。

挑选实际上是包括两部分,一部分是搜索,一部分是截取。搜索的过程是AI可以深度参与的一个过程。可能会根据个人场景去定制,AI 分析多是基于内容的,也有多是基于关键词的,甚至是基于知识图谱的。而后搜索以后我究竟是截取这个视频中的哪一段。这个是根据个人主题和视频内容选择的。若是我是作一我的物相关的这个视频,那我可能获取的素材是跟人物相关的这样的片断。若是我想要的是一个好比说动做类的,像赛事类的,我要作一个集锦,我可能须要关注的片断是一些跟运动画面,或者是跟一些镜头相关的一些东西。

咱们经过两个部分的结合,就是从海量的素材库去搜索到每次制做须要的这个素材集,而且用AI的方式去把一个模板可以裂变成个性化的模板。以后,咱们把这个模板和素材集而后去结合。这个就是咱们的原材料。最终咱们经过这样一个结合去构建时间线。

时间线是最终合成的一个依据。整个时间线经过合成和渲染,就可以渲染出视频或者一些泛媒体的影像.这个是咱们就是在成片模板化制做的一个例子。它的核心实际上就是说个人每个部分都是能够用 AI 的方式去取代的。运用 AI 的方式不仅是用于到初步筛选素材,它还能够深度参与到整个制做过程中。

第三个就是刚才前面说到的,咱们有时候并非只是为了制做成片。而个人目标是制做一些素材。这些素材自己又是能够被反复使用。由于制做素材和制做成片有很大的不一样。

就拿制做成片来讲,我会用到很是多各类各样的效果,来保证我成片在视觉上的冲击力。可是我作素材的时候,我可能尽可能的保证一个 clean 的结果。我可能并不但愿加过多的效果的修饰。个人核心在于这个视频当中的哪些素材、哪些片断是能被重复使用的。

而且,我可能会根据我重复使用的一些原则和基准来去作个人挑选策略。个人素材源仍是两类,大概分红两类,直播流和视频。而后通过视频智能生产的一个预处理,能够看到这个关注点跟原来成片制做是彻底不一样的。

我原来成片制做可能会关注各类效果,各类编排,各类多轨的一个叠加。可是我在作素材的时候,我关注的是这个视频自己镜头,这是一个重要的因素,我须要对镜头去进行很是严格的分析。这个镜头语言最核心的两个要素,就是景别和拍摄方式。

景别分红远景、全景、中景、近景和特写。每一种类型的镜头它的用法也是不同的。我可能会经过AI的分析去识别出这个镜头的级别,而且把这个镜头的级别会对画面进行一个标注。

这个标注不光是标注在时间轴上,还要标注在视频画面上。另一个很是重要的维度就是拍摄方式。

由于咱们在作不一样类型视频的时候,可能关注的拍摄方式不同。若是咱们在作一个故事类节目的时候,我会很是关注拍摄方式,就是镜头移动顺序不能错乱。把人的关注点按照顺序的方式去衔接起来,而不是整个画面去满世界的跳。因此咱们须要去研究拍摄方式,就是用固定和运动的拍摄方式去分析镜头语言。而后可以把不一样片断的拍摄方式可以提取出来。可是在有些场景,咱们偏偏须要把这些拍摄方式去进行一个综合。

好比咱们在作一个很是炫酷的音乐或者跳舞节目的集锦的时候,我就要故意制造这种错乱的拍摄视角,从而产生一个炫酷的效果。

因此咱们须要根据场景结合来分析镜头语言,把这个镜头可以识别好。而后根据不一样的景别和拍摄方式把把标签打好,这样的话才可以为后面再次的节目制做和视频制做作准备。

同时,咱们仍然须要一个基础的库。比方咱们须要数据库,须要镜头的标签库,还有镜头自己的视频库。以及由于人物创做是整个节目制做的很是关键的点。

因此咱们还会构建一我的物库。基于这些基础库的构建和生产预处理,以及镜头的分析。咱们就能作素材智能时间线的一个处理。而后咱们通过素材的分析以后,咱们会拿到素材的级别结果,拿到拍摄方式的结果,拿到内容特征提取的分析的结果。拿到这个东西以后,咱们能够开始构建时间线。

在时间线的构建当中,由于咱们可能在在中间这个阶段拿到的结果是很是零碎的。在这个零碎结果中,最终到底哪些画面才是咱们可以复用的素材呢?那这个时候其实是须要结合场景去定义一些词库,或者一些特征库的。

基于这些特征库,咱们才可以生成须要的素材时间线的结构。这个素材时间线的结构拿到以后就能够去作素材真正的拆分了。有可能咱们重新闻联播的一期完整节目,可以拿到一些有价值的片断。这些片断在传统行业被叫作所谓的通稿,或者是 clean 素材的概念。这个过程实际上就是咱们整个智能制做相比于生产素材的一个不一样。

因此咱们举了三个例子,AI 能力是如何在不一样的场景去跟咱们的制做过程结合的。

最后总结一下咱们的视频云智能媒体生产制做的技术层次。在咱们的技术层次的设计当中,(图中)右边最下面是最核心的,就云制做的能力。

这个云制做的能力,其实是一个硬通货和核心能力。像剪切拼接多轨叠加多轨混音,图文混编多帧率,而后多码率的一个自适应融合,还有字幕的能力,还有动图的能力,效果渲染滤镜转场等,这些都属于云制做的部分。

这是整个智能制做的一个最核心的部分,若是没有这些东西的话,无论是AI也好,包装也好,其实都是没有根基的。

在制做能力上面是咱们设计的包装能力,包装能力是把制做能力规模化的一个技术层次。第一个看点是规模化,经过包装,能够把一些东西提炼出来,抽象出来,而不是每一次都零从开始制做。这是包装能力的第一个要点。包装能力第二个点是它能够用 AI 的方式多样化。

比方说我有一些模板,经过 AI 包装,能够把一个原始的素材裂变成多种多样的效果。还有就是组件化。当我把包装能力作成工具,或者作成sdk的话,这个是组件化的效果,这也是咱们可以快速化和批量化的生成视频的一个能力。至关于制做专一在核心,而包装是专一在应用。

图中左边能够看到是 AI 的部分。

AI 在咱们整个的体系当中,它是一个用于作智能化和规模化的一个抓手。就是它会深刻的融合,在云制做和云包装的能力的每个模块当中。

最上面这一层,是咱们整个技术体系的生态部分,就是咱们要作多端的融合,而且要搞定最后一千米的问题。

在这个过程中,咱们把这些能力有很好的一个出口作一个生态。而后咱们对这个智能化的研究路径也有一些展望。

最开始咱们批量化作视频,可能会用模板化的生产,或者用AI辅助制做和基于简单规则的就是内容生成。

这些是前三点,是咱们已经作到的。第四点是还咱们尚未作到的。是基于场景理解模板的推荐。如今的模板仍是人去挑的。以及基于视频画面分析的 AI 的滤镜,如今不管是模板仍是滤镜,其实都是由咱们本身来指定的。

咱们但愿有一天可以用 AI 来作到这些事情。个人一个终极设想,但愿将来 AI 可以真正独立去作创做,去生成有故事的视频。

最后是咱们对智能制做这个体系将来的一个见解。

咱们认为将来在制做这个体系,它必定是两个方面都并重的。

首先是咱们会愈来愈专业。从咱们对于视频的需求来看到,最开始互联网上作视频是一个单轨制做,如今可能也是多轨、多种效果,多个素材,多种类型的一个制做。

整个的视频制做的链路会愈来愈专业。可是在专业的同时,咱们以为整个视频制做的参与者是愈来愈多了,这是一个普惠的过程,专业和普惠是一对看上去冲突,但又不矛盾的点。

经过咱们的核心设计,以及打地基过程,让整个的行业包括AI的能力进一步提高,使将来专业化制做成为可能。

普惠是咱们经过各类各样的工具,经过工具化的生产,可以下降创意和使用的门槛,可以让每个人进入到制做过程当中去作本身想要的视频。

这个是咱们总体对这个将来的见解。那具体到点的话,咱们认为,首先第一个当咱们端跟云协同制做的时候,会有一个所见即所得,可是渲染效果不统一的问题。咱们但愿将来的话,端上的制做和云端的制做,它的效果是一致的。这是将来的一个趋势。这里可能会用到云渲染的技术。如今的实时制做和后期制做相对是割裂的。咱们但愿将来这两个部分是可以彻底融合的。

第三块咱们认为随着屏幕的增大和 5G 的到来,超高清的制做已经已经在一些场景去尝试,同时专业制做也是一个方向。

最后第四个一个普惠的过程,后面的进化过程多是全民创做。视频的制做技术已经再也不是所谓的高端的技术,而是一个普惠全民的技术。可以让每个人都能制做本身想要的视频。最后,我和不少专业制做领域的同行聊,他们也是但愿 AI 可以真正的进化为可以创做有故事的视频这样一个阶段。

今天的分享就到这了。谢谢你们。

若是你也对智能媒体生产群感兴趣,欢迎加入微信交流群:点击扫码

阿里云视频云技术公众号分享视频云行业和技术趋势,打造“新内容”、“新交互”。

相关文章
相关标签/搜索