美摄科技为企业提供视频编辑SDK、短视频SDK服务,支持开发者快速集成包括视频录制/视频编辑/视频美颜/人脸识别/动态贴纸/特效滤镜,支持iOS/Android视频编辑SDK功能。今天咱们有请到美摄科技的李磊老师和咱们分享一些思考一些实践以及现有的方案。
文 / 李磊前端
整理 / LiveVideoStackios
你们下午好!很是开心有机会和你们分享,感谢你们来参加此次会议。我今天演讲的主题是美摄智能视频生产平台。首先来讲一下为何咱们要选择讲这个平台呢?由于在这几年视频的发展很是的迅猛,从之前的图文交流到如今的以视频为主的信息交流,视频化逐渐成为你们的一种信息交流的方式。不管你刷抖音仍是快手,拍vlog之类的,你们都习惯于以视频的方式和你的朋友家人作一次分享。可是视频制做是有必定的门槛,一些普通的用户就没那么方便,不像些几个文字发几张照片就能表达出去。因此这几年随着AI技术和传统技术的结合,咱们也在思考这样一个问题,如何下降视频制做的门槛,如何让咱们更多用户和企业用户更便捷去产生大批量的视频。因此咱们搭建了这样一个智能视频生产的平台。今天想把咱们的一些思考一些实践以及现有的方案给你们作一下分享。web
在讲解以前先给你们介绍一下北京美摄网络科技有限公司。北京美摄网络科技有限公司是脱胎于新奥特(北京)视频技术有限公司的。新奥特在整个广电行业里是领军企业,它曾经承担过奥运会、世博会和历届大运会的技术支持工做。好比它的字幕机、虚拟演播室、非线性编辑系统和敦煌高级后期合成系统等等,都是在央视在北京电视台等等各大电视台都有非产广的应用。而北京美摄网络科技有限公司的核心团队来源于新奥特公司,它的累积经验在新片领域有20多年,因此咱们也有核心的技术能力。如咱们的敦煌视觉效果合成系统获得了国家科学技术进步一等奖。咱们也承担了一些国家科技的研发工做。由于咱们之前是在广电领域,偏向图形工做站以及PC端的视音频的解决方案。但是随着社会的发展,咱们想把咱们这方面专业的经验和技术下移到移动端去,让这些精彩的技术可以服务于普通群众。从14年开始,咱们重新奥特独立出来开始作移动端的技术迁移,在一开始的时候作了一些To C的产品。在17年的时候,把咱们底层的技术包装出来造成SDK的方式,逐渐转向To B的企业,为互娱的企业或者传统的新品企业、新媒体企业为它们提供底层的视音频技术支持,帮助它们搭建业务平台。小程序
这是咱们目前北京美摄科技的产品矩阵,从最下面开始其实咱们整个产品矩阵的基石是原有的美摄SDK,美摄SDK是跨平台的SDK,不属于移动端、云端、PC端以及硬件均可以。移动端主要就是ios,安卓均可以。云端主要指的是外部端的部署,PC端是Windows和Mac上也能够部署。硬件咱们能够作到HAL层也能够作到dsp层。根据客户的需求咱们作了一些定制化的要求,SDK来说如今主要分两大部分,一部分是传统的视音频解决方案,也是传统的视音频能力,另外一部分咱们如今AI智能化的技术,把它二者结合,搭建出了一个美摄智能视频生产平台,素材创做平台。后端
这两个平台有什么区别?智能视频生产平台,主要解决的是视频内容的生产问题,素材创做平台解决的是好比特效包字幕包贴纸包这种素材的自定义风格化的问题。这两个平台有个统一的用户中心,用户登陆之后经过咱们的智能生产平台来制做你的视频内容,而后发布到咱们的平台上去,也能够用到您帐户下的风格化的素材包两种互相结合来提升您视频内容的精彩程度。像咱们传统的视音频的原子能力,我以为咱们SDK的一个重大特色在于可扩展性,好比说咱们为了知足不一样用户,由于是To B的形式,不一样企业对于个性化要求是比较高的,为了知足这种个性化的需求,咱们提供了customer video fx、customer audio fx自定义化的接口,提供视音频的插件,也提供story ball的特技,脚本的方式作这些特效的拓展。同时像刚才提到的customer video fx这种方式把咱们的渲染提供一个接口暴露出去,让外界作本身的特效渲染,把第三方的客户本身的特效加入到咱们的SDK渲染流程里来,以达到一种特效的拓展。像故事版特技的话它实际上是一种caimai脚本语言,也固然有必定的规则,也比较简单,客户能够根据规则本身写caimai脚本,把这个脚本经过必定的接口设置给SDK之后,由SDK本身解析这些脚本语言,而后把它翻译成SDK内部的原子特技的结构数。而后SDK根据特技结构作渲染。因此,自定义的方面SDK仍是作的比较出众的,像咱们最新的脚本语言支持这样的一些表达式的写法,让整个的特技效果更加绚烂,好比一个参数能够写成sin这样的表达式。浏览器
从两个平台以上咱们就能够出来四端的服务,移动端咱们有本身的智能校色,智能轮廓线,智能轮廓线也是为一加手机定制的功能,一加手机熄屏是会根据屏保熄屏时的图片会智能识别轮廓线,出来一个简笔画的效果做为您熄屏的屏保,会让人感受比较独树一帜。也是一加的定制化需求,像咱们的智能校色,它会识别图像的场景,好比什么样的场景什么样的风格内容,而后自动化调整校色方面的参数,像清晰度,高光,暗影等十几个参数,作智能化的调整,帮助你来提升整个图片的审美,人为的提高视觉效果。服务器
在云端方面咱们的最大产品是云剪辑,云剪辑是服务器端和前端网页的结合产品,咱们的云剪辑特色是用了web技术,在网页端实时的渲染,而不是经过网页和服务端不断地通讯,对网络的依赖程度大大的下降,直接在云端实时的渲染,去年主要产品也是今年主要火的一个产品需求,咱们为国家电网作了虚拟主播,无论是2.5D的3D的仍是仿真人的都有相应的产品提供,PC端至关于咱们更专业一点的工具,由于可能像一些b站的up主,须要编辑一些更专业一点的视频,他可能须要在电脑上进行操做,因此咱们在PC端也有这样的特效制做工具以及专业的视频编辑工具来提供给各个企业各个客户。网络
在硬件方面,咱们也是应客户的需求,咱们把美颜和咱们的滤镜作到了HAL层和dsp层,直接在硬件上跑,效率会好一点,这也是一些客户的定制化开发需求。架构
咱们的美摄智能生产平台,刚才提到主要是解决视频内容的生产问题,其实按功能模块来说的话,大概分为四个模块:智能的拍摄,智能的剪辑,智能的包装,智能的模板。而这些不一样的模块他们的关键点在于智能标签,智能标签的识别做为整个智能视频生产平台的基石。像整个系统里面,咱们一直在尝试用一些前沿的技术相结合,好比8K的视频编辑,都会去作一些尝试并落地。像智能剪辑,智能剪辑主要是对导入的视频不须要人工的干预,是由AI本身识别视频的内容,而后根据咱们的设计团队,在这以前不断地作了不少实验,咱们用AI模拟设计师的思惟方式,用他们的思惟方式产生包装的体验包装的方案,根据AI识别选出相应的方案,来智能地裁剪出精彩片断作一些特效包装,和普通的识别了一种物体,猫狗之类的宠物相比,按照对象作一个视频的聚类是有区别的,包装的效果也是不太同样的。ide
这个是咱们美摄智能视频生产平台的逻辑结构,整个平台来说是一个前端和后端结合的解决方案,因此后端能够按照客户的需求部署在公有云或者说私有云上。在PaaS层,咱们提供了主要基于SDK自己原子的能力以及AI的原子的能力,好比人脸点位检测,AI智能校色,AI智能标签做为底层的技术,而后咱们在SaaS层服务于企业的服务平台,SaaS层主要后端的内容管理平台,这个平台的特色在于结构化会很强,并且每一个客户需求不太同样,因此定制型需求比较高,企业客户能够根据本身的需求选择不一样的模块来知足您的业务发展的需求,在后端之前咱们要配合前端的工具,好比说移动端,PC端的外部端提供这三端的工具结合服务器的能力不断地输出咱们的视频内容,二者结合的方式来提供完成这个智能视频生产的构建。咱们的业务场景比较多,能够在无论是专业的视频或者是短视频或者是新媒体这些视频,流程上包括到采集到编辑到产品的包装到后台项目的管理到用户的管理内容的管理到最后的发布和运营,整个平台是能够服务于不一样的场景的。
你们能够看一下剪辑包装的示意流程。对导入的视频图像作一些AI的智能识别,知道不一样的风格地点对象,包括偏白偏黑不太好效果的屏蔽,这些都会去作一些识别,而后根据最重要的一点去根据设计师近千次的包装理念,有设计团队对一样的视频包装效果进行了近千次的实验,而后与咱们的产品经过提炼每一个人不一样的包装手法,好比每一个设计师的喜爱,他对视频的认知,他认为这些视频哪些属于精彩片断,片断之间应该是怎么样的组合方式,人和风景的结合,这些片断是怎么样的排列,之间加一些怎么样的转场特效,设计师对视频的理解内容是不同的,因此咱们先让咱们的设计团队作了大量的试验以后,由咱们产品团队作了这样方案关键点的提取,造成了不少的方案,最终出现了AI智能包装剪辑的效果。
4.1 内容生产——旅拍Vlog智能剪辑
智能包装机剪辑咱们主要分为三个内容,第一个属于生活旅行的智能剪辑包装,你们都喜欢出去旅游出去开车什么的。这个视频演示的是咱们一个普通同事有一年团建时候出去玩,很随便的拍了一些视频,其实大多数的用户也是这样的需求,出去玩出去旅游,可能就当是为所欲为的当时以为好的照片视频拍了不少,回来以后可能有这样的需求,把它分享给朋友,但是那么多东西不能一个个分享,因而你就想取之间的一些精彩片断,把它组合包装一下,但是你在作的时候以为本身技术不太好,你应该怎么去剪切去加什么特效比较好,因此咱们对这种大类的生活场景作一些智能剪辑的包装。
首先咱们对你的视频进行智能的AI识别,识别了你的风格化有哪些场景,从不一样的维度构建识别内容的体系之后,咱们对视频片断进行裁剪,通过咱们的评分系统挑选出咱们这个视频的精彩片断,精彩片断会根据你视频的导入内容,挑选出不一样的包装方案,这些包装方案根据咱们设计团队的同窗他的思惟方式,不是固定的,挑选不一样方案出来不一样效果,根据评分系统模拟当时设计师的思惟方式,临时组合出来的成品。可能你选的一样的方案,导入视频内容不同,出来的结合程度是不同的,最后咱们也会经过识别内容,在字幕库内添加一些符合它场景的字母做为包装元素到视频里面,包括滤镜,音乐节奏的自动打点,都会一键式智能AI包装出来。
这样用户作起来很是简单,只须要导入视频,通过咱们的包装和分析直接出片,其余的不用管。固然咱们特别好的地方在于,在结构化的在内存中能够播放,那时候尚未生产MP4这种格式,你是能够对它进行二级编辑的,好比你以为哪里很差,你以为哪一个滤镜不喜欢,更喜欢别的滤镜,字幕须要更改均可以进行二次的编辑,输出一个成片的东西做为你的分享的内容。图上有两个二维码,你们感兴趣能够扫一下,有AI智能剪辑的demo。
4.2 内容生产——会议智能剪辑
还有相似会议类的剪辑,这个可能更好的服务于传统的企业好比说中央电视台,人民网,国家电网这样的一些传统的企业,主要是像两会这样的大型会议,可能会作一些智能剪辑,由于有些报道前端记者会拍摄不少的视频,出这样的一个报导,咱们会帮助他们作一些场景人物的检测,和刚才的旅拍是同样的,须要咱们对两会这样的大型会议做出解决方案,由咱们识别到之后根据解决方案,由它智能的输出模块化的包装,达到会议智能剪辑的效果。
4.3 内容生产——游戏智能剪辑
还有个智能剪辑也是在于客户的定制化需求,是咱们对游戏的智能剪辑,目前是王者荣耀这个比较流行的游戏作了一个游戏的智能剪辑,就好比有些游戏玩家在直播或者游戏录屏里面须要作一些精彩片断的回顾,特别是一些游戏手机厂商,也有这样的产品定制化需求,开发了这样一个游戏。以王者荣耀这样一个游戏检测来说,咱们会根据右下角的主角的特技识别他是怎么样的主角,经过它上面的一些击杀动做,咱们来区分不一样的片断,组合这些精彩片断,最后加上咱们的包装效果,好比说音乐的卡点,一些字幕滤镜贴纸,这样的一些包装元素,而后对它作了一些包装化的效果做为一个精彩集合,你们能够看一下效果。
像这样一个静帧的效果,一个校色的效果,这些都是咱们后期剪辑出来的一些包装元素。这些火光和光轮的效果都是一键式的智能AI包装出来的,没有经过任何的人工干预,这就是咱们游戏智能剪辑的包装效果的演示。
4.4 内容生产——两会活动
内容生产还能够像这样迎合两会活动的一些特殊的场景,突发性的新闻事件,去作一些极速的活动好比此次两会,这也是解放军强军网的一个定制化的需求,两会前忽然找到咱们,说想作这样的一个活动,咱们主要是SDK这样一个灵活的架构,很是迅速的完成了两会的活动,他的活动邀请了杨利伟去拍摄这样一个视频,识别他的语音和当时用户输入的文字,产生了和杨利伟对话的效果,最后用户能够上传他的一张照片,识别到一我的脸,咱们把人脸贴到右边航天员的头像里面去,就有一种换脸的意思。当时强军网得到了好评。
4.5 内容生产——智能标签
前面说到智能内容生产平台的关键点在于咱们的智能标签,智能标签分了四个大类,有环境的,物体的,场景的,人物的等4个大类35个分类以及2000多个小标签。整个构成了AI智能剪辑标签的系统。咱们会去经过识别视频的内容,从视频的视觉、听觉以及像天然语义这样不一样的方面和维度,总结出这样的标签,至关因而给SDK附上了一双眼睛,能让它识别出咱们用户如今导入的东西,而后结合右边的SDK和两个基石的基础上,咱们就能搭建咱们的智能视频生产平台,二者互补,一个生产内容,一个为内容提供包装元素,服务于不一样的业务场景。
4.6 内容生产——智能模板
智能模板和智能剪辑有一点区别在于,智能剪辑是一个彻底智能化的场景,不须要人工干预,像智能模板更灵活一点,它能够在模板以前由用户先去根据识别内容和识别标签和模板标签作标签匹配,作一个模板的推荐,用户在应用模板以前能够选择替换模板里的哪些视频或者素材这和智能剪辑的区别在于灵活度会更好,在应用以前就主动由用户的喜爱进行操做。
4.7 内容生产——智能拆条
智能拆条也主要应用于传统的电视台企业,根据他们的需求,作一些初检。咱们如今作的智能拆条可以应用的领域在于新闻类的拆条,像后期的话如今的会议报道或者体育类还有晚会类这些是咱们目前正在研究的方向。目前落地方案就是新闻类的智能拆条,像图上就是把智能拆条和云剪相结合,会根据原始素材的一些,经过画面转场人脸的对比,不一样维度在时间上粗略的切割,再根据刚才识别到的元素去作一个合并,帮助咱们的记者采编人员作一个粗略的裁剪,会根据识别到的内容和字幕作一个比对,出一个初级的片。
4.8 内容生产——AI虚拟主播
AI虚拟主播也是这几年比较火的应用,像咱们如今能够作到的是,卡通类的、2.5D、3D、仿真人的虚拟主播。如今实际的落地为国家电网作了方案。图片上是2.5D虚拟主播的照片,经过AI学习驱动人物的嘴部,结合你输入的文字转出来的音频,相结合造成虚拟主播的演示。
这就是咱们为国家电网作的虚拟主播项目。当时拍这个视频是邀请了他们的女主播到演播室来,她念了不少份新闻稿,拍了一组视频,最后经过了对抗网络的学习以后,最后SDK的包装效果出来这样一个虚拟主播的视频。虚拟主播的视频后台都有相应的配置,不是一个固定的效果,用户登陆虚拟主播的后台后,能够去选用卡通类的、仿真人类的、3D类的不一样的选型,根据输入的文字能够调整主播的位置,好比左边中间右边,以及要不要开小窗去播另一个视频。这些都有相应的后台管理和相应的后台配置去更灵活的达到您的业务需求,而不是很是死板的效果。
4.9 内容生产——云剪辑
云剪辑是咱们在Web端的很是重量级的产品,如今也普遍应用于一些互娱的头部客户里面,如今提到好比经常使用的浏览器打开一个你部署于私有云或者公有云的地址,利用网页端的技术,而不是传统利用网络通讯的方式,由服务器去渲染,把渲染结果传回网端显示,这样对网络的要求比较高,咱们云剪主要利用Web端的能力,尽可能在本地作渲染,减小对网络的依赖,实时的浏览性会更高一点。咱们如今云剪这个产品功能的应用和咱们移动端的SDK同级产品功能的演示。好比是按照帧作一些剪辑包括贴纸、转场、粒子、字幕、特效、一键主题包装,为了兼容第三方,由于在PC上可能更专业。当时您在前端预览这些效果之后,最后出片的时候咱们可能会把这样的工程发到后端服务器上去,由服务器去作一个更快捷的渲染,在服务器中渲染的时候,您能够新建一个工程开始作下一个项目,二者不干扰。
4.10 内容生产——云剪辑模板编辑
云剪辑模板编辑这个指的是刚刚提到的剪辑模板的需求,这个模板的制做不光是在云剪上面,它在移动端上也能够制做,至关于用户当时作的片我想分享个人效果,咱们把你的效果做为模板,输出出去能够指定哪些东西是可替换的,哪些效果是您固定的,由这样的方式来分享您的包装技术,你能够把你的模板上传到咱们的平台上去,和其余的用户去作一些分享。
4.11 生产内容——直播剪辑
直播剪辑也是经常使用的应用方式,咱们能够在直播的过程中,当时的直播流直接作一些直播的剪辑,而不是直播完生成大文件再去作剪辑,这是一个实时的剪辑过程。
4.12 内容生产——移动端工具
根据咱们前面讲的好比说Web端PC端的给咱们的一些解决方案,配合咱们移动端更普及的工具来作一些结合,好比说咱们能够作一些相似于抖音轻剪辑的方案,以及加一些贴纸轨字幕轨视频轨音频轨这样一些深度剪辑的方案,以及咱们结合后台的小程序,H5的一些解决方案,咱们在移动端都能有相应的解决方案。
4.13 素材生产——特效制做工具
稍微提一下咱们的素材特效制做工具,这个工具是咱们素材创做平台的一个重量级产品,整个产品的思惟逻辑是为了设计人员作的。这个工具是独立的不是插件,独立的程序在PC上、Mac上Windows上都有,有SDK全部的原子特效,每一个特效能够加关键帧,添加轨道去作特效的结合,好比这个界面上三界贝塞尔的曲线调节,最后把你的特效直接输出一个字幕包转场包等等。咱们都有相应的分类,出来的素材包再结合SDK作一些相应的应用给其余的用户。
4.14 内容生产——全平台互联互通
其实个人的整个构思是但愿咱们把咱们的移动端、PC端Web端以及素材特效制做和内容生产彻底的作一个全平台的互联互通。我以为是对于如今视频行业的考核咱们的一个愿景,也是咱们不断持续为之努力的方向。
其实美摄SDK通过这么多年的发展,累积了大批的互娱的或者传统行业的新媒体行业的客户,咱们都有很是深刻的合做,咱们也借此机会邀请各位和美摄有更进一步的合做。