视频的诞生与变迁:人工智能引领视频创新

做为优质的信息载体,在视频诞生至今的 150 年里,它的传播过程却没有太多改变。而随着近年机器视觉技术与视频的充分融合,结合了 AI 的视频传播具备多大的社会价值?做为一家致力于机器视觉研究的云计算公司,七牛云会在这场变革中承担怎样的角色?算法

NIUDAY 杭州站,七牛云人工智能实验室负责人彭垚分享了他的观点。数据库

01 视频的起源和发展方向

现在在咱们的生活中,摄影机、摄像机随处可见。但不多有人知道世界上第一部摄影机是如何诞生的。1872 年的一天,斯坦福大学创始人和校长——斯坦福与友人科恩打赌,斯坦福认为赛马在奔跑过程当中四蹄并非同时离地,而科恩却不认同他的见解。两人争执不休却又不能说服对方。因而斯坦福找到了一位科学家,科学家提出了连续拍摄胶片,而后回放看录像的方法。尽管最终斯坦福输了赌约,但却参与制造出了世界上第一台摄影机。安全

这个故事里咱们能够看到,视频诞生之初的做用就是取证。相比于图片,视频的优点在于可以留下动做的过程。服务器

架构

图 1
图 1

图 1 第一行是常见的监控摄像头,最初是用做取证、保障城市和家中的安全。因为有一部分摄像头能够用于聊天,所以也自带社交属性。框架

第二行是平常使用的相机、摄像机。最初这些设备被媒体用做取证、记录新闻。而随着电影等娱乐业的发展,也渐渐带上传播属性。机器学习

第三行的摄像头就更加广泛了,咱们每一个人的手机智能机器人都有摄像头。它们能够用来视频通话、直播,是视频的入口和来源。ide

咱们到底用视频作什么?最先是为防止记忆缺失留存影像,用于取证;第二个阶段是作成媒体素材与别人分享;第三个阶段是经过 RTC 与他人进行实时沟通。组件化

02 「机器认知」如何改变视频传播

以往视频在传播过程当中,没有「机器认知」这一步骤。人们用摄录设备生产视频,再将视频给别人看。从人到视频再到人,就是一个简单的过程,惟一的区别是视频的载体,有多是录像带,也有多是在线视频。布局

这个过程存在观看者和拍摄者兴趣误差的问题。观众不可能将全部视频都看一遍,他们只会根据兴趣进行挑选。

图 2

图 2

如今,全世界视频的数量已经远远超过人能看的总量。不少场景下,咱们须要这些视频都被人工看过,但即便全世界的人停下全部动做只看视频,也不可能看完。因此就须要计算机视觉发挥做用,在人到视频再到人的过程当中,插入机器认知这一环节,经过摄像头录下动做,辅助人把视频先看一遍。

图 3

图 3

计算机认知里有不少体系化的东西,最基础的是代替人作分类。而认知中最简单的就是判断视频是否合法。其次是在视频画面中将事物检查出来,有多少人,几辆车。也可能将视频主体轮廓进行分割、再加工,作一些精细化工做。最后还可能作一些更上层的业务,好比大量视频的检索和分析等。

03 七牛云计算机视觉产品布局

七牛云计算机视觉产品的目标,就是打造一套可以完整支撑、充分理解视频内容的产品体系。咱们将它称做 AI Video OS,主要包含三个子系统。

1.智能多媒体 API (DORA) 第一个子系统是智能多媒体API(DORA),它是机器视觉的入口,总体识别及认知引擎都来自这个入口。天天互联网用户 App 上传海量富媒体数据都会调用智能多媒体 API 这个入口对视频、图像进行处理、认知。

图 4

图 4

目前七牛云官网上提供了包括内容审核、 OCR、场景识别、人脸识别、音视频处理、图片处理六大模块应用呈现。基于七牛云平台弹性扩缩容的方法,即便整个平台天天的数据处理量都在高速增加,服务器也不会承受巨大的压力。

2.深度学习平台(AVA) 第二个子系统是深度学习平台(AVA),负责生成认知模型。经过深度学习平台生产机器认知模型,并不断训练、提高,就能对得到的数据进行更精准的识别。

从 2016 年开始,七牛云就决定要作这个产品。刚开始作鉴黄等内容审核工做的时候,有两位同事负责看涉黄视频,而且进行标注。但随着视频数量增长,不得不投入更多人力进行标注。这时候咱们发现最大的痛点就是大量重复劳动。

图 5
图 5

从图 5 能够看出,机器学习的过程始于用户行为(左下角)。有用户产生的数据后,就要对数据作抽样、整理、标注等工做,完成标注之后就产生了机器学习样本,这是一个很缓慢的过程。首先是由于有时候会找不到想要的数据。其次,即便找到了以后,也有不少人工标注工做,还须要写大量脚本,用于提取数据。因此不少人说「人工智能首先耗的是人工」。

有了样本以后,就能够进行训练集群训练,并产生一个模型。而后是对模型在大样本下的准确性、易用性进行测试,若是知足需求,就能把它用在深度学习平台。整个流程走通以后,用户就能轻松知道他的内容是否涉黄。

在整个流程中,工做量最大的是图 5 黄色部分中的「数据整理」,它会花费不少时间。

图 6
图 6

因而,基于七牛云,咱们本身搭建了一套深度学习平台框架(图 6),最上面的一行就是用来解决这些耗时的问题。主要包括:

  • 每日撰写迭代训练脚本

  • 新数据的增删和管理

  • 增量学习和迭代学习

  • 搭建半监督打标系统

  • 模型的比较和融合

用了这套架构,七牛云弹性深度学习平台能大量减小标注人员的工做,短时间内提高模型的能力。

3.大数据富媒体知识库(LEGO) 第三个子系统是智能大数据富媒体知识库(LEGO),用于富媒体数据的结构化解构。智能富媒体知识库将想要学习的内容进行结构化解构,从而帮助深度学习平台更高效地学习。在整我的工智能环节中,数据是最重要的单元,所以智能富媒体知识库就成了产品体系中很是重要的一环。

图 7
图 7

2017 年末,咱们意识到仅学习数据是不够的。因为这些数据不成体系,会形成高企的维护成本,因而咱们搭建了大数据富媒体知识库体系。主要分为三个模块(图 7):

  • 视频结构化模块,咱们把视频结构化、组件化,把 OS 层要素和分割定位工做所有作完,把较大的图片和视频变成了随时可被提取的小组件**咱们很形象地把它叫作乐高。

  • 知识图谱,经过关联知识图谱中的政治人物,咱们能快速将对应的人物导进视频中。

  • 海量检索的大数据检索系统,与传统主要针对文本内容的检索系统不一样,咱们的产品涉及人物特征、人脸特征、图像特征、视频特征,而特征上会有更复杂的系统结构。因此系统不只支持普通的全文检索,还能够在富媒体数据,包括视觉特征基础上可以作检索。

图 8
图 8

图 8 是经过乐高引擎作的广电行业 Demo。经过乐高平台将库中的大量视频进行解构,变成多个小乐高,再进行应用统计:视频包含多少人脸、多少政治人物、人物出现时间段,并以时间轴的形式呈现。除此以外还能在视频库中进行搜索,只要与该人物有关,就能显示他出现的时间段。

04 七牛云计算机视觉产品具备怎样的社会价值?

图 9
图 9

计算机视觉诞生以后,经过整合无处不在的摄像头,能造成一个信息量最完整的传感器。经过摄像头的视觉算法,汇总这些信息,就能帮助城市运营中心在公共治安、环境改善等方面发挥十分积极的做用。社会所以能更高效地运营,实现万物互联状态。

图 10 列举了七牛云帮助解决的一部分社会问题:

图 10
图 10

1.内容审核 摄像头天天都在产生海量的视频。经过机器认知,咱们能判断这些内容是否合法,是否适合传播。

图 11
图 11

在互联网领域作了鉴黄鉴暴以后,咱们发现这不只是互联网公司的责任。政府、广电与互联网都须要参与进来,由于广电、网信办等政府监管机构也须要人工智能辅助审查违规内容。因此在咱们开发的过程当中,渐渐能判断信息是否有效、是否良好、是否能在整个传播环节中更安全、有效地传递,避免不良信息对社会的伤害。

七牛云经过不断迭代升级视频模型解决了不少问题。例如,因为暴恐场面出现低,因此相应的鉴别就很是难,一百万视频中真正涉及暴恐的视频可能就十几个。但为了避免遗漏任何一个涉暴内容,识别精度须要达到 99.999% 以上。

2.城市之眼智能监控 公安机关在路边设置了很是多的摄像头,有了机器认知以后就能跟踪不一样的数据,让盗窃和各类刑事案件更快侦破,这对社会治安乃至国家安全都颇有帮助。

图 12
图 12

对于城市相关服务支撑,咱们今天更多回到了行业中。之前咱们认为传统安防或者是交警等应用场景会更多,但如今整个城市都须要更智能化地运转。七牛云以前作的特种车辆治理、人流密度管控等任务,对社会的治安包括都大有好处。固然这个过程当中最关键的几个视觉的要素仍是「人、物、场景」,其次是用到检测的识别,包括要在海量视频中检索,而且把视频当中的行为作一些分析。

图 13
图 13

图 13 是上海特种车辆治理的大致框图,包含危化车等车辆的实时监控和管控。

值得一提的是,城市之眼系统是正是基于 AI Video OS 。其迭代过程包含整套数据运营体系:数据产生、数据认知、数据学习,最终把学习以后更精细的视频认知能力叠加上去。学习发布完以后,把分析生成好的新模型,再更新到视频分析模型和检测模型当中。随后,将视频结构化的数据库总体更新,得出更多的数据比对,包括碰撞的结果。这些结果输出后能够进行告警,或者用作第三方数据的接入,进行大数据分析。

图 14
图 14

3.媒资智能 用在视频图片分类中就能提高平台视频图片的展现,而且根据用户喜爱进行分发,让他看到他想看的内容。

好比能够把一段篮球视频结构化分割成投篮、传球等事件。也能够制做知识图谱,有了全部球员的知识图谱以后,就能快速连接到某球员 A 的全部信息。甚至能够快速知道球员 A 是否与 球员 B 作过队友,是否加入了某个俱乐部。经过视频结构化,咱们能快速获取各类信息,并在此基础上对海量视频进行分类、审查、再生产、智能检索以及个性化推荐。

4.创新计划

七牛云人工智能实验室根据客户各类各样的定制化的需求:识别生产线的问题、识别快递订单等识别任务,七牛云有一套独立的创新定制化体系知足需求,以更好的服务客户。

图 15
图 15

05 七牛云计算机视觉产品的最大优点

普通的计算机视觉公司目前只是享受到了人工智能的技术红利。这些公司经过传统的软件、硬件形式将最新的技术服务于客户。而七牛云做为一家行业领先的云计算公司,与他们最大的不一样点,就是咱们拥有与 AI 密切相关的一整套产品,好比云存储、直播、音视频等。这些产品一旦结合 AI 的能力就可以造成一整套 AI 服务体系。七牛云正是经过这一整套 AI 服务体系来服务客户。

天天有不少生视觉内容输入到七牛云智能多媒体 API,而后 API 会结构化地进入富媒体知识库,知识库将学习资料导入深度学习平台进行学习,学习完成后就有更多高性能的模型包赋能到 API 上,给客户提供更优质、更强大的服务。

图 16
图 16

可自我进化的视频 AI 生态系统就是七牛云 AI 创新服务体系最核心的要点。因为计算机视觉的计算量是很是惊人的,所以即便如今有如此多的 GPU 集群,有很是大的超算中心,其实解决的还只是几个比较共性的问题。

目前还有很是多亟待咱们创新、理解的视觉问题。咱们也但愿经过七牛云可进化的视频 AI 闭环生态体系去构建,去解决更多创新的要求。

本文做者

申请试用 七牛云 AI 产品

关注公众号七牛云 了解更多信息哦~

相关文章
相关标签/搜索