音视频学习从零到整-了解视频编码与VideoToolBox框架

时间 2019-11-08

原文原文链接

做者：CC老师_HelloCoder 原文地址：www.jianshu.com/p/c70c061b8…算法

一..了解VideoToolBox 硬编码

在iOS4.0,苹果就已经支持硬编码.可是硬编码在当时属于私有API. 不提供给开发者使用在2014年的WWDC大会上,iOS 8.0 以后,苹果开放了硬解码和硬解码的API。就是VideoToolbox.framework的API。VideoToolbox 是一套纯C语言API。其中包含了不少C语言函数网络

VideoToolBox实际上属于低级框架,它是能够直接访问硬件编码器和解码器.它存在于视频压缩和解压缩以及存储在像素缓存区中的数据转换提供服务.app

硬编码的优势：提升性能、增长效率、延长电量的使用框架

这个框架在音视频项目开发中,也是会要频繁使用的.若是你们有想法去从事音视频的开发.那么这个框架将会是你学习的一个重点.ide

二.了解视频

做为开发者和产品测试之间的斡旋.是不可避免的.这是我们在作开发过程当中,但仍是要去思考.究竟是需求不合理仍是咱们对这个需求的没有把握.函数

在前面我说过,5G时代的到来,势必会对移动互联网的冲击将会是最刺激的.为什么?一旦网络速度+设备的运行速度不受限制时,设想移动设备的暂时不可替代性是否是又更加的明显了.至少在目前为止,没有一款硬件能够替代手机设备在用户的地位.性能

那咱们来了解一下视频的常规知识.只有在了解视频的本质,你才有可能面对需求应对自如.学习

2.1 视频的构成:

图像
音频
元信息

图像: 视频内容自己就是一帧一帧的图片构成.人眼只要1秒钟连续播放16张以上的图片,就会认为这是一段连贯的视频.这种物理现象叫视觉暂留.测试

音频: 视频必定是由音频+图像内容构成的.因此音频在视频中是单独的一个部分.针对这一块咱们须要单独编码的.

**元信息:**元信息其实就是描述信息的信息.用于描述信息的结构\语义\用途\用法等.好比视频元信息就包含了视频的具体信息,好比编码格式,分辨率等等.

2.2 视频中的编码格式

视频编码格式
- H264编码的优点:
  - 低码率
  - 高质量的图像
  - 容错能力强
  - 网络适应性强
- 总结: H264最大的优点,具备很高的数据压缩比率,在同等图像质量下,H264的压缩比是MPEG-2的2倍以上,MPEG-4的1.5~2倍.
- 举例: 原始文件的大小若是为88GB，采用MPEG-2压缩标准压缩后变成3.5GB，压缩比为25∶1，而采用H.264压缩标准压缩后变为879MB，从88GB到879MB，H.264的压缩比达到惊人的102∶1
音频编码格式:
- AAC是目前比较热门的有损压缩编码技术,而且衍生了LC-AAC,HE-AAC,HE-AAC v2 三种主要编码格式.
  - LC-AAC 是比较传统的AAC,主要应用于中高码率的场景编码(>= 80Kbit/s)
  - HE-AAC 主要应用于低码率场景的编码(<= 48Kbit/s)
- 优点:在小于128Kbit/s的码率下表现优异,而且多用于视频中的音频编码
- 适合场景:于128Kbit/s如下的音频编码,多用于视频中的音频轨的编码

2.3 容器(视频封装格式)

**封装格式:**就是将已经编码压缩好的视频数据和音频数据按照必定的格式放到一个文件中.这个文件能够称为容器. 固然能够理解为这只是一个外壳.

一般咱们不只仅只存放音频数据和视频数据,还会存放一下视频同步的元数据.例如字幕.这多种数据会不一样的程序来处理,可是它们在传输和存储的时候,这多种数据都是被绑定在一块儿的.

常见的视频容器格式:
- AVI: 是当时为对抗quicktime格式（mov）而推出的，只能支持固定CBR恒定定比特率编码的声音文件
- MOV:是Quicktime封装
- WMV:微软推出的，做为市场竞争
- mkv：万能封装器，有良好的兼容和跨平台性、纠错性，可带外挂字幕
- flv: 这种封装方式能够很好的保护原始地址，不容易被下载到，目前一些视频分享网站都采用这种封装方式
- MP4：主要应用于mpeg4的封装，主要在手机上使用。

三.视频压缩的可能性

视频压缩,该从那几个方向去进行数据的压缩了? 实际上压缩的本质都是从冗余信息开始出发压缩的. 而视频数据之间是有极强的相关性.也就是这样会产生大量的冗余信息.这样的冗余包括空间上的冗余信息和时间上的冗余信息.

使用帧间编码技术能够去除时间上的冗余信息,具体包括以下
- 运动补偿: 运动补偿是经过先前的局部图形来预测,补偿当前的局部图像.它是减小帧序列冗余信息颇有效的方法.
- 运动表示: 不一样区域的图像须要使用不一样的运动矢量来描述运动信息
- 运动估计: 运动估计就是从视频序列中抽取运动信息的一整套技术.

3.1 编码概念

IPB帧 视频压缩中,每帧表明着一副静止的图像.而进行实际压缩时,会采用各类算法以减小数据的容量.其实IPB帧是最经常使用的一种方式:

I帧: 帧内编码帧(intra picture),I帧一般是每一个GOP(MPEG所使用的一种视频压缩技术)的第一帧.通过适度的压缩.做为随机访问的参考点,能够当作静态图像.I帧能够看作一个图像通过压缩后的产物.I帧压缩能够获得6:1的压缩比而不会产生任何可察觉的模糊现象.I帧压缩去除了视频空间的冗余信息.
P帧: 先后预测编码帧(predictive-frame),经过将图像序列中前面已编码帧的时间冗余信息充分去除来压缩传输数据量的编码图像.
B帧: 双向预测编码帧(bi-directional interpolated prediction frame),既要考虑源图像序列前面已编码帧,又要顾及源图像序列后面的已编码帧之间的时间冗余信息,来压缩传输数据量的编码图像.

读者角度解读

若是从编码的角度,获取咱们顺序思考会存在难度.但若是咱们从解码的角度来思考就显得不是那么不可理解了.

I帧,自身能够经过视频解码算法解压成一张单独的完整的视频画面.因此I帧去掉的是视频帧在空间维度上的冗余信息.
P帧,须要参考前面的一个I帧或P帧解码成一个完整的视频画面
B帧,须要参考前面的一个I帧或者P帧以及后面的一个P帧来生成一个完整的视频画面.
因此,P和B帧去掉的视频帧在时间上维度上的冗余信息.

3.2 解码中PTS 与 DTS

DTS(Decoding Time Stamp),主要用于视频的解码; PTS(Presentation Time Stamp),主要用于解码节点进行视频的同步和输出.

在没有B帧的状况下,DTS和PST的输出顺序是同样的.由于B帧会打乱了解码和显示顺序.因此一旦存在B帧,PTS和DTS势必会不一样.实际上在大多数编解码标准中,编码顺序和输入顺序并不一致.因而须要PTS和DST这2种不一样的时间戳.

3.3 GOP概念

两个I帧之间造成的一组图片,就是GOP(Group of Picture). 一般在编码器设置参数时,必须会设置gop_size的值.其实就是表明2个I帧之间的帧数目. 在一个GOP组中容量最大的就是I帧.因此相对而言,gop_size设置的越大,整个视频画面质量就会越好.可是解码端必须从接收的第一个I帧开始才能够正确解码出原始图像.不然没法正确解码.