硬件编码相关知识(H264,H265)

时间 2019-11-16

标签硬件编码相关知识 h264 h265 栏目字符编码繁體版

原文原文链接

硬件编码相关知识(H264,H265)

阅读人群：研究硬件编码器应用于iOS开发中,从0研究关于硬件编解码，码流中解析数据结构

内容概述：关于H264,H265的背景，数据结构，在iOS开发中编解码的应用

一. 背景及概述

1. 在升级 iOS 11 以后，iPhone 7 及更新的设备内的照片存储将再也不用 JPEG 了，而采用了一种新的图片格式 HEIF（发音同 heef），在 iOS 中对应的文件后缀为 .heic ，其编码用的是 HEVC（这个发不了音，哈哈哈）格式，又称 H.265 （这个就很熟悉了 H.264 的下一代），同时视频也用 HEVC 做为编码器，对应的文件后缀仍是 .mov 。

2. 这里要注意他们俩的关系， HEIF 是图片格式，而 HEVC 是编码格式(相似 H.264,VP8)，HEIF 是图片容器（相似于视频的 mkv，mp4 后缀），而用 HEVC 进行编码的 HEIF 图片就是后缀为 .heic 的图片，也是苹果主要使用的格式。

3. HEIF 全称 High Efficiency Image Format (HEIF)。是由 Moving Picture Experts Group 制定的，存储图片和图片序列的格式。下图是形容HEIF的一句英文诗，JPEG很大，可是HEIF很小。

4. 优势

压缩比高，在相同图片质量状况下，比JPEG高两倍
能增长如图片的深度信息，透明通道等辅助图片。
支持存放多张图片，相似相册和集合。(实现多重曝光的效果)
支持多张图片实现GIF和livePhoto的动画效果。
无相似JPEG的最大像素限制
支持透明像素
分块加载机制
支持缩略图

5. 文件组成

在视频文件中，容器和编码是独立开的，好比mp4,mkv等格式是容器而H.264,vp8等是编码
可是图像文件中，像JPEG就是混合在一块儿的，因此天然不太好用。HEIF就把容器和编码分开了，有用来存放单个或多个图像的容器。

6. 兼容

通常状况下，用户是对这个格式无感知的，由于只有在新款支持硬解码的 iOS 手机内部是以 heif & hevc 格式来存储照片和视频的，而在用户经过 Airdrop或者数据线传送到电脑上的时候，对不兼容的设备会自动转换到 JPEG 的格式。因此也不会影响你使用微信，微博等软件。ios

二. 视频编解码

1.软编与硬编概念

软编码：使用CPU进行编码。
硬编码：不使用CPU进行编码，使用显卡GPU,专用的DSP、FPGA、ASIC芯片等硬件进行编码。
比较
- 软编码：实现直接、简单，参数调整方便，升级易，但CPU负载重，性能较硬编码低，低码率下质量一般比硬编码要好一点。
- 性能高，低码率下一般质量低于软编码器，但部分产品在GPU硬件平台移植了优秀的软编码算法（如X264）的，质量基本等同于软编码。
- 苹果在iOS 8.0系统以前，没有开放系统的硬件编码解码功能，不过Mac OS系统一直有，被称为Video ToolBox的框架来处理硬件的编码和解码，终于在iOS 8.0后，苹果将该框架引入iOS系统。

2. h.264编码原理

H264是新一代的编码标准，以高压缩高质量和支持多种网络的流媒体传输著称，在编码方面，我理解的他的理论依据是：参照一段时间内图像的统计结果代表，在相邻几幅图像画面中，通常有差异的像素只有10%之内的点,亮度差值变化不超过2%，而色度差值的变化只有1%之内。因此对于一段变化不大图像画面，咱们能够先编码出一个完整的图像帧A，随后的B帧就不编码所有图像，只写入与A帧的差异，这样B帧的大小就只有完整帧的1/10或更小！B帧以后的C帧若是变化不大，咱们能够继续以参考B的方式编码C帧，这样循环下去。这段图像咱们称为一个序列（序列就是有相同特色的一段数据），当某个图像与以前的图像变化很大，没法参考前面的帧来生成，那咱们就结束上一个序列，开始下一段序列，也就是对这个图像生成一个完整帧A1，随后的图像就参考A1生成，只写入与A1的差异内容。git

在H264协议里定义了三种帧，完整编码的帧叫I帧，参考以前的I帧生成的只包含差别部分编码的帧叫P帧，还有一种参考先后的帧编码的帧叫B帧。github

H264采用的核心算法是帧内压缩和帧间压缩，帧内压缩是生成I帧的算法，帧间压缩是生成B帧和P帧的算法。算法

3. 对序列的说明

在H264中图像以序列为单位进行组织，一个序列是一段图像编码后的数据流，以I帧开始，到下一个I帧结束。缓存

一个序列的第一个图像叫作 IDR 图像（当即刷新图像），IDR 图像都是 I 帧图像。H.264 引入 IDR 图像是为了解码的重同步，当解码器解码到 IDR 图像时，当即将参考帧队列清空，将已解码的数据所有输出或抛弃，从新查找参数集，开始一个新的序列。这样，若是前一个序列出现重大错误，在这里能够得到从新同步的机会。IDR图像以后的图像永远不会使用IDR以前的图像的数据来解码。微信

一个序列就是一段内容差别不太大的图像编码后生成的一串数据流。当运动变化比较少时，一个序列能够很长，由于运动变化少就表明图像画面的内容变更很小，因此就能够编一个I帧，而后一直P帧、B帧了。当运动变化多时，可能一个序列就比较短了，好比就包含一个I帧和三、4个P帧。网络

4. 对三种帧的介绍

I帧session
- 帧内编码帧，I帧表示关键帧，你能够理解为这一帧画面的完整保留；解码时只须要本帧数据就能够完成（由于包含完整画面）。
- 特色
  - 它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输
  - 解码时仅用I帧的数据就可重构完整图像
  - I帧描述了图像背景和运动主体的详情
  - I帧不须要参考其余画面而生成
  - I帧是P帧和B帧的参考帧(其质量直接影响到同组中之后各帧的质量)
  - I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧
  - I帧不须要考虑运动矢量
  - I帧所占数据的信息量比较大
P帧数据结构
- 前向预测编码帧。P帧表示的是这一帧跟以前的一个关键帧（或P帧）的差异，解码时须要用以前缓存的画面叠加上本帧定义的差异，生成最终画面。（也就是差异帧，P帧没有完整画面数据，只有与前一帧的画面差异的数据），经过充分将低于图像序列中前面已编码帧的时间冗余信息来压缩传输数据量的编码图像，也叫预测帧
- P帧的预测与重构：P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一块儿传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以获得P帧“某点”样值,从而可获得完整的P帧。
- 特色:
  - P帧是I帧后面相隔1~2帧的编码帧
  - P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测偏差)
  - 解码时必须将I帧中的预测值与预测偏差求和后才能重构完整的P帧图像
  - P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧
  - P帧能够是其后面P帧的参考帧,也能够是其先后的B帧的参考帧
  - 因为P帧是参考帧,它可能形成解码错误的扩散
  - 因为是差值传送,P帧的压缩比较高
B帧框架
- 双向预测内插编码帧。B帧是双向差异帧，也就是B帧记录的是本帧与先后帧的差异（具体比较复杂，有4种状况，但我这样说简单些），换言之，要解码B帧，不只要取得以前的缓存画面，还要解码以后的画面，经过先后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，可是解码时CPU会比较累。
- B帧的预测与重构：B帧之前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,获得B帧“某点”样值,从而可获得完整的B帧。
- 特色：
  - B帧是由前面的I或P帧和后面的P帧来进行预测的
  - B帧传送的是它与前面的I或P帧和后面的P帧之间的预测偏差及运动矢量
  - B帧是双向预测编码帧
  - B帧压缩比最高,由于它只反映丙参考帧间运动主体的变化状况,预测比较准确
  - B帧不是参考帧,不会形成解码错误的扩散

I、B、P各帧是根据压缩算法的须要，是人为定义的,它们都是实实在在的物理帧。通常来讲，I帧的压缩率是7（跟JPG差很少），P帧是20，B帧能够达到50。可见使用B帧能节省大量空间，节省出来的空间能够用来保存多一些I帧，这样在相同码率下，能够提供更好的画质。

5.对压缩算法得说明

h264的压缩方法:

分组:把几帧图像分为一组(GOP，也就是一个序列),为防止运动变化,帧数不宜取多。
定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧;
预测帧:以I帧作为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧;
数据传输:最后将I帧数据与预测的差值信息进行存储和传输。
帧内（Intraframe）压缩也称为空间压缩（Spatial compression）。
- 当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩相似。帧内通常采用有损压缩算法，因为帧内压缩是编码一个完整的图像，因此能够独立的解码、显示。帧内压缩通常达不到很高的压缩，跟编码jpeg差很少。
帧间（Interframe）压缩
- 相邻几帧的数据有很大的相关性，或者说先后两帧信息变化很小的特色。也即连续的视频其相邻帧之间具备冗余信息,根据这一特性，压缩相邻帧之间的冗余量就能够进一步提升压缩量，减少压缩比。帧间压缩也称为时间压缩（Temporal compression），它经过比较时间轴上不一样帧之间的数据进行压缩。帧间压缩通常是无损的。帧差值（Frame differencing）算法是一种典型的时间压缩法，它经过比较本帧与相邻帧之间的差别，仅记录本帧与其相邻帧的差值，这样能够大大减小数据量。
有损（Lossy ）压缩和无损（Lossy less）压缩。
- 无损压缩也即压缩前和解压缩后的数据彻底一致。多数的无损压缩都采用RLE行程编码算法。
- 有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程当中要丢失一些人眼和人耳所不敏感的图像或音频信息,并且丢失的信息不可恢复。几乎全部高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小，丢失的数据越多,解压缩后的效果通常越差。此外,某些有损压缩算法采用屡次重复压缩的方式,这样还会引发额外的数据丢失。

6. DTS和PTS的不一样

DTS主要用于视频的解码,在解码阶段使用.PTS主要用于视频的同步和输出.在display的时候使用.在没有B frame的状况下.DTS和PTS的输出顺序是同样的。

EX：下面给出一个GOP为15的例子,其解码的参照frame及其解码的顺序都在里面:

如上图：I frame 的解码不依赖于任何的其它的帧.而p frame的解码则依赖于其前面的I frame或者P frame.B frame的解码则依赖于其前的最近的一个I frame或者P frame 及其后的最近的一个P frame.

三. IOS系统 H.264视频硬件编解码说明

1.对VideoToolbox的介绍

在iOS中，与视频相关的接口有5个，从顶层开始分别是 AVKit - AVFoundation - VideoToolbox - Core Media - Core Video

其中VideoToolbox能够将视频解压到CVPixelBuffer,也能够压缩到CMSampleBuffer。

若是须要使用硬编码的话，在5个接口中，就须要用到AVKit，AVFoundation和VideoToolbox。在这里我就只介绍VideoToolbox。

2.VideoToolbox中的对象

CVPixelBuffer : 编码前和解码后的图像数据结构（未压缩光栅图像缓存区-Uncompressed Raster Image Buffer）

CVPixelBufferPool : 顾名思义，存放CVPixelBuffer

pixelBufferAttributes : CFDictionary对象，可能包含了视频的宽高，像素格式类型（32RGBA, YCbCr420），是否能够用于OpenGL ES等相关信息
CMTime : 时间戳相关。时间以 64-big/32-bit形式出现。分子是64-bit的时间值，分母是32-bit的时标(time scale)
CMClock : 时间戳相关。时间以 64-big/32-bit形式出现。分子是64-bit的时间值，分母是32-bit的时标(time scale)。它封装了时间源，其中CMClockGetHostTimeClock()封装了mach_absolute_time()
CMTimebase : 时间戳相关。时间以 64-big/32-bit形式出现。CMClock上的控制视图。提供了时间的映射:CMTimebaseSetTime(timebase, kCMTimeZero); 速率控制: CMTimebaseSetRate(timebase, 1.0);

CMBlockBuffer : 编码后，结果图像的数据结构
CMVideoFormatDescription : 图像存如图所示，编解码先后的视频图像均封装在CMSampleBuffer中，若是是编码后的图像，以CMBlockBuffe方式存储；解码后的图像，以CVPixelBuffer存储。CMSampleBuffer里面还有另外的时间信息CMTime和视频描述信息CMVideoFormatDesc。储方式，编解码器等格式描述
CMSampleBuffer : 存放编解码先后的视频图像的容器数据结构
如图所示，编解码先后的视频图像均封装在CMSampleBuffer中，若是是编码后的图像，以CMBlockBuffe方式存储；解码后的图像，以CVPixelBuffer存储。CMSampleBuffer里面还有另外的时间信息CMTime和视频描述信息CMVideoFormatDesc。

3. 硬解码

经过如图所示的一个典型应用，来讲明如何使用硬件解码接口。该应用场景是从网络处传来H264编码后的视频码流，最后显示在手机屏幕上。

要完成以上功能须要通过如下几个步骤：

1> 将 H.264码流转换为 CMSampleBuffer

咱们知道，CMSampleBuffer = CMTime + FormatDesc + CMBlockBuffer . 须要从H264的码流里面提取出以上的三个信息。最后组合成CMSampleBuffer，提供给硬解码接口来进行解码工做。

在H.264的语法中，有一个最基础的层，叫作Network Abstraction Layer, 简称为NAL。H.264流数据正是由一系列的NAL单元(NAL Unit, 简称NAUL)组成的。

H264的码流由NALU单元组成,一个NALU可能包含有：

视频帧,视频帧也就是视频片断，具体有 P帧, I帧，B帧

H.264属性合集-FormatDesc(包含 SPS和PPS)

流数据中，属性集合多是这样的：

通过处理以后，在Format Description中则是:

要从基础的流数据将SPS和PPS转化为Format Desc中的话，须要调用CMVideoFormatDescriptionCreateFromH264ParameterSets()方法

NALU header

对于流数据来讲，一个NAUL的Header中，多是0x00 00 01或者是0x00 00 00 01做为开头(二者都有可能，下面以0x00 00 01做为例子)。0x00 00 01所以被称为开始码(Start code).

总结以上知识，咱们知道H264的码流由NALU单元组成，NALU单元包含视频图像数据和H264的参数信息。其中视频图像数据就是CMBlockBuffer，而H264的参数信息则能够组合成FormatDesc。具体来讲参数信息包含SPS（Sequence Parameter Set）和PPS（Picture Parameter Set）.以下图显示了一个H.264码流结构：

提取sps和pps生成FormatDesc
- 每一个NALU的开始码是0x00 00 01，按照开始码定位NALU
- 经过类型信息找到sps和pps并提取，开始码后第一个byte的后5位，7表明sps，8表明pps
- 使用CMVideoFormatDescriptionCreateFromH264ParameterSets函数来构建CMVideoFormatDescriptionRef
提取视频图像数据生成CMBlockBuffer
- 经过开始码，定位到NALU
- 肯定类型为数据后，将开始码替换成NALU的长度信息（4 Bytes）
- 使用CMBlockBufferCreateWithMemoryBlock接口构造CMBlockBufferRef
根据须要，生成CMTime信息。（实际测试时，加入time信息后，有不稳定的图像，不加入time信息反而没有，须要进一步研究，这里建议不加入time信息）

根据上述获得CMVideoFormatDescriptionRef、CMBlockBufferRef和可选的时间信息，使用CMSampleBufferCreate接口获得CMSampleBuffer数据这个待解码的原始的数据。以下图所示的H264数据转换示意图。

2> 将 CMSampleBuffer显示出来

显示的方式有两种：

将CMSampleBuffers提供给系统的AVSampleBufferDisplayLayer 直接显示
- 使用方式和其它CALayer相似。该层内置了硬件解码功能，将原始的CMSampleBuffer解码后的图像直接显示在屏幕上面，很是的简单方便。
利用OPenGL本身渲染经过VTDecompression接口来，将CMSampleBuffer解码成图像，将图像经过UIImageView或者OpenGL上显示。
- 初始化VTDecompressionSession，设置解码器的相关信息。初始化信息须要CMSampleBuffer里面的FormatDescription，以及设置解码后图像的存储方式。demo里面设置的CGBitmap模式，使用RGB方式存放。编码后的图像通过解码后，会调用一个回调函数，将解码后的图像交个这个回调函数来进一步处理。咱们就在这个回调里面，将解码后的图像发给control来显示，初始化的时候要将回调指针做为参数传给create接口函数。最后使用create接口对session来进行初始化。
- a中所述的回调函数能够完成CGBitmap图像转换成UIImage图像的处理，将图像经过队列发送到Control来进行显示处理。
- 调用VTDecompresSessionDecodeFrame接口进行解码操做。解码后的图像会交由以上两步骤设置的回调函数，来进一步的处理。

4.硬编码

硬编码的使用也经过一个典型的应用场景来描述。首先，经过摄像头来采集图像，而后将采集到的图像，经过硬编码的方式进行编码，最后编码后的数据将其组合成H264的码流经过网络传播。

摄像头采集数据

摄像头采集，iOS系统提供了AVCaptureSession来采集摄像头的图像数据。设定好session的采集解析度。再设定好input和output便可。output设定的时候，须要设置delegate和输出队列。在delegate方法，处理采集好的图像。

图像输出的格式，是未编码的CMSampleBuffer形式。
使用VTCompressionSession进行硬编码
- 初始化VTCompressionSession
VTCompressionSession初始化的时候，通常须要给出width宽，height长，编码器类型kCMVideoCodecType_H264等。而后经过调用VTSessionSetProperty接口设置帧率等属性，demo里面提供了一些设置参考，测试的时候发现几乎没有什么影响，可能须要进一步调试。最后须要设定一个回调函数，这个回调是视频图像编码成功后调用。所有准备好后，使用VTCompressionSessionCreate建立session
- 提取摄像头采集的原始图像数据给VTCompressionSession来硬编码
摄像头采集后的图像是未编码的CMSampleBuffer形式，利用给定的接口函数CMSampleBufferGetImageBuffer从中提取出CVPixelBufferRef，使用硬编码接口VTCompressionSessionEncodeFrame来对该帧进行硬编码，编码成功后，会自动调用session初始化时设置的回调函数。
- 利用回调函数，将因编码成功的CMSampleBuffer转换成H264码流，经过网络传播

基本上是硬解码的一个逆过程。解析出参数集SPS和PPS，加上开始码后组装成NALU。提取出视频数据，将长度码转换成开始码，组长成NALU。将NALU发送出去。

硬件编码相关知识(H264,H265)