音视频封装格式：AAC音频基础和ADTS打包方案详解

时间 2020-02-29

原文原文链接

问题背景：算法

如今主流的封装格式支持的音视频编码标配是H264+AAC，其中像TS、RTP、FLV、MP4都支持音频的AAC编码方式。固然，后继者不乏Opus这种编码方式，它主要应用在互联网场景，好比如今谷歌的WebRTC音视频解决方案就用的Opus，最新发布的Android10支持的音视频编码方式就是AV1和Opus，可是AAC目前在广电，安防，电影院等仍是应用最多，Opus目前还不足以威胁到AAC的地位。本篇文章准备讲解下AAC的封装格式ADTS字段含义和解封装,顺便讲解下AAC编码的一些基本状况，若是你只关心解封装，直接看【AAC的封装格式】这节便可。网络

AAC基本概况：ide

l AAC（Advance Audio Coding）：工具

即高级音频编码，出如今1997年，基于MPEG-2的音频编码技术，当时被称为MPEG-2 AAC,所以把其做为MPEG-2(MP2)标准的延伸。是由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发，目的是取代MP3格式，随着MPEG-4(MP4)标准在2000年的成型，则为AAC也叫M4A。性能

l 和AC3编码关系:优化

和AC3关系不大，AC3早于AAC，是由AAC的发起单位杜比实验室和日本先锋合做研制的新编码方式。AAC能输出AC-3的任何码率，赛过AC-3，压缩率更高，但技术上更加复杂。ui

l AAC背景和发展：this

1997年制定了不兼容MPEG-1的音频标准MPEG-2 NBC即MPEG-2 AAC;编码

1999年AAC又增长了LTP和PNS工具，造成了MPEG-4 AAC V1;spa

2002年在MPEG-4 AAC v1增长了SBR和错误鲁棒性工具，造成了 HE-AAC;

2004年MPEG-4在HE-AAC引入了PS模块，提高降码率性能，造成了EAAC+;

对于1999年、2002年、2004年增长了SBR和PS等编码技术的统称为MPEG-4 AAC；

备注：上面这些SBR PS等缩写就是音频的编码算法代名词，网上比较多，感兴趣的能够进一步自行搜索。1. SBR技术即Spectral Band Replication(频段复制)音乐的主要频谱集中在低频段，高频段幅度很小，但很重要，决定了音质。若是对整个频段编码，如果为了保护高频就会形成低频段编码过细以至文件巨大；如果保存了低频的主要成分而失去高频成分就会丧失音质。SBR把频谱切割开来，低频单独编码保存主要成分，高频单独放大编码保存音质，“统筹兼顾”了，在减小文件大小的状况下还保存了音质，完美的化解这一矛盾。

PS指“parametric stereo”（参数立体声）。原来的立体声文件文件大小是一个声道的两倍。可是两个声道的声音存在某种类似性，根据香农信息熵编码定理，相关性应该被去掉才能减少文件大小。因此PS技术存储了一个声道的所有信息，而后，花不多的字节用参数描述另外一个声道和它不一样的地方。

l AAC编码技术参数：

采样率范围：8KHz-96KHz 范围比较广，就是一秒在模拟信号上进行多少次采样；

码率：8kbps-576kbps，支持范围比较宽，在压缩比和质量上都能考虑到；

声道：最多支持48个主声道，16个低频声道，声音细节更丰富，音乐场景也用的多；

采样精度：就是一个采样点须要在计算机表示占用的字节数，通常用2字节16bit表示；

l AAC编码的主要规格：

根据不一样的编码技术，AAC的编码分为九种规格，这和H264的编码规格大同小异。

MPEG-2 AAC LC低复杂度规格（Low Complexity）编码方式比较简单，没有增益控制，可是提升了编码效率，在中等码率的编码效率和音质方面，都能找到平衡点。
MPEG-2 AAC Main 主规格
MPEG-2 AAC SSR 可变采样率规格（Scaleable Sample Rate）
MPEG-4 AAC LC 低复杂度规格（Low Complexity）
MPEG-4 AAC Main 主规格--包含了除增益控制以外的所有功能，音质最好
MPEG-4 AAC SSR 可变采样率规格（Scaleable Sample Rate）
MPEG-4 AAC LTP 长时期预测规格（Long Term Prediction）
MPEG-4 AAC LD 低延迟预测规格（Low Delay）
MPEG-4 AAC HE 高效率规格（High Efficency）--这种规格适合用于低码率编码，有Nero-ACC编码器支持，是一种成熟的商用编码器。

目前使用最多的就是LC和HE（适合下降码率），流行的Nero AAC编码程序支持LC、HE、HEv2三种规格的，并且编码后的AAC音频，规格都显示LC。其中HE就是在AAC(LC)编码技术上增长SBR技术，HEv2就是AAC（LC）上技术上不只仅增长了SBR技术，同时也增长了PS技术。

因此通常的商业音频编码器只支持部分编码规格，这也是咱们选择编码器的重要考虑因素之一，由于不一样的编码规格支持的音频采样率，码率都不同，背后采用的编码技术和算法复杂度也不同。

l AAC编码方式特色：

AAC高压缩比的音频编码方式，比G7xx、MP三、AC3系列的压缩比都高，而且质量和CD差很少，可是和比较新的Opus仍是差点，不过Opus目前还未充分普及；
AAC也采用了变换编码算法，采用了更高的滤波器组，这是压缩高的缘由；
AAC为了提升压缩比，还采用了噪声重整，反向自适应预测，联合立体声和量化霍夫曼编码算法等新技术；
AAC支持了更多的采样率和比特率，支持了1-48个音轨和多达15个低频音轨，具备多种语言兼容能力；
AAC支持了更宽的声音频率范围，从8KHz-96KHz,远宽于MP3的16KHz-48KHz范围；
AAC特殊的算法能够保有声音频率甚高和甚低频率。声音细节更丰富更清晰更接近原声；
AAC采用了优化算法，致使解码端简单，下降了解码端的处理复杂度；

AAC的封装格式：

n AAC封装类型：

ADIF:Audio Data Interchange Format音频数据交换格式，这种格式通常应用在将音频经过写文件方式存储在磁盘里，不能进行随机访问，不容许在文件中间开始进行解码。只有拿到整个文件时才能开始进行渲染播放，这种暂时还没用到，不是这篇文章的重点。
ADTS:Audio Data Transport Stream 音频数据传输流。这种格式的特征是用同步字节进行将AAC音频截断，而后能够容许客户端在任何地方进行解码播放，适合网络传输场景。这也是本文介绍的封装格式重点。

ADTS的格式以下：

n AAC封装头字段：

ADIF的格式：

adif_sequence

adif_header + byte_alignment + raw_data_stream

adif_header + byte_alignment + raw_data_block......+ raw_data_block

ADIF Header头信息以下：

ADTS的格式：

adts_sequence

adts_frame + adts_frame + ...... + adts_frame

adts_fixed_header + adts_variable_header + error_check + raw_data_block + error_check

ADTS header 的固定头和可变头信息：

固定头意思就是一旦音频文件造成，全部帧的信息头字段意义都是同样的，可是可变头说的是每一个帧这里面字段都有不同的地方，不要理解为无关紧要的意思。

ADTS帧头各个字段和含义：

序号

域

长度bits

说明

解释

Syncword

all bits must be 1

老是0xFFF,表明一个ADTS帧的开始，做为分界符，用于同步每帧起始位置。

ID即MPEG version

0 for MPEG-4, 1 for MPEG-2

通常用0，由于都是属于MPEG的规范。

Layer

always 0

老是00

Protection Absent

set to 1 if there is no CRC and 0 if there is CRC

这里表明是否有CRC检验字段，1表明没有，0表明有。

Profile

the MPEG-4 Audio Object Type minus 1

表明使用哪一个级别和规范的AAC，其中01表明Low Complexity(LC),其中profile等于Audio Object Type的值减1，其中全部Audio Object Type值在下面所示。

Sampling Frequency Index

MPEG-4 Sampling Frequency Index (15 is forbidden)

采样率下标，因为AAC的采样率范围是8KHz-96KHz，因此具体用那个，这个字段决定。

Private Bit