Android音视频开发:踩一踩“门槛”

时间 2020-01-12

原文原文链接

音视频行业已经发展不少年了，随着近几年移动端愈来愈多的音视频APP的出现，将音视频推向一个高潮，可是因为音视频的学习成本很高，不少开发者望而却步，为了跟紧时代的步伐，我写了这篇音视频基础，讲解了音视频的相关知识，给你们破除音视频的“高门槛”，但愿能够共同进步。git

音频

将声音保存成音频的过程，其实就是将模拟音频数字化的过程，为了实现这个过程，就须要对模拟音频进行采样、量化和编码。接下来咱们详细讲解这一过程。算法

采样

采样是将信号从连续时间域上的模拟信号转换到离散时间域上的离散信号的过程(离散就是不连续)，根据著名的奈奎斯特定理，须要按声音最高频率2倍进行采样，人耳能听到的声音是20Hz～20kHz，因此通常针对声音的采样率是44.1KHz（为何是44.1KHz呢，而不是40KHz？由于通过尝试使用这个采样率进行采样效果最好）。下面列表一些其余的采样率，可做为参考。bash

8,000 Hz - 电话所用采样率，对于人的说话已经足够
11,025 Hz
22,050 Hz - 无线电广播所用采样率
32,000 Hz - miniDV数字视频camcorder、DAT（LP mode）所用采样率
44,100 Hz - 音频CD,也经常使用于MPEG-1音频（VCD, SVCD, MP3）所用采样率
47,250 Hz - Nippon Columbia（Denon）开发的世界上第一个商用PCM录音机所用采样率
48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50,000 Hz - 二十世纪七十年代后期出现的3M和Soundstream开发的第一款商用数字录音机所用采样率
50,400 Hz - 三菱X-80数字录音机所用所用采样率
96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音轨、Blu-ray Disc（蓝光光盘）音轨、和HD-DVD（高清晰度DVD）音轨所用所用采样率
2.8224 MHz - SACD、索尼和飞利浦联合开发的称为Direct Stream Digital的1位sigma-delta modulation过程所用采样率。

如上图所示就是一个采样的过程，将模拟音频在连续的时间域上，切割成不连续的时间域的信号过程，便是对x轴的操做。那么有x轴就有y轴，实际上对y轴的操做就是量化。网络

量化

量化是什么？就是要将上面分割的信息用具体的数据来进行表示，用形象的话来讲，就是给每一个x时间轴，对应其y轴的变化数值。那么咱们要表示一段声音的具体值，确定就须要先分配一个可变化区间(这个区间就叫作量化格式)，二进制中的１个单位就是一个比特，一般有８比特，16比特，32比特。学习

这里还需引入分贝(单位db)的概念：是描述声音大小的单位，人耳承受的dB范围是：0～90dB，0dB是人耳能听到的最微弱的的声音，在90dB环境中听力会受到严重影响。通过研究，1个比特能够大约记录6分贝的声音，那么我能够得出下图的数据编码

单位	范围	dB
8比特	0～2^8-1 <=> 0～255	0～48
16比特	0～2^16-1 <=> 0～65535	0～96
32比特	0～2^32 -1 <=> 0～4294967295	0～192

由上可知，通常咱们使用16比特，由于其有0～65535中变化，并且恰好符合人对声音大小的范围，而8比特处理音频，只有0～255中变化，变化不可以被很精细的记录下来，那为何不使用32比特呢？这是由于32位太消耗存储了，固然若是想使音频更加精细，也是可使用32比特的。因为量化是创建在采样的基础上的，全部一个量化就对应一个采样，那么咱们怎么存储呢？这就会涉及到下面的编码了。spa

声道

什么是声道呢？声道就是声源，意思就是声音的来源，常见的有Mono和Stereo。3d

Mono 单声道，单个声源，不少地方已被Stereo取代
Stereo 立体声，2个及以上多个声源

当咱们站在不一样位置听单声道时，它呈现的效果是不同的，而立体声则否则，在不一样方向仍可保持天然与悦耳，如今CD通常都是双声道立体声，那声道数就是2个。code

音频编码

所谓编码，就是按照必定的格式记录采样和量化后的数字数据，好比顺序存储或压缩存储空间了。从宏观上能够分红两类：压缩编码和非压缩编码。orm

一个存储的格式有不少种，一般音频裸数据便是咱们所说的PCM，也叫脉冲编码调制（英语：Pulse-code modulation，缩写：PCM）是一种模拟信号的数字化方法，它是一种非压缩编码格式。一般描述一段PCM数据须要如下几个概念:

量化格式 - SampleFormat，默认16比特
采样率 - SampleRate，默认44.1KHz
声道数 - Channel ，默认2个

通常咱们使用码率来描述音频，便是1秒内吞吐量，单位bps ：

码率 = 采样率 * 量化格式 * 声道数
复制代码

如上，咱们就能够得出：码率 = 44100 * 16 * 2 = 1411200 bps = 1378.125 kbps 还能够得出1分钟数据大小：1378.125 * 60 / 8 / 1024 = 10.1M

下图是我从一个mp3格式上获取的基本信息，能够看到量化格式、采样率和声道数都是同样的，可是它的码率倒是 320kbps，这与咱们上面计算公式得出的结论不一致呀？这就是涉及到压缩编码格式了。

Duration: 00:00:39.99, start: 0.011995, bitrate: 320 kb/s
Stream #0:0: Audio: mp3, 44100 Hz, stereo, s16p, 320 kb/s
复制代码

压缩编码就是对数据进行压缩，压缩编码的原理其实是压缩掉冗余信号，冗余信号是指不能被人耳感知到的信号，包含人耳听觉范围以外的音频信号以及被掩蔽掉的音频信号等，通常压缩分为两种：

有损压缩，数据通过压缩后，信息不受损失，还能彻底恢复到压缩前的原样
无损压缩，通过此方法压缩、解压的数据会与原始数据不一样可是很是接近

在音乐应用中，咱们常常看到“无损音乐”，若是你发现它是mp3格式的，那么它必定是有损压缩，也就是咱们所说的假无损。常见的有损压缩以下：

MP2
MP3
AAC
WMA
ADPCM
ATRAC
Dolby AC-3
Musepack
Ogg Vorbis
Opus
LDAC

视频

说完音频，咱们来讲说视频，首先得说说视频是什么？咱们都知道视频是由一帧一帧联系图像构成的，因此再介绍视频以前，先得了解一下什么是图像？

图像

咱们从小学习物理知识就知道，经过三菱镜就能够将光色散成不一样的颜色，通过进一步研究发现，只有红(R)、绿(G)、蓝(B)不能被分解，因此它们被称为光的三原色。

通常咱们买手机的时候会参考它的分辨率，固然是分辨率越大越好，由于越大越清晰，更接近事物的原始样貌，那这是为何呢？其实为了让人可以在手机上感知图像，也采用了这样的RGB模式。以“1080x1920”为例，那就是每个横向就有1080个像素点，纵向有1920个像素点，那总共就有1080x1920=2073600个像素。每个像素又包含了红(R)、绿(G)、蓝(B)三个子像素，这样每一个像素就能够有本身的所有颜色呈现。

图像表示

咱们知道红(R)、绿(G)、蓝(B)均可以使用00～FF或者0～255表示，由上面咱们知道8比特恰好能够表示0～255，一个像素又包含了红(R)、绿(G)、蓝(B)三个子像素，那一个像素至少须要24位，咱们通常还要给颜色加上一个不透明度(A)，因此一个像素实际上是32位，这种表示方式就是咱们经常使用的RGBA_8888，那若是一张图片要在上面分辨率的手机上全屏展现出来须要多大的空间呢？

1080*1920*4 = 8294400b = 8100kb = 7.91Mb
复制代码

这也是位图（bitmap）在内存中所占用的大小，每一张图像的裸数据都是很大的，因此在手机上若是直接加载bitmap的话，很快就会内存异常。因此若是让图像直接在网络上行走的话确定是不行的，通常都会进行一个压缩，常见的压缩格式有：

BMP - 无损压缩
PNG - 无损压缩
JPEG - 有损压缩

这是就是为何在制做小图（好比icon）的时候使用png格式，而大图采用jpeg的缘由，小图通过无损压缩放大以后不让其太过模糊，大图保证其可以清晰便可。

视频表示

视频的裸数据咱们通常使用YUV来进行表示，YUV也是一种颜色编码方式，为何不使用RGB呢？与RGB视频信号传输相比，它最大的优势在于只须要占用极少的频宽（RGB要求三个独立的视频信号同时传输）

“Y”表示明亮度（Luminance、Luma），也称灰阶值；“U”和“V”则是色度，它们的做用是描述影像的色彩及饱和度，用于指定像素的颜色。若是忽略掉UV，那就是只剩下灰(Y)，那就跟之前黑白电视机信号同样了，因此YUV的发明了是为了从黑白电视过渡彩色电视而发明的。

UV又由Cb和Cr来描述，Cb反映的则是RGB输入信号蓝色部分与RGB信号亮度值之间的差别，而Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差别。UV信号告诉了显示器使得某个颜色亮度依某个基准偏移， UV的值越高，表明该像素会有更饱和的颜色。

为节省带宽起见，大多数YUV格式平均使用的每像素位数都少于24位。主要的抽样（subsample）格式有YCbCr 4:2:0、YCbCr 4:2:二、YCbCr 4:1:1和YCbCr 4:4:4。YUV的表示法称为A:B:C表示法：

4:4:4表示彻底取样，与RGB相似
4:2:2表示2:1的水平取样，垂直彻底采样。
4:2:0表示2:1的水平取样，垂直2：1采样。
4:1:1表示4:1的水平取样，垂直彻底采样。

咱们再对1080x1920手机上展现视频一帧的数据量大小以下：

YUV格式	大小（1080x1920分辨率）
444	1080* 1920* 3=6220800b = 6075 kb = 5.93Mb
422	1080* 1920* (1+0.5+0.5) = 4147200 b = 4050 kb = 3.96Mb
420	1080* 1920* (1+0.5+0) = 3110400 b = 3037.5 kb = 2.97Mb
411	1080* 1920* (1+0.25+0.25) = 3110400 b = 3037.5 kb = 2.97Mb

从上图中咱们能够看到，若是使用YUV420一帧会比直接使用RGB少了近3M，这也就是为何使用YUV而不是用RGB的主要缘由。

须要注意点是通常视频都是使用的YUV4:2:0，YUV4:2:0并非说只有U（即Cb）, V（即Cr）必定为0，而是指U：V互相援引，时见时隐，也就是说对于每个行，只有一个U或者V份量，若是一行是4:2:0的话，下一行就是4:0:2，再下一行是4:2:0...以此类推。

怎么让YUV转化成RGB数据在手机上呈现呢？这就须要一个转化公式了

到此咱们就知道视频是怎么回事了，视频的是由一帧一帧图像组成，一帧图像又是由YUV裸数据组成，而YUV裸数据是能够与RGB互相转化的，最终呈如今手机上的是转化后的RGB。

视频编码

在介绍编码以前，咱们先介绍两个概念：

帧率（fps） - 测量单位时间(s)显示的帧数，通常视频中使用24fps就能够了。对于游戏来说，若是帧率少于30fps就会出现不连贯，也就是咱们日常说的卡顿。
比特率 - 测量单位时间(s)数据量大小。

咱们就能够计算一下在1080* 1920的手机上播放YUV420视频数据的比特率：

bitRate = 1080* 1920* (1+0.5+0)* 24 = 71.2 Mbps
复制代码

还能够得出90分钟电影数据量:

total = bitRate * 60 * 90 = 375.42 GB
复制代码

这对于咱们来讲是确定不能接受的，因此就必须对其进行编码，跟音频编码相似，通常采用压缩编码，否则就没得玩咯～

与音频编码不一样，视频数据之间有很强的关联性，也就是由大量的冗余信息，包括时间上的冗余信息和空间上的冗余信息。

时间上的冗余信息（temporal redundancy）- 在视频数据中，相邻的帧（frame）与帧之间一般有很强的关连性，这样的关连性即为时间上的冗余信息。
空间上的冗余信息（spatial redundancy）- 在同一张帧之中，相邻的像素之间一般有很强的关连性，这样的关连性即为空间上的冗余信息。

如今常见的视频编码有两个系列：

MPEG系列 - 包括 Mpeg1（用于VCD）、Mpeg2（用于DVD）、Mpeg4 AVC（如今流媒体使用最多的就是它了）
H.26x系列 - 包括 H.26一、H.26二、H.26三、H.264（如今视频使用的最多就是它了）

IPB帧

MPEG定义了I帧、P帧、B帧，并根据不一样帧实现了不一样的压缩算法

I帧 - 帧内编码帧，就是经过压缩算法压成一张单独的完整视频画面，也是一组的第一帧，因此I帧去掉的是视频帧在空间维度上的冗余信息。
P帧 - 前向预测编码帧，须要参考其前面的一个I帧或者P帧来解码成一张完整的视频画面。
B帧 - 双向预测内插编码帧，须要参考其前一个I帧或者P帧及其后面的一个P帧来生成一张完整的视频画面,因此P帧与B帧去掉的是视频帧在时间维度上的冗余信息。

注意：在I帧中有一个特殊的帧IDR，它也是一个I帧，若是在视频编码过程当中出现一个IDR帧，那么就意味着以后全部的帧不能再参考前面的帧了，其做用就至关于一个分水岭。

前面咱们说到，视频是由一系列图像组成，每一个图像就是一帧。图像是一组一组处理的，一组帧经常使用的结构由15个帧组成，具备IBBPBBPBBPBBPBB形式，一组帧又叫GOP，能够参考下图

以上就是音视频基础的相关内容，若有不明白或者不正确的地方，请在下方评论区留言，望共勉之。

参考

音视频开发进阶指南:基于Android与iOS平台的实践