音视频行业已经发展不少年了,随着近几年移动端愈来愈多的音视频APP的出现,将音视频推向一个高潮,可是因为音视频的学习成本很高,不少开发者望而却步,为了跟紧时代的步伐,我写了这篇音视频基础,讲解了音视频的相关知识,给你们破除音视频的“高门槛”,但愿能够共同进步。git
将声音保存成音频的过程,其实就是将模拟音频数字化的过程,为了实现这个过程,就须要对模拟音频进行采样、量化和编码。接下来咱们详细讲解这一过程。算法
采样是将信号从连续时间域上的模拟信号转换到离散时间域上的离散信号的过程(离散就是不连续),根据著名的奈奎斯特定理,须要按声音最高频率2倍进行采样,人耳能听到的声音是20Hz~20kHz,因此通常针对声音的采样率是44.1KHz(为何是44.1KHz呢,而不是40KHz?由于通过尝试使用这个采样率进行采样效果最好)。下面列表一些其余的采样率,可做为参考。bash
如上图所示就是一个采样的过程,将模拟音频在连续的时间域上,切割成不连续的时间域的信号过程,便是对x轴的操做。那么有x轴就有y轴,实际上对y轴的操做就是量化。网络
量化是什么?就是要将上面分割的信息用具体的数据来进行表示,用形象的话来讲,就是给每一个x时间轴,对应其y轴的变化数值。那么咱们要表示一段声音的具体值,确定就须要先分配一个可变化区间(这个区间就叫作量化格式),二进制中的1个单位就是一个比特,一般有8比特,16比特,32比特。学习
这里还需引入分贝(单位db)的概念:是描述声音大小的单位,人耳承受的dB范围是:0~90dB,0dB是人耳能听到的最微弱的的声音,在90dB环境中听力会受到严重影响。通过研究,1个比特能够大约记录6分贝的声音,那么我能够得出下图的数据编码
单位 | 范围 | dB |
---|---|---|
8比特 | 0~2^8-1 <=> 0~255 | 0~48 |
16比特 | 0~2^16-1 <=> 0~65535 | 0~96 |
32比特 | 0~2^32 -1 <=> 0~4294967295 | 0~192 |
由上可知,通常咱们使用16比特,由于其有0~65535中变化,并且恰好符合人对声音大小的范围,而8比特处理音频,只有0~255中变化,变化不可以被很精细的记录下来,那为何不使用32比特呢?这是由于32位太消耗存储了,固然若是想使音频更加精细,也是可使用32比特的。 因为量化是创建在采样的基础上的,全部一个量化就对应一个采样,那么咱们怎么存储呢?这就会涉及到下面的编码了。spa
什么是声道呢?声道就是声源,意思就是声音的来源,常见的有Mono
和Stereo
。3d
Stereo
取代当咱们站在不一样位置听单声道时,它呈现的效果是不同的,而立体声则否则,在不一样方向仍可保持天然与悦耳,如今CD通常都是双声道立体声,那声道数就是2个。code
所谓编码,就是按照必定的格式记录采样和量化后的数字数据,好比顺序存储或压缩存储空间了。从宏观上能够分红两类:压缩编码和非压缩编码。orm
一个存储的格式有不少种,一般音频裸数据便是咱们所说的PCM,也叫脉冲编码调制(英语:Pulse-code modulation,缩写:PCM)是一种模拟信号的数字化方法,它是一种非压缩编码格式。 一般描述一段PCM数据须要如下几个概念:
通常咱们使用码率
来描述音频,便是1秒内吞吐量,单位bps :
码率 = 采样率 * 量化格式 * 声道数
复制代码
如上,咱们就能够得出:码率 = 44100 * 16 * 2 = 1411200 bps = 1378.125 kbps 还能够得出1分钟数据大小:1378.125 * 60 / 8 / 1024 = 10.1M
下图是我从一个mp3格式上获取的基本信息,能够看到量化格式、采样率和声道数都是同样的,可是它的码率倒是 320kbps,这与咱们上面计算公式得出的结论不一致呀?这就是涉及到压缩编码格式了。
Duration: 00:00:39.99, start: 0.011995, bitrate: 320 kb/s
Stream #0:0: Audio: mp3, 44100 Hz, stereo, s16p, 320 kb/s
复制代码
压缩编码就是对数据进行压缩,压缩编码的原理其实是压缩掉冗余信号,冗余信号是指不能被人耳感知到的信号,包含人耳听觉范围以外的音频信号以及被掩蔽掉的音频信号等,通常压缩分为两种:
在音乐应用中,咱们常常看到“无损音乐”,若是你发现它是mp3格式的,那么它必定是有损压缩,也就是咱们所说的假无损。常见的有损压缩以下:
说完音频,咱们来讲说视频,首先得说说视频是什么?咱们都知道视频是由一帧一帧联系图像构成的,因此再介绍视频以前,先得了解一下什么是图像?
咱们从小学习物理知识就知道,经过三菱镜就能够将光色散成不一样的颜色,通过进一步研究发现,只有红(R)、绿(G)、蓝(B)不能被分解,因此它们被称为光的三原色。
通常咱们买手机的时候会参考它的分辨率,固然是分辨率越大越好,由于越大越清晰,更接近事物的原始样貌,那这是为何呢? 其实为了让人可以在手机上感知图像,也采用了这样的RGB模式。以“1080x1920”为例,那就是每个横向就有1080个像素点,纵向有1920个像素点,那总共就有1080x1920=2073600个像素。每个像素又包含了红(R)、绿(G)、蓝(B)三个子像素,这样每一个像素就能够有本身的所有颜色呈现。
咱们知道红(R)、绿(G)、蓝(B)均可以使用00~FF或者0~255表示,由上面咱们知道8比特恰好能够表示0~255,一个像素又包含了红(R)、绿(G)、蓝(B)三个子像素,那一个像素至少须要24位,咱们通常还要给颜色加上一个不透明度(A),因此一个像素实际上是32位,这种表示方式就是咱们经常使用的RGBA_8888
,那若是一张图片要在上面分辨率的手机上全屏展现出来须要多大的空间呢?
1080*1920*4 = 8294400b = 8100kb = 7.91Mb
复制代码
这也是位图(bitmap)在内存中所占用的大小,每一张图像的裸数据都是很大的,因此在手机上若是直接加载bitmap的话,很快就会内存异常。因此若是让图像直接在网络上行走的话确定是不行的,通常都会进行一个压缩,常见的压缩格式有:
这是就是为何在制做小图(好比icon)的时候使用png
格式,而大图采用jpeg
的缘由,小图通过无损压缩放大以后不让其太过模糊,大图保证其可以清晰便可。
视频的裸数据咱们通常使用YUV来进行表示,YUV也是一种颜色编码方式,为何不使用RGB呢?与RGB视频信号传输相比,它最大的优势在于只须要占用极少的频宽(RGB要求三个独立的视频信号同时传输)
“Y”表示明亮度(Luminance、Luma),也称灰阶值;“U”和“V”则是色度,它们的做用是描述影像的色彩及饱和度,用于指定像素的颜色。若是忽略掉UV,那就是只剩下灰(Y),那就跟之前黑白电视机信号同样了,因此YUV的发明了是为了从黑白电视过渡彩色电视而发明的。
UV又由Cb和Cr来描述,Cb反映的则是RGB输入信号蓝色部分与RGB信号亮度值之间的差别,而Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差别。UV信号告诉了显示器使得某个颜色亮度依某个基准偏移, UV的值越高,表明该像素会有更饱和的颜色。
为节省带宽起见,大多数YUV格式平均使用的每像素位数都少于24位。主要的抽样(subsample)格式有YCbCr 4:2:0、YCbCr 4:2:二、YCbCr 4:1:1和YCbCr 4:4:4。YUV的表示法称为A:B:C表示法:
咱们再对1080x1920手机上展现视频一帧的数据量大小以下:
YUV格式 | 大小 (1080x1920分辨率) |
---|---|
444 | 1080* 1920* 3=6220800b = 6075 kb = 5.93Mb |
422 | 1080* 1920* (1+0.5+0.5) = 4147200 b = 4050 kb = 3.96Mb |
420 | 1080* 1920* (1+0.5+0) = 3110400 b = 3037.5 kb = 2.97Mb |
411 | 1080* 1920* (1+0.25+0.25) = 3110400 b = 3037.5 kb = 2.97Mb |
从上图中咱们能够看到,若是使用YUV420一帧会比直接使用RGB少了近3M,这也就是为何使用YUV而不是用RGB的主要缘由。
须要注意点是通常视频都是使用的YUV4:2:0,YUV4:2:0并非说只有U(即Cb), V(即Cr)必定为0,而是指U:V互相援引,时见时隐,也就是说对于每个行,只有一个U或者V份量,若是一行是4:2:0的话,下一行就是4:0:2,再下一行是4:2:0...以此类推。
怎么让YUV转化成RGB数据在手机上呈现呢?这就须要一个转化公式了
到此咱们就知道视频是怎么回事了,视频的是由一帧一帧图像组成,一帧图像又是由YUV裸数据组成,而YUV裸数据是能够与RGB互相转化的,最终呈如今手机上的是转化后的RGB。
在介绍编码以前,咱们先介绍两个概念:
咱们就能够计算一下在1080* 1920的手机上播放YUV420视频数据的比特率:
bitRate = 1080* 1920* (1+0.5+0)* 24 = 71.2 Mbps
复制代码
还能够得出90分钟电影数据量:
total = bitRate * 60 * 90 = 375.42 GB
复制代码
这对于咱们来讲是确定不能接受的,因此就必须对其进行编码,跟音频编码相似,通常采用压缩编码,否则就没得玩咯~
与音频编码不一样,视频数据之间有很强的关联性,也就是由大量的冗余信息,包括时间上的冗余信息和空间上的冗余信息。
如今常见的视频编码有两个系列:
MPEG定义了I帧、P帧、B帧,并根据不一样帧实现了不一样的压缩算法
注意: 在I帧中有一个特殊的帧IDR
,它也是一个I帧,若是在视频编码过程当中出现一个IDR帧,那么就意味着以后全部的帧不能再参考前面的帧了,其做用就至关于一个分水岭。
前面咱们说到,视频是由一系列图像组成,每一个图像就是一帧。图像是一组一组处理的,一组帧经常使用的结构由15个帧组成,具备IBBPBBPBBPBBPBB形式,一组帧又叫GOP
,能够参考下图
以上就是音视频基础的相关内容,若有不明白或者不正确的地方,请在下方评论区留言,望共勉之。