音频开发基础

时间 2019-11-07

标签音频开发基础繁體版

原文原文链接

人类可以听到的全部声音都称之为音频，不管是说话声、歌声、乐器，它可能包括噪音等。在生活中又两大场景：语音（Voice）和音乐（Music），近几年各大厂都推出了智能音响，包括笔者本身家里使用的天猫精灵。以及在各类短视频、游戏等，也都涉及大量的音频技术。less

音频的基础主要包括以下：编码

采样/采样频率

采样频率就是采用一段音频，作为样本，由于wav使用的是数码信号，它是用一堆数字来描述原来的模拟信号，因此它要对原来的模拟信号进行分析，咱们知道全部的声音都有其波形，数码信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”，赋予每个点以一个数值，这就是“采样”，而后把全部的“点”连起来就能够描述模拟信号了，很明显，在必定时间内取的点越多，描述出来的波形就越精确，这个尺度咱们就称为“采样频率”。咱们最经常使用的采样频率是44.1kHz，它的意思是每秒取样44100次。之因此使用这个数值是由于通过了反复实验（其实是那个时代才是视频27/1.0001时钟作CD刻录遗留问题），人们发现这个采样频率最合适，低于这个值就会有较明显的损失，而高于这个值人的耳朵已经很难分辨，并且增大了数字音频所占用的空间。通常为了达到“万分精确”，咱们还会使用48kHz甚至96kHz的采样频率，实际上，96kHz采样频率和44.1kHz采样频率的区别绝对不会象44.1kHz和22kHz那样区别如此之大。code

比特率（采样位数）

数码录音通常使用16比特、20比特或24比特制做音乐。什么是“比特”？咱们知道声音有轻有响，影响声音响度的物理要素是振幅，做为数码录音，必须也要能精确表示乐曲的轻响，因此必定要对波形的振幅有一个精确的描述。“比特(bit)”就是这样一个单位，16比特就是指把波形的振幅划为2^16即65536个等级，根据模拟信号的轻响把它划分到某个等级中去，就能够用数字来表示了。和采样频率同样，比特率越高，越能细致地反映乐曲的轻响变化。20比特就能够产生1048576个等级，表现交响乐这类动态十分大的音乐已经没有什么问题了。刚才提到了一个名词“动态”，它其实指的是一首乐曲最响和最轻的对比能达到多少，咱们也常说“动态范围”，单位是dB，而动态范围和咱们录音时采用的比特率是紧密结合在一块儿的，若是咱们使用了一个很低的比特率，那么就只有不多的等级能够用来描述音响的强弱，固然就不能听到大幅度的强弱对比了。动态范围和比特率的关系是；比特率每增长1比特，动态范围就增长6dB。因此假如咱们使用1比特录音，那么咱们的动态范围就只有6dB，这样的音乐是不可能听的。16比特时，动态范围是96dB。这能够知足通常的需求了。20比特时，动态范围是120dB，对比再强烈的交响乐均可以应付自如了，表现音乐的强弱是绰绰有余了。发烧级的录音师还使用24比特，可是和采样精度同样，它不会比20比特有很明显的变化，理论上24比特能够作到144 dB的动态范围，但其实是很难达到的，由于任何设备都不可避免会产生噪音，至少在现阶段24比特很难达到其预期效果。视频

声道

声卡所支持的声道数是衡量声卡档次的重要指标之一，从单声道到最新的环绕立体声。环绕立体声能够得到身临各类不一样环境的听觉感觉，给用户以全新的体验。游戏

编解码

天然界中的声音很是复杂，波形极其复杂，一般咱们采用的是脉冲代码调制编码，即PCM编码。PCM经过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。把采样值压缩叫编码（encode），造成比特流（bitstream）. 把比特流还原出采样值叫解码（decode），统称编解码（codec）。ssl

无损压缩和有损压缩

根据采样率和采样大小能够得知，相对天然界的信号，音频编码最多只能作到无限接近，至少目前的技术只能这样了，相对天然界的信号，任何数字音频编码方案都是有损的，由于没法彻底还原。在计算机应用中，可以达到最高保真水平的就是PCM编码，被普遍用于素材保存及音乐欣赏，CD、DVD以及咱们常见的WAV文件中均有应用。所以，PCM约定俗成了无损编码，由于PCM表明了数字音频中最佳的保真水准，并不意味着PCM就可以确保信号绝对保真，PCM也只能作到最大程度的无限接近。咱们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉你们，要作到真正的无损是困难的，就像用数字去表达圆周率，无论精度多高，也只是无限接近，而不是真正等于圆周率的值。开发

为何要使用音频压缩技术

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。以一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据存储空间须要176.4KB(44100 * 16 * 2 / 8 / 1024)，那么1分钟则约为10.34M，这是没法接受的。所以要下降存储空间，也要有品质追求，那么就有了不少的音频压缩技术。get

音频压缩技术

前面说过，在音频压缩领域，有两种压缩方式，分别是有损压缩和无损压缩，有损压缩顾名思义就是下降音频采样频率与比特率，输出的音频文件会比原文件小。另外一种音频压缩被称为无损压缩，无损压缩可以在100%保存原文件的全部数据的前提下，将音频文件的体积压缩的更小，而将压缩后的音频文件还原后，可以实现与源文件相同的大小、相同的码率。无损压缩格式有APE、FLAC、WavPack、LPAC、WMALossless、AppleLossless、La、OptimFROG、Shorten，而常见的、主流的无损压缩格式只有APE、FLAC。it

常见编码格式

WAV 编码

PCM编码的WAV文件是音质最好的格式, 就是在 PCM 文件前面加上 44 字节，分别描述采样率、声道数、数据格式等信息。class

特色：音质很是好，被大量软件所支持。

适用于：多媒体开发、保存音乐和音效素材。

特色：音质好，压缩比比较高，被大量软件和硬件支持，应用普遍。

适用于：适合用于比较高要求的音乐欣赏。

特色：能够用比mp3更小的码率实现比mp3更好的音质，高中低码率下均具备良好的表现。

适用于：用更小的存储空间得到更好的音质（相对MP3）。

特色：中高码率下，具备有损编码中最佳的音质表现，高码率下，高频表现极佳。

适用于：在节省大量空间的前提下得到最佳音质的音乐欣赏。

mp3PRO

特色：低码率下的音质之王。

适用于：低要求下的音乐欣赏。

特色：低码率下的音质表现难有对手。

适用于：数字电台架设、在线试听、低要求下的音乐欣赏。

一种新兴的无损音频编码，能够提供50-70%的压缩比，虽然比起有损编码来太不值得一提了，但对于追求完美音质的朋友简直是天大的福音。APE能够作到真正的无损，而不只是听起来无损，压缩比也要比相似的无损格式要好。

特色：音质很是好。

适用于：最高品质的音乐欣赏及收藏。

资料参考：

音频编码