相对于视频,可观察这个现象.音频在学习过程,就缺少了想象的空间.可是若是从原理出发,就不会那么难了.html
声音是什么? 声音是波,靠物体的振动产生学习
声波的三要素,是频率,振幅,波形.频率表明音阶的高低,振幅表明响度,波形则表明音色.编码
==小贴士==加密
- 分贝(decibel),是度量声音的强度单位,经常使用dB表示.是由美国发明家亚历山大.格雷厄姆.贝尔 名字命名的. 长期在夜晚接受50 分贝的噪音, 容易致使心血管疾病; 55 分贝, 会对儿童学习产生负面影响; 60分贝, 让人从睡梦中惊醒; 70 分贝,心肌梗死的发病率增长30%左右; 超过110 分贝, 可能致使永久性听力损伤.
声音的发生,来源于振动.人类说话,从声带振动发生声音以后,通过口腔,颅腔等局部区域的反射,在通过空气传播到别人耳朵中.这是咱们说话到听到的过程. 声音的传播,能够经过空气,液体,固定传播.介质不一样,会影响声音的传播速度.code
将模拟信号转换为数字信号的过程,分别是采样,量化和编码.orm
对模型信号进行采样,采样能够理解为在时间轴上对信号进行数字化. 而,根据奈斯特定理(采样定理),按比声音最高频率高2倍以上的频率对声音进行采样.这个过程称为AD转换.cdn
好比,前面提到高质量音频信号,其频率范围是20Hz-20KHz.因此采样频率通常是44.1KHz.这样能够保证采样声音达到20KHz也能被数字化.并且通过数字化处理后的声音,音质也不会下降.44.1KHZ,指的是1秒会采样44100次视频
量化,指的是在幅度轴上对信号进行数字化.简单的说,就是声音波形的数据是多少位的二进制数据,一般用bit作单位.好比16比特的二进制信号来表示声音的一个采样.它的取值范围[-32768,32767].一共有65536个值.如16bit、24bit。16bit量化级记录声音的数据是用16位的二进制数,所以,量化级也是数字声音质量的重要指标。咱们形容数字声音的质量,一般就描述为24bit(量化级)、48KHz采样,好比标准CD音乐的质量就是16bit、44.1KHz采样.blog
既然每一个量化都是一个采样,那么声音这么多采样,该如何将这些数据存储起来?
什么叫编码? 按照必定格式记录采样和量化后的数据.
音频编码的格式有不少种,而一般所说的音频裸数据指的是脉冲编码调制(PCM)数据. 若是想要描述一份PCM数据,须要从以下几个方向出发:
举例: 以CD音质为例,量化格式为16bite,采样率为44100,声道数为2.这些信息描述CD音质.那么能够CD音质数据,比特率是多少? 44100 * 16 * 2 = 1378.125kbps
那么一分钟的,这类CD音质数据须要占用多少存储空间? 1378.125 * 60 /8/1024 = 10.09MB
若是sampleFormat更加精确或者sampleRate更加密集,那么所占的存储空间就会越大,同时可以描述的声音细节就会更加精确.
存储在这些二进制数据便可理解为将模型信号转化为数字信号.那么转为数字信号以后,就能够对这些数据进行存储\播放\复制获取其余任何操做.