iOS音频播放(三)AudioUnit介绍与实战

在iOS平台上,全部的音频框架底层都是基于AudioUnit实现的。较高层次的音频框架包括: Media Player、 AV Foundation、OpenAL和Audio Toolbox,这些框架都封装了AudioUnit,而后提供了更高层次的API(功能更少,职责更单一的接口)。git

当开发者在开发音视频相关产品的时候,若是对音视频须要更高程度的控制、性能以及灵活性,或者想要使用一些特殊功能(回声消除)的时候,能够直接使用AudioUnit API。苹果官方文档中描述,AudioUnit提供了音频快速的模块化处理,若是是在如下场景中,更适合使用AudioUnit而不是使用高层次的音频框架。github

  • 想使用低延迟的音频I/O(input或者output),好比说在VoIP的应用场景下。
  • 多路声音的合成而且回放,好比游戏或者音乐合成乐器的应用。
  • 使用AudioUnit里面提供的特有功能,好比:回声消除、Mix两轨音频,以及均衡器、压缩器、混响器等效果器。
  • 须要图状结构来处理音频,能够将音频处理模块组装到灵活的图状结构中,苹果公司为音频开发者提供了这种API。

构建AudioUnit的时候须要制定类型(Type)、子类型(subtype)以及厂商(Manufacture).类型(Type)就是四大类型的AudioUnit的Type;而子类型(subtype)就是该大类型下面的子类型(好比Effect该大类型下面有EQ、Compressor、limiter等子类型);厂商(Manufacture)通常状况下比较固定,直接写成kAudioUnitManufacturer_Apple就能够了。利用以上这三个变量开发者能够完整描述出一个AudioUnit了,好比使用下面的代码建立一个RemoteIO类型的AudioUnit:算法

AudioComponentDescription ioUnitDescription;
ioUnitDescription.componentType = kAudioUnitType_Output;
ioUnitDescription.componentSubType = kAudioUnitSubType_RemoteIO;
ioUnitDescription.componentManufacturer = kAudioUnitManufacturer_Apple;
ioUnitDescription.componentFlags = 0;
ioUnitDescription.componentFlagsMask = 0;
复制代码

上诉代码构造了RemoteIO类型的AudioUnit描述的结构体,那么如何使用这个描述来构造真正的AudioUnit呢?有两种方式:第一种方式是直接使用AudioUnit裸的建立方式;第二种方式是使用AUGraph和AUNode(其实一个AUNode就是对AudioUnit的封装)来构建。下面就来分别介绍这两种方式。bash

(1) 裸建立方式

首先根据AudioUnit的描述,找出实际的AudioUnit类型:框架

AudioComponent ioUnitRef = AudioComponentFindNext(NULL,&ioUnitDescription);
复制代码

而后声明一个AudioUnit引用:模块化

AudioUnit ioUnitInstance;
复制代码

最后根据类型建立这个AudioUnit实例:函数

AudioConponentInstanceNew(isUnitRef,&ioUnitInstance);
复制代码

(2) AUGraph建立方式

首先声明而且实例化一个AUGraph:性能

AUGraph processingGraph;
NewAUGraph(&processingGraph);
复制代码

而后按照AudioUnit的描述在AUGraph中添加了一个AUNode:ui

AUNode ioNode;
AUGraphAddNode(processingGraph,&ioUnitDescription,&isNode);
复制代码

接下来打开AUGraph,其实打开AUGraph的过程也是间接实例化AUGraph中全部的AUNode。注意,必须在获取AudioUnit以前打开整个AUGraph,不然,咱们将不能从对应的AUNode中获取正确的AudioUnit:编码

AUGraphOpen(processingGraph);
复制代码

最后在AUGraph中的某个Node里得到AudioUnit的应用:

AudioUnit ioUnit;
AUGraphNodeInfo(processingGraph,ioNode,NULL,&ioUnit);
复制代码

AudioUnit的通用参数设置

本节将以RemoteIO这个AudioUnit为例来说解AudioUnit的参数设置,RemoteIO这个AudioUnit是与硬件IO相关的一个Unit,它分为输入端和输出端(I表明Input,O表明Output)。输入端通常是指麦克风,输出端通常是指扬声器(Speaker)或者耳机。若是须要同时使用输入输出,即K歌应用中的耳返功能(用户在唱歌或者说话的同时,耳机会将麦克风收录的声音播放出来,让用户可以听到本身的声音),则须要开发者作一些设置将它们连起来。

上图中的RemoteIO Unit分为Element0和Element1,其中Element0控制输出端,Element1控制输入端,同时每一个Element又分为Input Scope和Output Scope。若是开发者想要使用扬声器的声音播放功能,那么必须将这个Unit的Element0的OutputScope和Speaker进行链接。而开发者想要使用麦克风的录音功能,那么必须将这个Unit的Element1的InputScope和麦克风进行链接。使用扬声器的代码以下:

OSStatus status = noErr;
UInt32 oneFlag = 1;
UInt32 busZero = 0;// Element 0
status = AudioUnitSetProperty(remoteIOUnit,kAudioOutputUnitProperty_EnableIO,kAudioUnitScope_output,busZero,&oneFlag,sizeof(oneFlag));
CheckStatus(status,@"Could not Connect To Speaker",YES);
复制代码

上面这段代码就是把RemoteIOUnit的Element0的OutputScope链接到Speaker上,链接过程会返回一个OSStatus类型的值,可使用自定义的CheckStatus函数来判断错误而且输出Could not Connect To Speaker的提示。具体的CheakStatus函数以下:

static void CheckStatus(OSStatus status,NSString *message,BOOL fatal)
{
      if(status != noErr)
      {
              char fourCC[16];
              *(UInt32 *)fourCC = CFSwapInt32HostToBig(status);
              fourCC[4] = '\0';
              if(isprint(fourCC[0]) && isprint(fourCC[1]) && isprint(fourCC[2]) && isprint(fourCC[3]))
                    NSLog(@"%@:%s",message,fourCC);
              else
                    NSLog(@"%@:%d",message,(int)status);
              if(fatal)
                    exit(-1);
      }
}
复制代码

接下来再来看一下如何启动麦克风的代码:

UInt32 busOne = 1; // Element 1
AudioUnitSetProperty(remoteIOUnit,kAudioOutputUnitProperty_EnableIO,kAudioUnitScope_input,busOne,&oneFlag,sizeof(oneFlag));
复制代码

上面这段代码就是把RemoteIOUnit的Element1的InputScope链接上麦克风。链接成功以后,就应该给AudioUnit设置数据格式了,AudioUnit的数据格式分为输入和输出两个部分,下面先来看一下Audio Stream Format的描述:

UInt32 bytesPerSample = sizeof(Float32);
AudioStreamBasicDescription asbd;
bzero(&asbd,sizeof(asbd));
asbd.mFormatID = kAudioFormatLinearPCM;
asbd.mSampleRate = _sampleRate;
asbd.mChannelsPerFrame = channels;
asbd.mFramesPerPacket = 1;
asbd.mFormatFlags = kAudioFormatFlagsNativeFloatPacked | kAudioFormatFlagIsNonInterleaved;
asbd.mBitsPerChannel = 8*bytesPerSample;
asbd.mBytesPerFrame = bytePerSample;
asbd.mBytesPerPacket = bytesPerSamele;
复制代码

上面这段代码展现了如何填充AudioStreamBasicDescription结构体,其实在iOS平台作音视频开发久了就会知道:不论音频仍是视频的API都会接触到不少StreamBasicDescription,该Description是描述音视频具体格式的。下面就来具体分析一下上述代码是如何制定格式的。

  • mFormatID参数可用来制定音频的编码格式,此处制定音频的编码格式为PCM格式。
  • 接下来是设置声音的采样率、声道数以及每一个Packet有几个Frame。
  • mFormatFlags是用来描述声音表示格式的参数,代码中的第一个参数指定每一个sample的表示格式是Float格式,这点相似于以前讲解的每一个sample都是使用2个字节(SInt16)来表示;而后就是后面的参数NonInterleaved,字面理解这个单词的意思是非交错的,其实对于音频来说就是左右声道是非交错存放的,实际的音频的数据会存储在一个AudioBufferList结构中的变量mBuffers[0]里面,右声道就会在mBuffers[1]里面;而若是mFormatFlags指定的是Interleaved的话,那么左右声道就会交错排列在mBuffers[1]里面。
  • 接下来的mBitsPerChannel表示的是一个声道的音频数据用多少位来表示,前面已经提到过每一个采样时候用Float来表示,因此这里使用8乘以每一个采样的字节数来赋值。
  • 最终是参数mBytesPerFrame和mBytesPerPacket的赋值,这里须要根据mFormatFlags的值来进行分配,若是在NonInterleaved的状况下,就赋值为bytesPerSamele(由于左右声道是分开存放的),这样才能表示一个Frame到底有多少个byte。

至此,咱们就彻底构造好了这个BasicDescription结构体,下面将这个结构体设置给对应的AudioUnit,代码以下:

AudioUnitSetProperty(remoteIOUnit,kAudioOutputUnitProperty_StreamFormat,kAudioUnitScope_output,1,&asbd,sizeof(asbd));
复制代码

AudioUnit的分类

介绍完了AudioUnit的通用设置以后,本节就来介绍一下AudioUnit的分类。iOS按照AudioUnit的用途将AudioUnit分为五大类型,本节将从全局的角度出发来认识各大类型以及其下的子类型,而且还会介绍他们的用途,以及对应参数的意义。

(1) Effect Unit

类型是kAudioUnitType_Effect,主要提供声音特效处理的功能。其子类型及用途说明以下。

  • 均衡效果器:子类型是kAudioUnitSubType_NBandEQ,主要做用是为声音的某些频带加强或者减弱能量,该效果器须要制定多个频带,而后为各个频带设置带宽设置宽度以及增益,最终将改变声音在频域上的能量分布。
  • 压缩效果器:子类型是kAudioUnitSubType_DynamicsProcessor,主要做用是当声音较小的时候能够提升声音的能量,当声音的能量草果设置的阈值时,能够下降声音的能量,固然应合理的设置做用时间、释放时间以及触发值,使得最终能够将声音在时域上的能量压缩到必定范围以内。
  • 混响效果器:子类型是kAudioUnitSubType_Reverb2,对于人声处理来说这是很是重要的效果器,能够想象本身身处在一个空房子中,若是有很是多的反射声和原始声叠加在一块儿,那么从听感上可能会更有震撼力,可是同时原始声音也会变得更加模糊,原始声音的细节会被遮盖住,因此混响的设置的大小对于不一样的人来说会很不一致,能够根据本身的喜爱来进行设置。 Effect Unit下最长使用的就是这三种效果器,固然其下还有不少子类型的效果器,像高通(HighPass)、低通(LowPass)、带通(BandPass)、延迟(Delay)、压限(Limiter)等效果器,你们能够自行尝试一下,感觉一下各自的效果。

(2) Mixer Units

类型是kAudioUnitType_Mixer,主要提供Mix多路声音的功能。其子类型及用途以下。

  • 3D Mixer:该效果器在移动设备上是没法使用的,仅仅在OS X上可使用,因此这里不作介绍。
  • MultiChannelMixer:子类型是kAudioUnitSubType_MultiChannelMixer,它是多路声音混音的效果器,能够接收多路音频的输入,还能够分别调整每一路音频的增益与开关,并将多路音频合并一路,该效果器在处理音频的图状结构中很是有用。

(3) I/O Units

类型是kAudioUnitType_Output,它的用途就像分类的名字同样,主要提供的就是I/O的功能。其子类型及用途说明以下。

  • RemoteIO:子类型是kAudioUnitSubType_RemoteIO,从名字上能够看出,这是用来采集音频和播放音频的,其实当开发者的应用场景中要使用麦克风及扬声器的时候会用到该AudioUnit.
  • Generic Output:子类型是kAudioUnitSubType_GenericOutput,当开发者须要进行离线处理,或者说在AUGraph中不适用Speaker(扬声器)来驱动整个数据流,而是但愿使用一个输出(能够放入内存队列或者进行磁盘I/O操做)来驱动数据时,就使用该类型。

(4) Format Converter Units

类型是kAudioUnitType_FormatConverter,主要用于提供格式转换的功能,好比:采样格式由Float到SInt16的转换、交错和平铺的格式转换、单双声道的转换等,其子类型及用途说明以下。

  • AUConverter:子类型是kAudioUnitSubType_AUConverter,格式转换效果器,当某些效果器对输入的音频格式由明确的要求时,或者开发者将音频数据输入给一些其余的编码器进行编码,又或者开发者想使用SInt16格式的PCM裸数据在其余CPU上进行音频算法计算等的场景下,就须要这个ConverterNode了。下面来看一个比较典型的场景,咱们自定义一个音频播放器,由FFmpeg解码出来的PCM数据是SInt16格式的,所以不能直接输出给RemoteIO Unit,最终才能正常播放出来。
  • Time Pinch:子类型是kAudioUnitSubType_NewTimePitch,即变速变调效果器,能够对声音的音高、速度进行调整。

(5) Generator Units

类型是kAudioUnitType_Generator,在开发中咱们常用它来提供播放器的功能,其子类型及用途说明以下。

  • AudioFilePlayer:子类型是kAudioUnitSubType_AudioFilePlayer,在AudioUnit里面,若是咱们的输入不是麦克风,而但愿其实一个媒体文件。须要注意的是,必须在初始化AUGraph以后,再去配置AudioFilePlayer的数据源以及播放范围等属性,不然就会出现错误,其实数据源仍是会调用AudioFile的解码功能,将媒体文件中的压缩数据解压成为PCM裸数据,最终再交给AudioFilePlayer Unit进行后续处理。

构造一个AUGraph

实际的K歌应用中,会对用户发出的声音进行处理,而且当即给用户一个耳返(在50ms以内将声音输出到二级中,让用户能够听到)。那么如何让RemoteIOUnit利用麦克风采集出来的声音,通过中间效果器的处理,最终输出到Speaker中播放给用户呢?下面就来介绍一下如何以AUGraph的方式将声音采集、声音处理以及声音输出的整个过程管理起来。

首先要知道数据能够在通道中传递是由最右端Speak(RemoteIO Unit)来驱动的,它会向其上一级——AUNode要数据,而后它的前一级继续向前一级要数据,并最终从RemoteIOUnit的Element1(即麦克风)中要数据,这样就能够将数据按相反的方向一级一级地传递下去,最终传递到RemoteIOUnit的Element0(即Speaker)并播放给用户听到。固然你想离线处理的时候应该由谁来进行驱动呢?其实在进行离线处理的时候应该使用Mixer Unit大类型下面子类型为Generic Output的AudioUnit来作驱动端。那么这些AudioUnit或者说AUNode是如何进行链接的呢?有两种方式,第一种方式是直接将AUNode链接起来;第二种方式是经过回调的方式将AUNode链接起来。

(1) 直接链接的方式

AUGraphConnectNodeInput(mPlayerGraph,mPlayerNode,0,mPlayerIONode,0);
复制代码

将Audio File Player Unit和RemotelIO Unit直接链接起来,当Remote Unit须要播放数据的时候,就会调用AudioFilePlay Unit来获取数据,这样就把这两个AudioUnit链接起来了。

(2) 回调的方式

AURenderCallbackStruct renderProc;
renderProc.inputProc = &inputAvailableCallback;
renderProc.inputProcRefCon = (__bridge void *)self;
AUGraphSetNodeInputCallback(mGraph,ioNode,0,&finalRenderProc);
复制代码

这段代码首先是构造一个AURenderCallBack的结构体,并制定一个回调函数,而后设置给RemoteIO Unit的输入端,当RemoteIO Unit须要数据输入的时候就会回调该回调函数,回调函数代码以下:

static OSStatus renderCallback(void *inRefCon,AudioUnitRenderActionFlags *ioActionFlags,const AudioTimeStamp *inTimeStamp,UInt32 inBusNumber,UInt32 inNumberFrames,AudioBufferList *ioData)
{
      OSStatus result = noErr;
      _unsafe_unretained AUGraphRecoder *THIS = (__bridge AUGraphRecorder *)inRefCon;
      AudioUnitRender(THIS->mixerUnit,ioActionFlags,inTimeStamp,0,isNumberFrames,ioData);
      result = ExtAudioFileWriteAsync(THIS->finalAudiofile,inNumberFrames,ioData);
      return result;
}
复制代码

该回调函数主要完成两件事情:第一件事情是去Mixer Unit里面要数据,经过调用AudioUnitRender的方式来驱动Mixer Unit获取数据,获得数据以后放入ioData中,从而填充回到方法中的参数,将Mixer Unit与RemoteIO unit链接了起来;第二件事情则是利用ExtAudioFile将这段声音编码并写入本地磁盘的一个文件中。

示例代码

这里(github.com/Nicholas86/…)是代码。

相关文章
相关标签/搜索