Audio Queue 采集音频实战(支持不一样格式)

时间 2019-11-06

标签 audio queue 采集音频实战支持不一样格式栏目网络爬虫繁體版

原文原文链接

需求

iOS中使用Audio Queue实现音频数据采集,直接采集PCM无损数据或AAC及其余压缩格式数据.ios

实现原理

使用Audio Queue采集硬件输入端,如麦克风,其余外置具有麦克风功能设备(带麦的耳机,话筒等,前提是其自己要和苹果兼容).git

阅读前提

Core Audio基本原理:简书,掘金,博客
Audio Queue概念篇:简书,掘金,博客
Audio Session基础:简书,掘金,博客
音视频基础知识
C,C++基本知识

本文直接为实战篇,如需了解理论基础参考上述连接中的内容,本文侧重于实战中注意点.

本项目实现低耦合,高内聚,因此直接将相关模块拖入你的项目设置参数就可直接使用.

GitHub地址(附代码) : Audio Queue Capture

具体实现

1.代码结构

如上所示,咱们整体分为两大类,一个是负责采集的类,一个是负责作音频录制的类,你能够根据需求在适当时机启动,关闭Audio Queue, 而且在Audio Queue已经启动的状况下能够进行音频文件录制,前面需求仅仅须要以下四个API便可完成.github

// Start / Stop Audio Queue
[[XDXAudioQueueCaptureManager getInstance] startAudioCapture];
[[XDXAudioQueueCaptureManager getInstance] stopAudioCapture];

// Start / Stop Audio Record
[[XDXAudioQueueCaptureManager getInstance] startRecordFile];
[[XDXAudioQueueCaptureManager getInstance] stopRecordFile];
复制代码

2.定义类中常量变量

如下两个参数描述在采集PCM数据时对于iOS平台而言必须填入的信息

#define kXDXAudioPCMFramesPerPacket 1
#define kXDXAudioPCMBitsPerChannel 16
复制代码

定义一个结构体存储音频相关属性,包括音频流格式,Audio Queue引用及Audio Queue队列中所使用的全部buffer组成的数据.

struct XDXRecorderInfo {
    AudioStreamBasicDescription  mDataFormat;
    AudioQueueRef                mQueue;
    AudioQueueBufferRef          mBuffers[kNumberBuffers];
};
typedef struct XDXRecorderInfo *XDXRecorderInfoType;
复制代码

定义一个全局变量判断当前Audio Queue是否正在工做.另外一个变量为当前是否正在录制

@property (nonatomic, assign, readonly) BOOL isRunning;
@property (nonatomic, assign) BOOL isRecordVoice;
复制代码

注意

由于Audio Queue中自己就是用纯C语言实现的,因此它会直接调用一些函数,咱们必需要理解函数跟OC方法的区别,以及指针的概念,由于函数中会出现一些相似&运算符,这里能够简单给你们介绍下以便小白阅读. &就是获取某个对象的内存地址,使用它主要为了知足让Audio Queue的API能够将其查询到的值直接赋给这段内存地址,好比下面会讲到的AudioSessionGetProperty查询方法中就是这样将查询出来的值赋值给咱们定义的全局静态变量的.macos

2.初始化并启动Audio Queue

本例经过XDXSingleton实现单例模式,即头文件中使用SingletonH,实现文件中使用SingletonM便可,关于单例的实现自行百度.

为何使用单例,由于iPhone中输入端只能接收一个音频输入设备,因此若是使用Audio Queue采集,该采集对象在应用程序声明周期内应该是单一存在的,因此使用单例实现.缓存

首先为记录音频信息的指向结构体的指针分配内存空间

+ (void)initialize {
    m_audioInfo = malloc(sizeof(struct XDXRecorderInfo));
}

复制代码

下面定义了公共启动接口,你能够直接在其中设置你须要的音频参数,如音频数据格式为PCM仍是AAC,采样率大小,声道数,采样时间等.

- (void)startAudioCapture {
    [self startAudioCaptureWithAudioInfo:m_audioInfo
                                 formatID:kAudioFormatMPEG4AAC // kAudioFormatLinearPCM
                               sampleRate:44100
                             channelCount:1
                              durationSec:0.05
                                isRunning:&_isRunning];
}

复制代码

3. 设置音频流数据格式

注意点

须要注意的是,音频数据格式与硬件直接相关,若是想获取最高性能,最好直接使用硬件自己的采样率,声道数等音频属性,因此,如采样率,当咱们手动进行更改后,Audio Queue会在内部自行转换一次,虽然代码上没有感知,但必定程序上仍是下降了性能.bash

iOS中不支持直接设置双声道,若是想模拟双声道,能够自行填充音频数据,具体会在之后的文章中讲到,喜欢请持续关注.数据结构

获取音频属性值

理解AudioSessionGetProperty函数,该函数代表查询当前硬件指定属性的值,以下,kAudioSessionProperty_CurrentHardwareSampleRate为查询当前硬件采样率,kAudioSessionProperty_CurrentHardwareInputNumberChannels为查询当前采集的声道数.由于本例中使用手动赋值方式更加灵活,因此没有使用查询到的值.函数

设置不一样格式定制的属性

首先,你必须了解未压缩格式(PCM...)与压缩格式(AAC...). 使用iOS直接采集未压缩数据是能够直接拿到硬件采集到的数据,而若是直接设置如AAC这样的压缩数据格式,其原理是Audio Queue在内部帮咱们作了一次转换,具体原理在本文开篇中的阅读前提中去查阅.oop

使用PCM数据格式必须设置采样值的flag:mFormatFlags,每一个声道中采样的值换算成二进制的位宽mBitsPerChannel,iOS中每一个声道使用16位的位宽,每一个包中有多少帧mFramesPerPacket,对于PCM数据而言,由于其未压缩,因此每一个包中仅有1帧数据.每一个包中有多少字节数(即每一帧中有多少字节数),能够根据以下简单计算得出post

注意,若是是其余压缩数据格式,大多数不须要单独设置以上参数,默认为0.这是由于对于压缩数据而言,每一个音频采样包中压缩的帧数以及每一个音频采样包压缩出来的字节数多是不一样的,因此咱们没法预知进行设置,就像mFramesPerPacket参数,由于压缩出来每一个包具体有多少帧只有压缩完成后才能得知.

audioInfo->mDataFormat = [self getAudioFormatWithFormatID:formatID
                                                   sampleRate:sampleRate
                                                 channelCount:channelCount];
                                                 
                                                 
-(AudioStreamBasicDescription)getAudioFormatWithFormatID:(UInt32)formatID sampleRate:(Float64)sampleRate channelCount:(UInt32)channelCount {
    AudioStreamBasicDescription dataFormat = {0};
    
    UInt32 size = sizeof(dataFormat.mSampleRate);
    // Get hardware origin sample rate. (Recommended it)
    Float64 hardwareSampleRate = 0;
    AudioSessionGetProperty(kAudioSessionProperty_CurrentHardwareSampleRate,
                            &size,
                            &hardwareSampleRate);
    // Manual set sample rate
    dataFormat.mSampleRate = sampleRate;
    
    size = sizeof(dataFormat.mChannelsPerFrame);
    // Get hardware origin channels number. (Must refer to it)
    UInt32 hardwareNumberChannels = 0;
    AudioSessionGetProperty(kAudioSessionProperty_CurrentHardwareInputNumberChannels,
                            &size,
                            &hardwareNumberChannels);
    dataFormat.mChannelsPerFrame = channelCount;
    
    // Set audio format
    dataFormat.mFormatID = formatID;
    
    // Set detail audio format params
    if (formatID == kAudioFormatLinearPCM) {
        dataFormat.mFormatFlags     = kLinearPCMFormatFlagIsSignedInteger | kLinearPCMFormatFlagIsPacked;
        dataFormat.mBitsPerChannel  = kXDXAudioPCMBitsPerChannel;
        dataFormat.mBytesPerPacket  = dataFormat.mBytesPerFrame = (dataFormat.mBitsPerChannel / 8) * dataFormat.mChannelsPerFrame;
        dataFormat.mFramesPerPacket = kXDXAudioPCMFramesPerPacket;
    }else if (formatID == kAudioFormatMPEG4AAC) {
        dataFormat.mFormatFlags = kMPEG4Object_AAC_Main;
    }

    NSLog(@"Audio Recorder: starup PCM audio encoder:%f,%d",sampleRate,channelCount);
    return dataFormat;
}
复制代码

4. 初始化并为Audio Queue分配内存

上面步骤中咱们已经拿到音频流数据格式,使用AudioQueueNewInput函数能够将建立出来的Audio Queue对象赋值给咱们定义的全局变量,另外还指定了CaptureAudioDataCallback采集音频数据回调函数的名称.回调函数的定义必须听从以下格式.由于系统会将采集到值赋值给此函数中的参数,函数名称能够本身指定.

typedef void (*AudioQueueInputCallback)(
                                    void * __nullable               inUserData,
                                    AudioQueueRef                   inAQ,
                                    AudioQueueBufferRef             inBuffer,
                                    const AudioTimeStamp *          inStartTime,
                                    UInt32                          inNumberPacketDescriptions,
                                    const AudioStreamPacketDescription * __nullable inPacketDescs);
复制代码

// New queue
    OSStatus status = AudioQueueNewInput(&audioInfo->mDataFormat,
                                         CaptureAudioDataCallback,
                                         (__bridge void *)(self),
                                         NULL,
                                         kCFRunLoopCommonModes,
                                         0,
                                         &audioInfo->mQueue);
    
    if (status != noErr) {
        NSLog(@"Audio Recorder: AudioQueueNewInput Failed status:%d \n",(int)status);
        return NO;
    }
    
复制代码

如下是AudioQueueNewInput函数的定义

inFormat: 音频流格式
inCallbackProc: 设置回调函数
inUserData: 开发者本身定义的任何数据,通常将本类的实例传入,由于回调函数中没法直接调用OC的属性与方法,此参数能够做为OC与回调函数沟通的桥梁.即传入本类对象.
inCallbackRunLoop: 回调函数在哪一个循环中被调用.设置为NULL为默认值,即回调函数所在的线程由audio queue内部控制.
inCallbackRunLoopMode: 回调函数运行循环模式一般使用kCFRunLoopCommonModes.
inFlags: 系统保留值,只能为0.
outAQ:将建立好的audio queue赋值给填入对象.

extern OSStatus             
AudioQueueNewInput(                 const AudioStreamBasicDescription *inFormat,
                                    AudioQueueInputCallback         inCallbackProc,
                                    void * __nullable               inUserData,
                                    CFRunLoopRef __nullable         inCallbackRunLoop,
                                    CFStringRef __nullable          inCallbackRunLoopMode,
                                    UInt32                          inFlags,
                                    AudioQueueRef __nullable * __nonnull outAQ)          API_AVAILABLE(macos(10.5), ios(2.0), watchos(2.0), tvos(9.0));
复制代码

5. 获取设置的音频流格式

用如下方法验证获取到音频格式是否与咱们设置的相符.

// Set audio format for audio queue
    UInt32 size = sizeof(audioInfo->mDataFormat);
    status = AudioQueueGetProperty(audioInfo->mQueue,
                                   kAudioQueueProperty_StreamDescription,
                                   &audioInfo->mDataFormat,
                                   &size);
    if (status != noErr) {
        NSLog(@"Audio Recorder: get ASBD status:%d",(int)status);
        return NO;
    }
复制代码

6. 计算Audio Queue中每一个buffer的大小

该计算要区分压缩与未压缩数据.

压缩数据

只能进行估算,即用采样率与采样时间相乘,可是须要注意由于直接设置采集压缩数据(如AAC),至关因而Audio Queue在内部本身进行一次转换,而像AAC这样的压缩数据,每次至少须要1024个采样点(即采样时间最小为23.219708 ms)才能完成一个压缩,因此咱们不能将buffer size设置太小,不信能够本身尝试,若是设置太小直接crash.

而咱们计算出来的这个大小只是原始数据的大小,通过压缩后每每低于咱们计算出来的这个值.能够在回调中打印查看.

未压缩数据

对于未压缩数据,咱们时能够经过计算精确得出采样的大小. 即以下公式

// Set capture data size
    UInt32 bufferByteSize;
    if (audioInfo->mDataFormat.mFormatID == kAudioFormatLinearPCM) {
        int frames = (int)ceil(durationSec * audioInfo->mDataFormat.mSampleRate);
        bufferByteSize = frames*audioInfo->mDataFormat.mBytesPerFrame*audioInfo->mDataFormat.mChannelsPerFrame;
    }else {
        // AAC durationSec MIN: 23.219708 ms
        bufferByteSize = durationSec * audioInfo->mDataFormat.mSampleRate;
        
        if (bufferByteSize < 1024) {
            bufferByteSize = 1024;
        }
    }
复制代码

7. 内存分配,入队

关于audio queue,能够理解为一个队列的数据结构,buffer就是队列中的每一个结点.具体设计请参考文中阅读前提中的概念篇.

官方建议咱们将audio queue中的buffer设置为3个,由于,一个用于准备去装数据,一个正在使用的数据以及若是出现I/0缓存时还留有一个备用数据,设置过少,采集效率可能变低,设置过多浪费内存,3个刚恰好.

以下操做就是先为队列中每一个buffer分配内存,而后将分配好内存的buffer作入队操做,准备接收音频数据

// Allocate and Enqueue
    for (int i = 0; i != kNumberBuffers; i++) {
        status = AudioQueueAllocateBuffer(audioInfo->mQueue,
                                              bufferByteSize,
                                          &audioInfo->mBuffers[i]);
        if (status != noErr) {
            NSLog(@"Audio Recorder: Allocate buffer status:%d",(int)status);
        }
        
        status = AudioQueueEnqueueBuffer(audioInfo->mQueue,
                                         audioInfo->mBuffers[i],
                                         0,
                                         NULL);
        if (status != noErr) {
            NSLog(@"Audio Recorder: Enqueue buffer status:%d",(int)status);
        }
    }
复制代码

8. 启动Audio Queue

第二个参数设置为NULL表示当即开始采集数据.

status = AudioQueueStart(audioInfo->mQueue, NULL);
    if (status != noErr) {
        NSLog(@"Audio Recorder: Audio Queue Start failed status:%d \n",(int)status);
        return NO;
    }else {
        NSLog(@"Audio Recorder: Audio Queue Start successful");
        *isRunning = YES;
        return YES;
    }
复制代码

9. 回调函数中接收音频数据.

若是上面的操做所有执行成功,最终系统会将采集到的音频数据以回调函数形式返回给开发者,以下.

inUserData: 注册回调函数时传入的开发者自定义的对象
inAQ: 当前使用的Audio Queue
inBuffer: Audio Queue产生的音频数据
inStartTime其中包含音频数据产生的时间戳
inNumberPacketDescriptions: 数据包描述参数.若是你正在录制VBR格式,音频队列会提供此参数的值.若是录制文件须要将其传递给AudioFileWritePackets函数.CBR格式不使用此参数(值为0).
inPacketDescs: 音频数据中一组packet描述.若是是VBR格式数据,若是录制文件须要将此值传递给AudioFileWritePackets函数

经过回调函数,就能够拿到当前采集到的音频数据,你能够对数据作你须要的任何自定义操做.如下以写入文件为例,咱们在拿到音频数据后,将其写入音频文件.

static void CaptureAudioDataCallback(void *                                 inUserData,
                                     AudioQueueRef                          inAQ,
                                     AudioQueueBufferRef                    inBuffer,
                                     const AudioTimeStamp *                 inStartTime,
                                     UInt32                                 inNumPackets,
                                     const AudioStreamPacketDescription*    inPacketDesc) {
    
    XDXAudioQueueCaptureManager *instance = (__bridge XDXAudioQueueCaptureManager *)inUserData;
    
    /*  Test audio fps
    static Float64 lastTime = 0;
    Float64 currentTime = CMTimeGetSeconds(CMClockMakeHostTimeFromSystemUnits(inStartTime->mHostTime))*1000;
    NSLog(@"Test duration - %f",currentTime - lastTime);
    lastTime = currentTime;
    */
    
    // NSLog(@"Test data: %d,%d,%d,%d",inBuffer->mAudioDataByteSize,inNumPackets,inPacketDesc->mDataByteSize,inPacketDesc->mVariableFramesInPacket);
    
    if (instance.isRecordVoice) {
        UInt32 bytesPerPacket = m_audioInfo->mDataFormat.mBytesPerPacket;
        if (inNumPackets == 0 && bytesPerPacket != 0) {
            inNumPackets = inBuffer->mAudioDataByteSize / bytesPerPacket;
        }
        
        [[XDXAudioFileHandler getInstance] writeFileWithInNumBytes:inBuffer->mAudioDataByteSize
                                                      ioNumPackets:inNumPackets
                                                          inBuffer:inBuffer->mAudioData
                                                      inPacketDesc:inPacketDesc];
    }
    
    if (instance.isRunning) {
        AudioQueueEnqueueBuffer(inAQ, inBuffer, 0, NULL);
    }
}
复制代码

10. 中止Audio Queue并回收内存

AudioQueueStop: 中止当前audio queue
AudioQueueFreeBuffer: 释放audio queue中每一个buffer
AudioQueueDispose: 释放audio queue

如下函数调用具备前后顺序,咱们必须先停掉audio queue,才能释放其中buffer的内存,最后再将整个audio queue完全释放.

-(BOOL)stopAudioQueueRecorderWithAudioInfo:(XDXRecorderInfoType)audioInfo isRunning:(BOOL *)isRunning {
    if (*isRunning == NO) {
        NSLog(@"Audio Recorder: Stop recorder repeat \n");
        return NO;
    }
    
    if (audioInfo->mQueue) {
        OSStatus stopRes = AudioQueueStop(audioInfo->mQueue, true);
        
        if (stopRes == noErr){
            for (int i = 0; i < kNumberBuffers; i++)
                AudioQueueFreeBuffer(audioInfo->mQueue, audioInfo->mBuffers[i]);
        }else{
            NSLog(@"Audio Recorder: stop AudioQueue failed.");
            return NO;
        }
        
        OSStatus status = AudioQueueDispose(audioInfo->mQueue, true);
        if (status != noErr) {
            NSLog(@"Audio Recorder: Dispose failed: %d",status);
            return NO;
        }else {
            audioInfo->mQueue = NULL;
            *isRunning = NO;
            //        AudioFileClose(mRecordFile);
            NSLog(@"Audio Recorder: stop AudioQueue successful.");
            return YES;
        }
    }
    
    return NO;
}

复制代码

11. 音频文件录制

此部分可参考另外一篇文章: 音频文件录制

简书地址 : Audio File Record
掘金地址 : Audio File Record
博客地址 : Audio File Record

补充

当音频数据为压缩数据时,原本能够经过一个函数求出每一个音频数据包中最大的音频数据大小,以进一步求出buffer size,但不知为什么调用一直失败,因此在上述第6步中我才换了种方式估算.若是有人知道能够评论补充下,感谢.

UInt32 propertySize = sizeof(maxPacketSize);
            OSStatus status     = AudioQueueGetProperty(audioQueue,
                                                        kAudioQueueProperty_MaximumOutputPacketSize,
                                                        &maxPacketSize,
                                                        &propertySize);
            if (status != noErr) {
                NSLog(@"%s: get max output packet size failed:%d",__func__,status);
            }
复制代码