C# fmpeg加虹软的人脸识别demo

时间 2019-11-19

标签 c# fmpeg 识别 demo 栏目 C# 繁體版

原文原文链接

对开发库的C#封装，屏蔽使用细节，能够快速安全的调用人脸识别相关API。具体见github地址。新增对.NET Core的支持，在Linux（Ubuntu下）测试经过。具体的使用例子和Demo详解，参见博客地址。git

更新：增长对V1.1两个新功能的支持。github

关于人脸识别目前的人脸识别已经相对成熟，有各类收费免费的商业方案和开源方案，其中OpenCV很早就支持了人脸识别，在我选择人脸识别开发库时，也横向对比了三种库，包括在线识别的百度、开源的OpenCV和商业库虹软（中小型规模免费）。数据库

百度的人脸识别，才上线不久，文档不太完善，以前联系百度，官方也给了我基于Android的Example，可是不太符合个人需求，一是照片须要上传至百度服务器（这个是最大的问题），其次，人脸的定位须要自行去实现（捕获到人脸后上传进行识别）。数组

OpenCV很早之前就用过，当时作人脸+车牌识别时，最早考虑的就是OpenCV，可是识别率在当时不算很高，后来是采用了一个电子科大的老师自行开发的识别库（相对易用，识别率也还不错），因此此次准备作时，没有选择OpenCV。缓存

虹软其实在无心间发现的，当时正在寻找开发库，正在测试Python的一个方案，就发现有新闻说虹软的识别库全面开放而且能够无偿使用，并且是离线识别，因此就下载尝试了一下，发现识别率还不错，因此就暂定了采用虹软的识别方案。这里主要就给你们分享一下开发过程中的一些坑和使用心得，顺便开源识别库的C# Wrapper。安全

SDK的C# Wrapper 因为虹软的库是采用C++开发的，而个人应用程序采用的是C#，因此，须要对库进行包装，便于C#的调用，包装的主要需求是能够在C#中快速方便的调用，无需考虑内存、指针等问题，而且具有必定的容错性。Wrapper库目前已经开源，你们能够到Github上进行下载，地址点击这里。Wrapper库基本上没有什么能够说的，无非是对PInvoke的包装，只是里面作了比较多的细节处理，屏蔽了调用细节，提供了相对高层的函数。有兴趣的能够看看源代码。服务器

Wrapper库的使用例子基本使用多线程

注意使用以前，在虹软申请了新的Key后，须要同时更新libs下的三个dll文件，key和sdk的版本是相关联的，不然会抛出异常。app

人脸检测（静态图片）：分布式

using (var detection = LocatorFactory.GetDetectionLocator("appId", "sdkKey"))
{
    var image = Image.FromFile("test.jpg");
    var bitmap = new Bitmap(image);

    var result = detection.Detect(bitmap, out var locateResult);
    //检测到位置信息在使用完毕后，须要释放资源，避免内存泄露
    using (locateResult)
    {
        if (result == ErrorCode.Ok && locateResult.FaceCount > 0)
        {
            using (var g = Graphics.FromImage(bitmap))
            {
                var face = locateResult.Faces[0].ToRectangle();
                g.DrawRectangle(new Pen(Color.Chartreuse), face.X, face.Y, face.Width, face.Height);
            }

            bitmap.Save("output.jpg", ImageFormat.Jpeg);
        }
    }
}

人脸跟踪（人脸跟踪通常用于视频的连续帧识别，相较于检测，又更高的执行效率，这里用静态图片作例子，实际使用和检测没啥区别）：

using (var detection = LocatorFactory.GetTrackingLocator("appId", "sdkKey"))
{
    var image = Image.FromFile("test.jpg");
    var bitmap = new Bitmap(image);

    var result = detection.Detect(bitmap, out var locateResult);
    using (locateResult)
    {
        if (result == ErrorCode.Ok && locateResult.FaceCount > 0)
        {
            using (var g = Graphics.FromImage(bitmap))
            {
                var face = locateResult.Faces[0].ToRectangle();
                g.DrawRectangle(new Pen(Color.Chartreuse), face.X, face.Y, face.Width, face.Height);
            }

            bitmap.Save("output.jpg", ImageFormat.Jpeg);
        }
    }
}

人脸对比：

using (var proccesor = new FaceProcessor("appid",
                "locatorKey", "recognizeKey", true))
{
    var image1 = Image.FromFile("test2.jpg");
    var image2 = Image.FromFile("test.jpg");

    var result1 = proccesor.LocateExtract(new Bitmap(image1));
    var result2 = proccesor.LocateExtract(new Bitmap(image2));

    //FaceProcessor是个整合包装类，集成了检测和识别，若是要单独使用识别，可使用FaceRecognize类
    //这里作演示，假设图片都只有一张脸
    //能够将FeatureData持久化保存，这个便是人脸特征数据，用于后续的人脸匹配
    //File.WriteAllBytes("XXX.data", feature.FeatureData);FeatureData会自动转型为byte数组

    if ((result1 != null) & (result2 != null))
        Console.WriteLine(proccesor.Match(result1[0].FeatureData, result2[0].FeatureData, true));
}

使用注意事项

LocateResult（检测结果）和Feature（人脸特征）都包含须要释放的内存资源，在使用完毕后，记得须要释放，不然会引发内存泄露。FaceProcessor和FaceRecognize的Match函数，在完成比较后，能够自动释放，只须要最后两个参数指定为true便可，若是是用于人脸匹配（1:N），则能够采用默认参数，这种状况下，第一个参数指定的特征数据不会自动释放，用于循环和特征库的特征进行比对。

整合的完整例子在Github上，有完整的FaceDemo例子，里面主要实现了经过ffmpeg采集RTSP协议的图像（使用海康的摄像机），而后进行人脸匹配。在开发过程当中遇到很多的坑。

人脸识别的首要工做就是捕获摄像机视频帧，这一块上是坑的最久的，由于最开始采用的是OpenCV的包装库，Emgu.CV，在开发过程当中，捕获USB摄像头时，却是问题不大，没有出现过异常。在捕获RTSP视频流时，会不定时的出现AccessviolationException异常，短则几十分钟，长则几个小时，总之就是不稳定。在官方Github地址上，也提了Issue，他们给出的答复是屏蔽的我业务逻辑，仅捕获视频流试试，结果问题依然，因此，我基本坑定了试Emgu.CV上面的问题。后来通过反复的实验，最终肯定了选择ffmpeg。

ffmepg主要采用ProcessStartInfo进行调用，我采用的是NReco.VideoConverter（一个ffmpeg调用的包装，能够经过nuget搜索安装），虽然ffmpeg解决了稳定性问题，可是实际开发时，也遇到了很多坑，其中，最主要的是NReco.VideoConverter没有任何文档和例子（实际有，须要75刀购买），因此，本身研究了半天，如何捕获视频流并转换为Bitmap对象。只要实现这一步，后续就是调用Wrapper就好了。

FaceDemo详解

上面说到了，经过ffmpeg捕获视频流并转换Bitmap是重点，因此，这里也主要介绍这一块。

首先是ffmpeg的调用参数：

var setting =
new ConvertSettings
{
    CustomOutputArgs = "-an -r 15 -pix_fmt bgr24 -updatefirst 1"
}; //-s 1920x1080 -q:v 2 -b:v 64k

task = ffmpeg.ConvertLiveMedia("rtsp://admin:12qwaszxA@192.168.1.64:554/h264/ch1/main/av_stream", null,
outputStream, Format.raw_video, setting);
task.OutputDataReceived += DataReceived;
task.Start();

-an表示不捕获音频流，-r表示帧率，根据需求和实际设备调整此参数，-pix_fmt比较重要，通常状况下，指定为bgr24不会有太大问题（仍是看具体设备），以前就是用成了rgb24，结果捕获出来的图像，人都变成阿凡达了，颜色是反的。最后一个参数，坑的我差点放弃这个方案。自己，ffmpeg在调用时，须要指定一个文件名模板，捕获到的输出会按照模板生成文件，若是要将数据输出到控制台，则最后传入一个-便可，最开始没有指定updatefirst，ffmpeg在捕获了第一帧后就抛出了异常，最后查了半天ffmpeg说明（完整参数说明很是多，输出到文本有1319KB），发现了这个参数，表示持续更新第一个文件。最后，在调用视频捕获是，须要指定输出格式，必须指定为Format.raw_video，实际上这个格式名称有些误导人，按道理将应该叫作raw_image，由于最终输出的是每帧原始的位图数据。

到此为止，还并无解决视频流数据的捕获，由于又来一个坑，ProcessStartInfo的控制台缓冲区大小只有32768 bytes，即，每一次的输出，实际上并非一个完整的位图数据。

//完整代码参加Github源代码
//代码片断1
private Bitmap _image;
private IntPtr _pImage;

{
    _pImage = Marshal.AllocHGlobal(1920 * 1080 * 3);
    _image = new Bitmap(1920, 1080, 1920 * 3, PixelFormat.Format24bppRgb, _pImage);
}

//代码片断2
private MemoryStream outputStream;

private void DataReceived(object sender, EventArgs e)
{
    if (outputStream.Position == 6220800)
        lock (_imageLock)
        {
            var data = outputStream.ToArray();

            Marshal.Copy(data, 0, _pImage, data.Length);

            outputStream.Seek(0, SeekOrigin.Begin);
        }
}

花了很多时间摸索（不要看只有几行，人都整崩溃了），得出了上述代码。首先，我捕获的图像数据是24位的，而且图像大小是1080p的，因此，实际上，一个原始位图数据的大小为stride * height，即width * 3 * height，大小为6220800 bytes。因此，在判断了捕获数据到达这个大小后，就进行Bitmap转换处理，而后将MemoryStream的位置移动到最开始。须要注意的时，因为捕获到的是原始数据（不包含bmp的HeaderInfo），因此注意看Bitmap的构造方式，是经过一个指向原始数据位置的指针就行构造的，更新该图像时，也仅须要更新指针指向的位置数据便可，无需在创建新的Bitmap实例。

位图数据获取到了，就能够进行识别处理了，高高兴兴的加上了识别逻辑，可是现实老是充满了意外和惊喜，没错，坑又来了。没有加入识别逻辑的时候，捕获到的图像在PictureBox上显示很是正常，清晰、流畅，加上识别逻辑后，开始出现花屏（捕获到的图像花屏）、拖影、显示延迟（至少会延迟10-20秒以上）、程序卡顿，总之就是各类问题。最开始，个人识别逻辑写到DataReceived方法里面的，这个方法是运行于主线程外的另外一个线程中的，其实按道理将，捕获、识别、显示位于一个线程中，应该是不会出现问题，我估计（不肯定，没有去深刻研究，若是谁知道实际缘由，能够留言告诉我），是由于ffmpeg的缘由，由于ffmpeg是单独的一个进程在跑，他的数据捕获是持续在进行的，而识别模块的处理时间大于每一帧的采集时间，因此，缓冲区中的数据没有获得及时处理，ffmpeg接收到的部分图像数据（大于32768的数据）被丢弃了，而后就出现了各类问题。最后，又是一次耗时不短的探索之旅。

private void Render()
{
    while (_renderRunning)
    {
        if (_image == null)
            continue;

        Bitmap image;

        lock (_imageLock)
        {
            image = (Bitmap) _image.Clone();
        }

        if (_shouldShot){
            WriteFeature(image);
            _shouldShot = false;
        }

        Verify(image);

        if (videoImage.InvokeRequired)
            videoImage.Invoke(new Action(() => { videoImage.Image = image; }));
        else
            videoImage.Image = image;
    }
}

如上代码所述，我单独开了一个线程，用于图像的识别处理和显示，每次都从已捕获到的图像中克隆出新的Bitmap实例进行处理。这种方式的缺点在于，有可能会致使丢帧的现象，由于上面说到了，识别时间（若是检测到新的人脸，那么加上匹配，大约须要130ms左右）大于每帧时间，可是并不影响识别效果和需求的实现，基本丢弃的帧能够忽律。最后，运行，稳定了、完美了，实际也感受不到丢帧。

Demo程序，我运行了大约4天左右，中间没有出现过任何异常和识别错误。

写在最后虽然虹软官方表示，免费识别库适用于1000人脸库如下的识别，实际上，作必定的工做（工做量其实也不小），也是能够实现较大规模的人脸搜索滴。例如，采用多线程进行匹配，若是人脸库人脸数量大于1000，则能够考虑每一个线程分别进行处理，人脸特征数据作缓存（一我的脸的特征数据是22KB，对内存要求较高），以提高程序的识别搜索效率。或者人脸库特别大的状况下，能够采用分布式处理，人脸特征加载到Redis数据库当中，多个进程多个线程读取处理，每一个线程上传本身的识别结果，而后主进程作结果合并判断工做，主要的挑战就在于多线程的工做分配一致性和对单点故障的容错性。

更新：

DEMO中的例子采用了IP Camera，通常状况下，你们可能用USB Camera居多，因此，更新了源代码，增长了USB Camera的例子，只须要屏蔽掉IP Camara代码便可。

task = ffmpeg.ConvertLiveMedia(“video=USB2.0 PC CAMERA”, “dshow”, outputStream, Format.raw_video, setting); 须要注意的有如下几点：

设备名称能够经过控制面板或者ffmpeg的命令获取：ffmpeg -list_devices true -f dshow -i dummy 注意修改捕获的图像大小，通常USB摄像头是640*480，更新的代码增长了全局变量，能够直接修改。若是要查询USB摄像头支持的分辨率，也能够经过ffmpeg命令：ffmpeg -list_options true -f dshow -i video=”USB2.0 PC CAMERA” 更新2：

源代码中新增了对 .net core 2.0的支持，由于用到了GDI+相关函数，因此用的是CoreCompat/System.Drawing，因此在部署环境下须要安装libgdiplus, apt-get intall libgdiplus。

另外，有关于视频流的采集，除了使用FFMEPG和一些开源的开发库外，也可使用厂商的SDK，不过以前试过海康的SDK，那叫一个难用啊，因此你们本身选择吧。

更新3：虹软SDK更新了新的功能，开发包同步更新，支持年龄和性别的评估。