【AI创新者】小蚁首架张骏峰：让图像AI人尽可用转载

时间 2019-12-14

标签 AI创新者首架图像尽可转载繁體版

原文原文链接

张骏峰，小蚁科技首席架构师，负责小蚁AI图像相关算法架构。主要包括：小蚁智能摄像机的智能报警服务、小蚁智能行车记录仪的辅助驾驶ADAS服务、小蚁运动相机App的图像风格迁移技术以及小蚁微单App的图像视频编辑技术。其团队包括移动开发、前端、后台、算法，成员分布在北京及以色列。张骏峰于2015年加入小蚁，此前，张就任于微软长达14年，参与过Windows, .Net Framework, MSN, Office, Lync, Skype等产品的研发工做。前端

小蚁科技成立于2013年，是一家年轻的互联网硬件企业。小蚁专一探索智能、可穿戴、移动化的新型视频类智能电子产品的开发，产品包括小蚁智能摄像机系列、小蚁行车记录仪系列、小蚁运动相机系列、小蚁微单相机等智能硬件产品，以及和谷歌合做的YI Jump 360°3D VR拍摄设备。同时，小蚁还有一系列的移动应用和服务，帮助用户更好地使用小蚁设备。算法

CSDN：骏峰您好，小蚁的产品主打视觉。那么首先请您向你们介绍一下，在小蚁智能摄像机上，与AI相关的技术有哪些？小程序

张骏峰：咱们在小蚁智能摄像机上提供了多种智能服务。微信小程序

智能报警安全

大部分的智能摄像机都提供移动侦测服务。当摄像机检测到画面有大幅变更的时候，服务器会向用户推送一条报警消息。服务器

小蚁智能摄像机提供了一样的服务，同时，在报警的时候，向服务器上传了一张图片，和一段6秒钟的视频。这样即便有人把摄像机拿走了，用户仍是能够看到发生了什么事。微信

传统的移动侦测方案，灵敏度是一个很难解决的问题。若是灵敏度过高，用户会收到过多的无效报警，可能会错太重要信息。若是灵敏度过低，会有重要事件发现而用户收不到报警的状况。咱们提供了一个拉杆，用户能够在高，中，低灵敏度选择。网络

咱们还提供了一种人形检测的升级方案。当用户把这个升级方案的开关打开后，若是检测到画面有大幅改动，摄像机会继续对画面进行进一步检测，只有在摄像机认为画面中有人，才会通知服务器给用户推送报警信息。这样能够大大减小误报的状况。架构

小蚁智能摄像机还提供了宝宝哭声检测。若是摄像机检测到持续的宝宝哭声，也会向用户推送报警。并发

手势识别

小蚁智能摄像机还提供了手势识别功能。当用户在摄像机面前作出“摊开手掌-而后握拳”的组合动做时，摄像机会自动录制10秒视频，推送给手机App用户。我家小孩特别喜欢这个功能，有事没事他就会试一下这个功能，而后给我表演一段僵尸舞。

选择“摊开手掌-而后握拳”这样一个组合，是为了减小误触发。

咱们还在研究其余AI技术，好比人脸检测，人脸识别，物体识别，如何经济实惠地让这些新技术给用户带来价值。

CSDN：除智能摄像机以外，小蚁也发售行车记录仪。那么在小蚁行车记录仪上，与AI相关的技术有哪些？

张骏峰：咱们在小蚁行车记录仪上为用户提供ADAS智能安全提醒系统，有效提供安全提醒并实时纠正驾驶行为。主要是两个功能：车道偏移预警，前车距离监测

车道偏移预警

当车辆在高速上行驶时，若是行车记录仪检测到车辆偏移道路时，会提醒用户车辆已经偏移道路。

前车距离监测

行车时，若是行车记录仪检测到离前车距离愈来愈近，超过必定阈值时，会提醒用户注意保持车辆距离。

CSDN：在上述两种产品的模型训练过程当中，训练集与测试集从何而来，采用何种网络及框架，在系统调优方面有何技巧？

张骏峰：开源的数据集和开源代码提供了基础的训练集和测试集。

可是这样的数据集训练出来的模型，放在小蚁的产品上，出来的效果不是很满意。

咱们是有一批内测摄像头，免费送给用户。用户看到有意思的状况，分享给咱们。内测用户不少是小蚁员工。咱们根据用户提供的数据，调整模型，更新算法。

在实际产品上，咱们采用的是一种“端+云”的混合方式。端上先作一部分筛选，云上再作进一步的处理。

限于硬件的计算能力，端上目前是用传统方法处理。

云上，咱们如今使用的是YOLO模型，基于咱们本身的状况，作了一些优化。

CSDN：您认为图像分割、物体识别、目标跟踪这一系列技术的难点在哪里？

张骏峰：咱们遇到的困难主要有两点：1.数据，2.优化

数据

虽然如今有不少开源数据集，可是，这些数据集是被用于学术界创新和研究的benchmark数据集。这些数据和真实场景下的用户数据差异很大，场景也不足够丰富。用开源数据训练出来的模型，识别率每每不够理想。所以，真实场景下的海量标注数据集是很是关键的。

小蚁产品的用户量很大，用户使用小蚁产品的场景各类各样，环境也各不相同。有些用户的使用场景也让咱们大开脑洞。限于咱们的人力物力，咱们优先处理主要用户场景。

优化

如前所述，小蚁采用的是一种“端+云”的混合方式。不论是端仍是云，优化始终是咱们最大的挑战。

在端上，因为硬件限制，没法运行深度神经网络，咱们目前使用的是传统方法。即便这样，如何更快的处理视频，也是很大的挑战。

在云上，咱们用GPU服务器运行深度神经网络，费用很高。小蚁的用户量很大，用GPU服务器处理，成本压力很大。

咱们迫切须要技术的发展，可以把不影响准确率太多的前提下，把处理成本降下来。

CSDN：除了小蚁目前正在作的，您对图像跟踪、识别这一系列技术的落地方向还有何构想？

张骏峰： AI技术如今已经很强大了。AlphaGo颠覆了人们对AI的理解。人脸识别的准确率不断被刷新。可是，AI用到真正的场景上，仍是很是困难的。首先是数据问题。上面已经讨论过了。而后是模型的训练调参。这也是一个很是漫长痛苦的过程。而后是模型的验证。周而复始。因为这些问题，AI技术如今作好一个场景，须要花费很大的精力。

期待有一天，AI技术能够作到像使用AWS API这样简单。

CSDN：自从生成网络火爆，图像风格迁移的APP便层出不穷，但彷佛都还仅停留在娱乐层面，没有向更深更实用的方向发展，那么小蚁作AI艺术这个应用的初衷是什么，下一步将踩在哪里？

张骏峰：小蚁除了硬件产品，还有不少相配套的移动应用配合硬件产品。其中，小蚁运动相机/小蚁微单App提供了完整的硬件控制，图像视频编辑，社区分享的流程。咱们一直在思考如何让用户玩得更好。

2015年末咱们已经知道风格迁移的论文，而且作了尝试。那时候咱们没有GPU机器，用cpu来实现处理算法，处理速度很是慢。尝试过一次后咱们就放弃了。

Prisma的火爆，让咱们意识到在风格迁移是能够有很好的移动用户体验的。咱们开始使用购买GPU机器，用GPU来实现风格迁移算法。幸运的是，那时候已经有好几篇论文，把风格转换的速度提升了不少。咱们在前人的基础上，实现了咱们本身的风格迁移算法，应用到小蚁的移动应用上。

小蚁AI艺术上线的时候，正好遇上微信小程序即将上线的消息。咱们马上组织人员实现了小蚁AI艺术微信小程序版。因为时间紧迫，咱们在最后一个星期六才提交审核。幸运的是，咱们的小程序一次审核经过，得以在小程序放开的第一天，让用户使用。大部分使用太小蚁AI艺术微信小程序的用户，反馈都是很是正面的。在几乎没有推广的状况下，上线第一天得到了超过20万的使用次数。

咱们最先上线的小程序只能处理图片。春节以后，咱们更新了一版，最新的小蚁AI艺术微信小程序能够处理小视频。相信用户用小蚁AI艺术处理太小视频后，会有更深入的感觉。

如今的小蚁AI艺术，从用户体验上看，还有不少局限性。首先，每一种风格，合适于某一类图片。如今的体验，用户必须手动把全部风格都试一遍，才知道哪一种风格合适。某一种风格，或者合适于人像，或者合适于风景。对于同时有人有景的图片，有时候须要作一个抉择。

咱们能提供的风格模板也比较有限，用户使用过一阵后，新鲜感减小。最好的用户体验，是让用户任意指定一张照片，和一种风格，咱们能把这张照片按照用户指定风格处理。咱们如今的技术还没法作到这一点。

CSDN：您以为图像风格迁移技术的难点在哪里，如何落地，瓶颈是什么？

张骏峰：首先是网络设计。各类论文上的方法，须要咱们本身实现出来。可是按照论文方法实现出来后，咱们发现效果不是很好，照片处理后有一种很脏的感受。如何去脏，把照片弄干净，花了咱们不少时间。咱们对最终的效果仍是很满意的。

而后就是风格的选取。选择一个对大多数照片都合适的风格，是一件很繁琐的事情。咱们一开始就定了一个方向：中国风。事实证实，传统中国风，颜色比较简单，大部分的照片，迁移以后效果不太好。咱们从两个方面解决这个问题。一方面，咱们把中国近代的著名画家都找了一遍，试了无数张，最后从中挑了8种风格作为第一次的模板。同时，咱们针对这8种风格，每一种风格都作了不一样的网络优化。

整个过程当中，咱们发现，选择一种好风格，很是花时间。咱们也但愿能有一种工具，让咱们很容易判断这种风格是否好。但目前为止，咱们尚未找到这样的工具。

CSDN：小蚁AI艺术训练所用数据来自哪里，采用何种网络及框架，在具体实施过程当中有何技巧？

张骏峰：对咱们来讲，比较幸运的是，咱们已经有一个小蚁社区，用户在社区上分享了不少照片。这些照片是咱们的测试数据集。风格的选取上，因为咱们主打中国风，咱们主要的目标在中国近现代著名画家的做品上。

网络方面，主要是借鉴了李飞飞的网络，根据咱们本身的风格，作了不一样的调整。框架咱们用的是Torch。

咱们花了不少时间处理去脏的问题。这个也是一个开发灵机一动想到的办法，而后就行了。很神奇。

CSDN：小蚁AI艺术主打“中国风”，请问为什么选择这种风格？

张骏峰：由于咱们不想和其余人同样。不少App选择了西方风格。咱们在中国，就应该选择中国风。这种选择让咱们多了不少开发时间，但咱们认为是值得的，也是咱们为之骄傲的。

CSDN：在产品的研发过程当中，团队遇到过哪些问题？是如何解决的？

张骏峰：服务端，小程序初上线的时候，不少人用，给服务器很大压力。咱们使用的是阿里云的服务。在阿里云的HPC和阿里云OSS之间，对于高并发有一些问题。咱们几回反复，和阿里云支持团队屡次交流，最后解决。

小程序方面，不少H5有的功能不能使用，也让开发饶了一些弯路。好比，给图片加水印，就试了好多条路，最后是在服务器上实现的。

开发AI艺术小视频的时候，也遇到了不少问题。视频的方向是一个大问题。视频的处理时间比图片长不少，这使得咱们不得不改架构。

大部分问题都解决了。可是在小程序上如何保存处理后的视频，咱们始终没有找到一个好方法。如今只能让用户在咱们提供的H5页面上处理保存视频。

CSDN：小蚁的产品及技术如何与竞品公司差别化？

张骏峰：听用户反馈，抓住每个细节，紧跟世界前沿，学习先进经验，不断进步，努力作到更好。这是咱们的原则。

CSDN：在管理方面，您有何独到的带队方式？

张骏峰：给团队高度，让团队用本身的办法达到指望的高度，而后告诉我他们本身能够达到的高度（必须比我要求的高度更高）。向世界最好看齐。