张骏峰,小蚁科技首席架构师,负责小蚁AI图像相关算法架构。主要包括:小蚁智能摄像机的智能报警服务、小蚁智能行车记录仪的辅助驾驶ADAS服务、小蚁运动相机App的图像风格迁移技术以及小蚁微单App的图像视频编辑技术。其团队包括移动开发、前端、后台、算法,成员分布在北京及以色列。张骏峰于2015年加入小蚁,此前,张就任于微软长达14年,参与过Windows, .Net Framework, MSN, Office, Lync, Skype等产品的研发工做。前端
小蚁科技成立于2013年,是一家年轻的互联网硬件企业。小蚁专一探索智能、可穿戴、移动化的新型视频类智能电子产品的开发,产品包括小蚁智能摄像机系列、小蚁行车记录仪系列、小蚁运动相机系列、小蚁微单相机等智能硬件产品,以及和谷歌合做的YI Jump 360°3D VR拍摄设备。同时,小蚁还有一系列的移动应用和服务,帮助用户更好地使用小蚁设备。算法
CSDN:骏峰您好,小蚁的产品主打视觉。那么首先请您向你们介绍一下,在小蚁智能摄像机上,与AI相关的技术有哪些?小程序
张骏峰:咱们在小蚁智能摄像机上提供了多种智能服务。微信小程序
智能报警安全
大部分的智能摄像机都提供移动侦测服务。当摄像机检测到画面有大幅变更的时候,服务器会向用户推送一条报警消息。服务器
小蚁智能摄像机提供了一样的服务,同时,在报警的时候,向服务器上传了一张图片,和一段6秒钟的视频。这样即便有人把摄像机拿走了,用户仍是能够看到发生了什么事。微信
传统的移动侦测方案,灵敏度是一个很难解决的问题。若是灵敏度过高,用户会收到过多的无效报警,可能会错太重要信息。若是灵敏度过低,会有重要事件发现而用户收不到报警的状况。咱们提供了一个拉杆,用户能够在高,中,低灵敏度选择。网络
咱们还提供了一种人形检测的升级方案。当用户把这个升级方案的开关打开后,若是检测到画面有大幅改动,摄像机会继续对画面进行进一步检测,只有在摄像机认为画面中有人,才会通知服务器给用户推送报警信息。这样能够大大减小误报的状况。架构
小蚁智能摄像机还提供了宝宝哭声检测。若是摄像机检测到持续的宝宝哭声,也会向用户推送报警。并发
手势识别
小蚁智能摄像机还提供了手势识别功能。当用户在摄像机面前作出“摊开手掌-而后握拳”的组合动做时,摄像机会自动录制10秒视频,推送给手机App用户。我家小孩特别喜欢这个功能,有事没事他就会试一下这个功能,而后给我表演一段僵尸舞。
选择“摊开手掌-而后握拳”这样一个组合,是为了减小误触发。
咱们还在研究其余AI技术,好比人脸检测,人脸识别,物体识别,如何经济实惠地让这些新技术给用户带来价值。
CSDN:除智能摄像机以外,小蚁也发售行车记录仪。那么在小蚁行车记录仪上,与AI相关的技术有哪些?
张骏峰:咱们在小蚁行车记录仪上为用户提供ADAS智能安全提醒系统,有效提供安全提醒并实时纠正驾驶行为。主要是两个功能:车道偏移预警,前车距离监测
车道偏移预警
当车辆在高速上行驶时,若是行车记录仪检测到车辆偏移道路时,会提醒用户车辆已经偏移道路。
前车距离监测
行车时,若是行车记录仪检测到离前车距离愈来愈近,超过必定阈值时,会提醒用户注意保持车辆距离。
CSDN:在上述两种产品的模型训练过程当中,训练集与测试集从何而来,采用何种网络及框架,在系统调优方面有何技巧?
张骏峰:开源的数据集和开源代码提供了基础的训练集和测试集。
可是这样的数据集训练出来的模型,放在小蚁的产品上,出来的效果不是很满意。
咱们是有一批内测摄像头,免费送给用户。用户看到有意思的状况,分享给咱们。内测用户不少是小蚁员工。咱们根据用户提供的数据,调整模型,更新算法。
在实际产品上,咱们采用的是一种“端+云”的混合方式。端上先作一部分筛选,云上再作进一步的处理。
限于硬件的计算能力,端上目前是用传统方法处理。
云上,咱们如今使用的是YOLO模型,基于咱们本身的状况,作了一些优化。
CSDN:您认为图像分割、物体识别、目标跟踪这一系列技术的难点在哪里?
张骏峰:咱们遇到的困难主要有两点:1.数据,2.优化
数据
虽然如今有不少开源数据集,可是,这些数据集是被用于学术界创新和研究的benchmark数据集。这些数据和真实场景下的用户数据差异很大,场景也不足够丰富。用开源数据训练出来的模型,识别率每每不够理想。所以,真实场景下的海量标注数据集是很是关键的。
小蚁产品的用户量很大,用户使用小蚁产品的场景各类各样,环境也各不相同。有些用户的使用场景也让咱们大开脑洞。限于咱们的人力物力,咱们优先处理主要用户场景。
优化
如前所述,小蚁采用的是一种“端+云”的混合方式。不论是端仍是云,优化始终是咱们最大的挑战。
在端上,因为硬件限制,没法运行深度神经网络,咱们目前使用的是传统方法。即便这样,如何更快的处理视频,也是很大的挑战。
在云上,咱们用GPU服务器运行深度神经网络,费用很高。小蚁的用户量很大,用GPU服务器处理,成本压力很大。
咱们迫切须要技术的发展,可以把不影响准确率太多的前提下,把处理成本降下来。
CSDN:除了小蚁目前正在作的,您对图像跟踪、识别这一系列技术的落地方向还有何构想?
张骏峰: AI技术如今已经很强大了。AlphaGo颠覆了人们对AI的理解。人脸识别的准确率不断被刷新。可是,AI用到真正的场景上,仍是很是困难的。首先是数据问题。上面已经讨论过了。而后是模型的训练调参。这也是一个很是漫长痛苦的过程。而后是模型的验证。周而复始。因为这些问题,AI技术如今作好一个场景,须要花费很大的精力。
期待有一天,AI技术能够作到像使用AWS API这样简单。
CSDN:自从生成网络火爆,图像风格迁移的APP便层出不穷,但彷佛都还仅停留在娱乐层面,没有向更深更实用的方向发展,那么小蚁作AI艺术这个应用的初衷是什么,下一步将踩在哪里?
张骏峰:小蚁除了硬件产品,还有不少相配套的移动应用配合硬件产品。其中,小蚁运动相机/小蚁微单App提供了完整的硬件控制,图像视频编辑,社区分享的流程。咱们一直在思考如何让用户玩得更好。
2015年末咱们已经知道风格迁移的论文,而且作了尝试。那时候咱们没有GPU机器,用cpu来实现处理算法,处理速度很是慢。尝试过一次后咱们就放弃了。
Prisma的火爆,让咱们意识到在风格迁移是能够有很好的移动用户体验的。咱们开始使用购买GPU机器,用GPU来实现风格迁移算法。幸运的是,那时候已经有好几篇论文,把风格转换的速度提升了不少。咱们在前人的基础上,实现了咱们本身的风格迁移算法,应用到小蚁的移动应用上。
小蚁AI艺术上线的时候,正好遇上微信小程序即将上线的消息。咱们马上组织人员实现了小蚁AI艺术微信小程序版。因为时间紧迫,咱们在最后一个星期六才提交审核。幸运的是,咱们的小程序一次审核经过,得以在小程序放开的第一天,让用户使用。大部分使用太小蚁AI艺术微信小程序的用户,反馈都是很是正面的。在几乎没有推广的状况下,上线第一天得到了超过20万的使用次数。
咱们最先上线的小程序只能处理图片。春节以后,咱们更新了一版,最新的小蚁AI艺术微信小程序能够处理小视频。相信用户用小蚁AI艺术处理太小视频后,会有更深入的感觉。
如今的小蚁AI艺术,从用户体验上看,还有不少局限性。首先,每一种风格,合适于某一类图片。如今的体验,用户必须手动把全部风格都试一遍,才知道哪一种风格合适。某一种风格,或者合适于人像,或者合适于风景。对于同时有人有景的图片,有时候须要作一个抉择。
咱们能提供的风格模板也比较有限,用户使用过一阵后,新鲜感减小。最好的用户体验,是让用户任意指定一张照片,和一种风格,咱们能把这张照片按照用户指定风格处理。咱们如今的技术还没法作到这一点。
CSDN:您以为图像风格迁移技术的难点在哪里,如何落地,瓶颈是什么?
张骏峰:首先是网络设计。各类论文上的方法,须要咱们本身实现出来。可是按照论文方法实现出来后,咱们发现效果不是很好,照片处理后有一种很脏的感受。如何去脏,把照片弄干净,花了咱们不少时间。咱们对最终的效果仍是很满意的。
而后就是风格的选取。选择一个对大多数照片都合适的风格,是一件很繁琐的事情。咱们一开始就定了一个方向:中国风。事实证实,传统中国风,颜色比较简单,大部分的照片,迁移以后效果不太好。咱们从两个方面解决这个问题。一方面,咱们把中国近代的著名画家都找了一遍,试了无数张,最后从中挑了8种风格作为第一次的模板。同时,咱们针对这8种风格,每一种风格都作了不一样的网络优化。
整个过程当中,咱们发现,选择一种好风格,很是花时间。咱们也但愿能有一种工具,让咱们很容易判断这种风格是否好。但目前为止,咱们尚未找到这样的工具。
CSDN:小蚁AI艺术训练所用数据来自哪里,采用何种网络及框架,在具体实施过程当中有何技巧?
张骏峰:对咱们来讲,比较幸运的是,咱们已经有一个小蚁社区,用户在社区上分享了不少照片。这些照片是咱们的测试数据集。风格的选取上,因为咱们主打中国风,咱们主要的目标在中国近现代著名画家的做品上。
网络方面,主要是借鉴了李飞飞的网络,根据咱们本身的风格,作了不一样的调整。框架咱们用的是Torch。
咱们花了不少时间处理去脏的问题。这个也是一个开发灵机一动想到的办法,而后就行了。很神奇。
CSDN:小蚁AI艺术主打“中国风”,请问为什么选择这种风格?
张骏峰:由于咱们不想和其余人同样。不少App选择了西方风格。咱们在中国,就应该选择中国风。这种选择让咱们多了不少开发时间,但咱们认为是值得的,也是咱们为之骄傲的。
CSDN:在产品的研发过程当中,团队遇到过哪些问题?是如何解决的?
张骏峰:服务端,小程序初上线的时候,不少人用,给服务器很大压力。咱们使用的是阿里云的服务。在阿里云的HPC和阿里云OSS之间,对于高并发有一些问题。咱们几回反复,和阿里云支持团队屡次交流,最后解决。
小程序方面,不少H5有的功能不能使用,也让开发饶了一些弯路。好比,给图片加水印,就试了好多条路,最后是在服务器上实现的。
开发AI艺术小视频的时候,也遇到了不少问题。视频的方向是一个大问题。视频的处理时间比图片长不少,这使得咱们不得不改架构。
大部分问题都解决了。可是在小程序上如何保存处理后的视频,咱们始终没有找到一个好方法。如今只能让用户在咱们提供的H5页面上处理保存视频。
CSDN:小蚁的产品及技术如何与竞品公司差别化?
张骏峰:听用户反馈,抓住每个细节,紧跟世界前沿,学习先进经验,不断进步,努力作到更好。这是咱们的原则。
CSDN:在管理方面,您有何独到的带队方式?
张骏峰:给团队高度,让团队用本身的办法达到指望的高度,而后告诉我他们本身能够达到的高度(必须比我要求的高度更高)。向世界最好看齐。