2015年4月29日,微软在Build 2015大会上发布了一个震撼人心的项目: Project Oxford, 能够帮助直接实现图像理解、人脸识别、语音识别、语音合成等功能。虽说这是号称研究院的项目,不过人脸识别,图像分类等等功能早已经在开源社区是一个比较成熟的东西了,OpenCV里也有不少成熟的算法,不过可以被直接用在公有云上使用,也算是帮助广大创业的小伙伴们实现更多强大的功能。正好遇到5/1休息,IT码农的本色又展示了出来,让我来看一些到底有哪些有趣的功能能够玩。算法
Oxford的项目站点在https://www.projectoxford.ai/,主要包含了Face API, Speech API,Vision API和语言理解智能服务(LUIS),分别对应了Azure Marketplace中的几个不一样的app service,除了语言理解智能服务(LUIS)须要邀请加入之外,其余三个服务都已经能够在Azure全球的市场中进行试用了,不过当前只支持美西区域。当前也只有免费的计划,包含了每分钟20个事务和每月5000个事务的上限,看上去尚未办法商用。app
Face API主要是一些人脸识别的接口和功能,包含人脸检测,人脸验证,类似人脸查询,人脸分类和人脸识别。里面比较有趣的功能是能估计你的年龄,固然这个年龄和你当时的表情以及光线状况相关,不会很是的准确。工具
Speech API包含了语音识别的接口和功能,包括语音识别,语音意图识别和TTS,也就是之前微软的Speech Server提供的一些功能,若是想作个相似Cortana或者Siri的工具,就能够直接调用这个API。ui
Vision API包含了一些智能图像处理的接口,好比图像内容分析,图像分类,色情内容检测,前景背景色分析等等。还有比较简单的缩略图功能,固然这些缩略图功能像阿里云和七牛也都是免费支持。值得一提的是OCR的功能,能够从天然场景中检测出文本,这就是我当年念书时候的硕士论文啊有木有。阿里云
Oxford的项目站点https://www.projectoxford.ai/上其实已经提供了大量的Live Demo, 能够经过现有的图像库,或者Azure Storage Account,甚至是本身上传一些图像来试用效果,不过做为IT码农,必需要使用本身的代码来实如今有乐趣。说玩就玩。3d
要使用Project Oxford,须要有一个全球的Azure帐号,能够前往Marketplace进行注册,包括Face API, Speech API和Vision API,参见下面的三步,首先是选择服务,而后选择计划和名字,当前只有免费计划,最后确认。blog
当购买完以后,在Azure Management Portal中就已经有了三个服务了。接口
今天先玩一下Face API,首先去https://www.projectoxford.ai/sdk下载SDK,如今只有.NET和Android的平台,不过因为全部的接口都是REST API的,因此随便什么代码其实均可以用。事务
打开SDK之后,其实里面已经有一个现成的Sample代码在里面封装了全部的功能,根本不须要本身写什么代码,惟一须要的是打开Oxford的管理页面https://dev.projectoxford.ai/Developer 获取订阅的Key,替换到代码中。io
紧接着把示例代码跑起来。
你能够看到说基本上五个功能都包含在其中了。首先是人脸识别,我使用了我本身的照片,能够检测出我脸。API支持检测脸部的landmarks,年龄,性别,头部的位置以及倾斜的角度。但是为何我看上去比真实的年龄要老呢? 这个不科学啊。这个API对图像有必定的要求,包括必须大于36*36像素大小,小于4M,人脸也最好是正面或者接近正面,此外因为读取的是第一帧的信息,因此还须要注意JPEG拍摄的方向,调整到人头向上的角度。
接下来咱们来试一下人脸的验证,看看是否是同一我的。同样我能够选择两张照片,而后看看结论如何。
看到最后一行没,他竟然知道这是一我的!太厉害了。
接下来的三个功能是人脸分组,寻找相似的脸和在一我的物组里面寻找人,这些功能实际上是上面两个基本功能的延伸,核心仍是人脸识别和人脸匹配,这里我就不试了。基本上有了这个API,咱们能够作一个很是强的iPhoto出来了,这对创业公司想作一个相似照片管理的工具而言已经很是有用了。固然如今再作这个已经没啥机会了,不过咱们能够利用这个API,在现有应用上为用户提供更好的体验。
好了,晚点我在来用用Speech API和Vision API,虽然还没具体试用,可是在他的Live Demo里,我发现他们都支持中文语音和文字识别,这对国内的小伙伴们的确是很是大的利好。我又很差意思想起了Microsoft Band竟然不支持中文,搞得我只好去用Apple Watch了。