Microsoft Azure Project Oxford 体验

时间 2019-11-06

标签 microsoft azure project oxford 体验栏目 Windows 繁體版

原文原文链接

2015年4月29日，微软在Build 2015大会上发布了一个震撼人心的项目： Project Oxford, 能够帮助直接实现图像理解、人脸识别、语音识别、语音合成等功能。虽说这是号称研究院的项目，不过人脸识别，图像分类等等功能早已经在开源社区是一个比较成熟的东西了，OpenCV里也有不少成熟的算法，不过可以被直接用在公有云上使用，也算是帮助广大创业的小伙伴们实现更多强大的功能。正好遇到5/1休息，IT码农的本色又展示了出来，让我来看一些到底有哪些有趣的功能能够玩。算法

Oxford支持的功能

Oxford的项目站点在https://www.projectoxford.ai/，主要包含了Face API, Speech API，Vision API和语言理解智能服务(LUIS)，分别对应了Azure Marketplace中的几个不一样的app service，除了语言理解智能服务(LUIS)须要邀请加入之外，其余三个服务都已经能够在Azure全球的市场中进行试用了，不过当前只支持美西区域。当前也只有免费的计划，包含了每分钟20个事务和每月5000个事务的上限，看上去尚未办法商用。app

Face API主要是一些人脸识别的接口和功能，包含人脸检测，人脸验证，类似人脸查询，人脸分类和人脸识别。里面比较有趣的功能是能估计你的年龄，固然这个年龄和你当时的表情以及光线状况相关，不会很是的准确。工具

Speech API包含了语音识别的接口和功能，包括语音识别，语音意图识别和TTS，也就是之前微软的Speech Server提供的一些功能，若是想作个相似Cortana或者Siri的工具，就能够直接调用这个API。ui

Vision API包含了一些智能图像处理的接口，好比图像内容分析，图像分类，色情内容检测，前景背景色分析等等。还有比较简单的缩略图功能，固然这些缩略图功能像阿里云和七牛也都是免费支持。值得一提的是OCR的功能，能够从天然场景中检测出文本，这就是我当年念书时候的硕士论文啊有木有。阿里云

Oxford 试用准备

Oxford的项目站点https://www.projectoxford.ai/上其实已经提供了大量的Live Demo, 能够经过现有的图像库，或者Azure Storage Account，甚至是本身上传一些图像来试用效果，不过做为IT码农，必需要使用本身的代码来实如今有乐趣。说玩就玩。3d

要使用Project Oxford，须要有一个全球的Azure帐号，能够前往Marketplace进行注册，包括Face API, Speech API和Vision API，参见下面的三步，首先是选择服务，而后选择计划和名字，当前只有免费计划，最后确认。blog

当购买完以后，在Azure Management Portal中就已经有了三个服务了。接口

Face API试用

今天先玩一下Face API,首先去https://www.projectoxford.ai/sdk下载SDK，如今只有.NET和Android的平台，不过因为全部的接口都是REST API的，因此随便什么代码其实均可以用。事务

打开SDK之后，其实里面已经有一个现成的Sample代码在里面封装了全部的功能，根本不须要本身写什么代码，惟一须要的是打开Oxford的管理页面https://dev.projectoxford.ai/Developer 获取订阅的Key，替换到代码中。io

紧接着把示例代码跑起来。

你能够看到说基本上五个功能都包含在其中了。首先是人脸识别，我使用了我本身的照片，能够检测出我脸。API支持检测脸部的landmarks，年龄，性别，头部的位置以及倾斜的角度。但是为何我看上去比真实的年龄要老呢? 这个不科学啊。这个API对图像有必定的要求，包括必须大于36*36像素大小，小于4M，人脸也最好是正面或者接近正面，此外因为读取的是第一帧的信息，因此还须要注意JPEG拍摄的方向，调整到人头向上的角度。

接下来咱们来试一下人脸的验证，看看是否是同一我的。同样我能够选择两张照片，而后看看结论如何。

看到最后一行没，他竟然知道这是一我的！太厉害了。

接下来的三个功能是人脸分组，寻找相似的脸和在一我的物组里面寻找人，这些功能实际上是上面两个基本功能的延伸，核心仍是人脸识别和人脸匹配，这里我就不试了。基本上有了这个API，咱们能够作一个很是强的iPhoto出来了，这对创业公司想作一个相似照片管理的工具而言已经很是有用了。固然如今再作这个已经没啥机会了，不过咱们能够利用这个API，在现有应用上为用户提供更好的体验。

好了，晚点我在来用用Speech API和Vision API，虽然还没具体试用，可是在他的Live Demo里，我发现他们都支持中文语音和文字识别，这对国内的小伙伴们的确是很是大的利好。我又很差意思想起了Microsoft Band竟然不支持中文，搞得我只好去用Apple Watch了。