基于上个系列的关于Watson的介绍。我在这个系列会对Watson进行更深一步的探究和使用,主要使用文本语音转换,天然语言分析,文本分类这几个服务作一个简单的人机交互系统,初步目标是相似像siri那样。
本文地址:https://segmentfault.com/a/11...html
speech to text 能够为你的应用提供语音文本转录的能力。对非结构化信息的处理是Watson很是吸引人的地方,也使得他在众多人工智能服务中脱颖而出。于是,Watson对语音文字转化能够达到较高的可信度。json
1.能够经过语音进行控制的应用,包括一些嵌入式设备,好比无人车,智能家电等。
2.视频或者语音电话会议。
3.一些经过语音能够进行的操做(用以解放双手),好比口述短信或邮件内容。segmentfault
接口调用api
该服务能够经过三种方法实现调用,经过WebSocket接口,或者REST接口,或者是异步HTTP接口。session
WebSocket接口
该方法提供了有效的,低延迟,高通量的全双工链接,是最好的调用方式,能够同时发送并获取结果。curl
REST接口
只需创建一次链接,便可上传音频文件用以分析。该方法的优势是简单上手,但在实际应用中须要处理实时数据就显得不那么有用了。异步
异步HTTP接口
经过非阻塞的方式调用服务,而且容许你使用用户指定的秘密字符串或是数字签名以肯定加密级别。工具
输入优化
尽管使用三种不一样的调用接口,可是三种方式共享相同的调用参数,只须要修改请求头的部分便可。人工智能
认证
音频格式
使用的语言(默认)
自定义语言
输出
输出以json格式返回,它将包括如下几方面内容:
基础翻译
说话者识别
关键词识别
词或句的可选择性
优化输出格式(针对日期,数字,网址等)
我会在这篇文章中举例说明具体如何使用。
speech to text使用IBM语音合成技术,将文本内容语音化输出。
在一些由语音控制或者屏幕控制接口缺乏(不存在)的应用场景下,该服务大有用武之地。一般包括:
智能家居
视觉障碍辅助工具
智能汽车中向驾驶员朗读邮件和短信
视频字幕朗读
基于朗诵的教育工具
接口调用
经过HTTP接口或者WebSocket接口,这和speech2text是同样的。
合成语音
HTTP GET方法,经过查询参数传递较短文本。
HTTP POST方法,在请求体中传递较长文本。
WebSockets