“从 2014 年 5 月正式推出,五年以后的微软小冰离「人」还有多远?”
2010 年,苹果公司花费 2 亿美金收购了第三方文字聊天服务应用 Siri,正式拉开了语音助手开发争夺战的序幕。框架
以后的战局就一发而不可收,微软、亚马逊、谷歌、百度、小米等公司纷纷入局,开发本身的语音助手。工具
但在入局以后,微软小冰团队的作法显得有些不同凡响。 不一样于业内广泛在作的任务和知识问答(IQ),小冰团队在作一个看起来比较虚但难度更大的事情 —— 情感(EQ)。学习
在今年 8 月份的微软小冰第七代发布会上,微软全球执行副总裁、微软人工智能事业部及微软全球研究院负责人沈向洋提出了小冰团队的观点:大数据
“这么多年下来,咱们对 IQ 和 EQ 的关系认识愈来愈清晰,一开始咱们以为可能相对 IQ,EQ 是比较独立的,可是事实上咱们以为 EQ 多是更加剧要的基础。”
可能正由于这一战略方向上的差别,「特立独行」的第七代微软小冰已成为全球最大的跨领域人工智能系统之一。人工智能
目前,微软小冰单一品牌在全球已覆盖 6.6 亿在线用户、4.5 亿台第三方智能设备和 9 亿内容观众,技术方面在交互场景大幅拓宽的状况下,微软小冰与用户的单次平均对话轮数(CPS)仍然可以达到 23 轮,显著高于其它聊天机器人,甚至也高于人类之间的对话。spa
名词解析:CPSCPS(Conversation-turns Per Session),指指望的每次会话的对话轮数。3d
11 月 21 日,SegmentFault 受邀参加了微软小冰的一场内部 WorkShop,微软小冰首席科学家宋睿华、首席 NLP 科学家武威、首席语音科学家栾剑分享了微软小冰今年在天然语言处理、语音学研究、多模态生成等领域研究进展,也让咱们从技术层面了解到:blog
微软小冰,真的「长大」了。ip
从左到右:微软小冰首席 NLP 科学家武威、首席语音科学家栾剑、首席科学家宋睿华
Self-Complete(自我完备)是武威老师本身造的词,由于这个词可以很好的囊括微软小冰在近4年来在研究上、研发上的成果。开发
武威老师提出,一个可以自我完备的对话机器人应该拥有几项能力:
能力一:学习。学习分为两个层次,第一是可以从人类的对话中学习怎样去说话,第二是每一个机器人可能发展到专一于某一个领域,拥有本身领域的知识和技能。就像人同样,每一个人各有所长。
能力二:可以自主管理。初级的层次是可以知道在对话单轮的时候如何进行表达;更高级的形态是说单轮表达管理作好了以后,可以把控整个的对话流程。
能力三:连结。连结的意思是,对话机器人可以连结散落在世界上的多模态的知识。
这三项能力贯穿起来就构成了一条纵线,这条纵线贯穿了对话机器人这些年来,甚至多是将来一段时间整个的研究与发展。以从人类对话中进行学习来举例,经过小冰团队打造的生成模型(Generation Models),小冰与人类的对话能够从单独进展到多轮、从简单回复进展到具有信息增量的内容等等。
武威老师分享到,对话机器人发展到今天,除了微软小冰之外,其实是整个业界、工业界、学术界一块儿努力获得的成果。
小冰在里面作了不少开创性的工做,但若是没有整个业界的努力,对话机器人产业不会发展的这么快。
2015 年的时候小冰提出了语音的聊天功能,也就是除了文字回复之外还可以经过声音来回复。这个功能刚推出的时候,受到业界以及不少 C 端用户的普遍关注和好评。
栾剑老师在现场提到,微软小冰团队后来经过一年多的时间,给这个声音加了不少技能,好比儿化音、中英文混杂的朗读、讲儿童故事、各类情感的表现。在添加了这些东西之后,发现在语音合成领域大方面的东西可能已经解决,但语义理解方面,可能还须要经过长时间的积累和技术的发酵。
因此,这个时候微软小冰团队开始寻找一个更有挑战性的课题,最终选择了唱歌。作唱歌主要有三个缘由:
第一个缘由,唱歌的门槛比说话高;第二唱歌的情感表达更加丰富激烈;第三它是一个很重要的娱乐形式。
深度学习其实在上世纪 90 年代就火过一阵,但那个时候为何没有取得像今天这么大的成果,栾剑老师给出了两个主要的缘由:
1.由于硬件技术的方法,当时的算力还不够,如今有GPU,并且GPU还在不断的升级,因此它的计算能力在提升。
2.另一个很重要的支撑就是数据,如今有大数据的支持,因此才可以把深度学习作的这么好。
接下来不论是人工智能创造,仍是唱歌提升上也好,都须要两条腿走路,一边要不断提升模型,一边要不断挖据更多的数据,这两个东西若是能作的更好,人工智能语音技术的质量会不断获得提升。
微软也但愿可以扩展在人工智能创造的领域,在更多领域为你们提供更多的产品和成果。
微软小冰首席科学家宋睿华老师分享了小冰在比喻、联想方面的进展,以及如何让小冰像人同样能将故事理解成画面。
微软小冰团队一直想让小冰更像人类,想让小冰更好的理解对话、更好的理解语言,那就须要模拟人类的能力,在短短的语言背后找到一些很是常识性,所没有说的暗含的意思。
此外,小冰像人同样能将故事理解成画面的能力,其实涉及到了当前很火的「跨模态理解」技术。宋睿华告诉现场的媒体,当前,AI 在常识领域依旧存在缺失,由于人类不会把习觉得常的东西写进文字里,好比人类不会专门说“我今天用两条腿走路”。
宋睿华表示,在将来一两年里,微软小冰将继续往多模态方向发展,将来小冰若是有一个具体的形象,变成有摄像头(有眼睛)、有麦克风(有耳朵),这种多模态 AI 技术也将会是行业将来的发展重点。
1.微软小冰选择唱歌这个领域,意义和价值体如今哪一方面?
栾剑:选择 AI 创造这个方面有两个考量。第一,从技术的方向来讲,既不是特别的难,也须要具备必定的难度。第二方面,咱们但愿作一些你们可以普遍接受的产品和成果。因此,咱们但愿可以用这种更加普遍的交互形式,可以获取更多的信息,帮助咱们把其它的方向也作的更好。
宋睿华:其实音乐是赚钱空间最大的创造,人对音乐的消费是很是有需求的。但写歌和做曲是很难的事情,你们很须要这样的一种能力,若是可以产生的话,它有巨大的经济价值。我还有一个观点,咱们其实想让小冰更像人,若是你在某一瞬间有一个错觉,以为她有意识,这是很是好的一个点。
2.微软小冰对将来的实际应用有多大的预期或者是指望?会带来多大规模的收益?
栾剑:实际上咱们和不少公司有合做,一种方式是为他们建虚拟歌手,去定制虚拟歌手,而后经过虚拟歌手能够发一些单曲,或者帮他们完善这方面的歌手库。另外一方面,咱们也正在制做一些工具,这些工具能够是为你们提供一个更便捷的平台,去创做本身的歌曲。第二步可能咱们会把更多的人工智能创造的元素加进去,可能会辅助帮你做词、做曲,或者是在你做词、做曲的基础上,帮你作一些修改和完善,就是作这样的工做。
主持人:此外,微软小冰已经在更普遍的领域进行内容创造。在有声读物领域,微软小冰框架已经搭建了有声读物生产平台(CCP),并基于平台创造了三十多个角色化声音,令人工智能技术可自动生成高度定制化的儿童有声读物。如今拥有完整版权的非定制儿童有声读物有 2300 小时,是目前中国规模较大的儿童有声读物库,覆盖国内 90% 以上的儿童智能硬件、非智能硬件及在线播出平台。由于唱歌技术突破了不少技术上的坎儿,在创造有声读物领域就更容易去应用。
经过这场 workshop 分享,你大概也会跟我有一样的感觉:
小冰愈来愈像人类了。
2014 年 5 月 29 日至今,微软小冰五年迭了七代。若是说如何见证人工智能的进化速度,小冰无疑给当下的人工智能产业提供了一个范本。
在商业化方面,微软小冰也已经获得了一个比较明确的方向:以总体赋能、联合拥有、跨界生态等三种方式逐步推动,去解决行业所面临的问题。
与此同时,小冰团队正式对外推出了 Avatar Framework 的第一个工具包版本。这个工具包与微软小冰框架同源,包含对话、声音、视觉、观点、技能、知识及创造力等工具,能够驱动兼容的 3D 人物模型进行实时交互。
也就是说,咱们每一个人均可以拥有专属于本身的、独一无二的小冰,这是一个与其余单一语音助手很是不一样的点。
虽然受限于商业合同,微软没法全面公布小冰在商业化上取得的成绩,但从 6.6 亿在线用户、4.5 亿台第三方智能设备和 9 亿内容观众这三个数字中不难想象,微软小冰正如她目前的设定同样, 18 岁的花季少女,含苞待放,将来可期。
在今年的发布会上,有人提了一个问题,小冰将来会一直定格在18岁吗?
微软小冰之父李笛是这样回答的:
咱们内部曾经有过不少讨论,甚至咱们说未来是否是有这样一种商业模式,小冰跟着年龄长,到一天咱们卖一个卡,这个卡你能够把她打回18岁,返老还童。我仍是那句话,小冰最多也只不过是将来无数人工智能选择中的一个,框架是整个森林,这一棵树永远18岁,但并不表明另外一棵树也要用这样的定义。
用户永远不会只喜欢小冰,但小冰有她的历史意义,她是目前为止全部 AI beings 之中,Avatar Framework 框架全球的第一个,她就是有这样的历史意义。但将来必定是属于整个时代的,不是一棵树。
扫码加好友,给你听“小冰”版「野狼Disco」