脑机接口领域全新里程碑：意念说话，机器解读

时间 2020-09-19

标签接口领域全新里程碑意念说话机器解读繁體版

原文原文链接

https://mp.weixin.qq.com/s/fyXVvmpl_12sS-khxuYcPQ网络

By 超神经

场景描述：利用神经网络将人说话时，相应大脑区域的神经信号进行解码，而后使用循环神经网络将信号合成为语音，可帮助语言障碍患者解决语言沟通问题。

关键词：循环神经网络 解码器 脑机接口 语音合成

「读心术」可能真的要实现了。机器学习

说话对大多数人来讲是一件再寻常不过的事。可是，这个世界上还有不少人，遭受这些疾病的折磨：中风、创伤性脑损伤、神经系统变性疾病如帕金森病、多发性硬化症和肌萎缩侧索硬化症（ALS 或 Lou Gehrig 病）等，他们每每所以丧失说话能力，且不可逆转。ide

科学家们一直在恢复人体功能、神经修复方面作着努力，脑机接口（brain-computer interface，BCI）即是一个重点领域。学习

脑机接口指的是，在人或动物大脑与外部设备之间建立的直接链接，实现脑与设备的信息交换。测试

脑机接口中的「脑」指的是有机生命形式的
脑或神经系统，并不是仅仅指大脑人工智能

可是彷佛一直以来，脑机接口都是一个遥远的概念。而今天，顶尖学术期刊《Nature》上发表的论文《Speech synthesis from neural decoding of spoken sentences》（《口语语句神经解码的语音合成》），让咱们看到脑机接口领域的研究向前迈进了一大步。code

语言障碍患者的困境

事实上，脑机接口的研究已经持续超过 40 年。但至今最成功、临床应用最普及的只有人工耳蜗等感受修复技术。blog

至今，一些患有严重语言障碍的人，仍然只能使用辅助设备逐字逐句地表达他们的想法。递归

这些辅助设备可以跟踪很是细微的眼睛或面部肌肉运动，根据患者动做示意去拼写词句。接口

物理学家霍金，他的轮椅上就曾安装这样的设备。

霍金依靠语音合成器来「说话」，他曾使用过多套辅助交流系统

当时，霍金靠红外线检测到的肌肉运动来发出命令，确认电脑光标扫描过的字母，写下他想要的文字。以后，再利用文字转语音设备把话「说」出来。正是借助这些黑科技，咱们才可以看到他的著做《时间简史》。

然而，用这样的设备产生文本或合成语音不只费力，还易出错，并且合成速度很是慢，一般容许每分钟最多 10 个单词。霍金当时速度已经很快，可是也只能拼出 15-20 个单词。而天然语音每分钟能达到 100 到 150 个单词。

此外，这种方法还严重受限于操做者自身的肌体运动能力。

为解决这些难题，脑机接口领域一直在研究如何直接将脑皮层相应电信号解读成语音。

神经网络解读大脑信号合成语音

现在，这个难题迎来了突破性进展。

加州大学旧金山分校的神经外科教授 Edward Chang 与同事在这次发表的论文《口语语句神经解码的语音合成》中，提出其建立的脑机接口能将人讲话时产生的神经信号解码，并合成为语音。系统每分钟可以生成 150 单词，接近人类正常讲话语速。

论文第一做者 Gopala Anumanchipalli 拿着一组
用于记录当前研究中的大脑活动的示例性颅内电极

该团队研究人员招募正在接受治疗的五名癫痫病人，让他们大声说出几百个句子，与此同时，将他们的高密度脑电图（ECoG）信号记录下来，并跟踪大脑的语音产生中心——腹侧感受运动皮层区域的神经活动。

利用循环神经网络（RNN），研究人员分两步破译了采集到的神经信号。

第一步，他们将神经信号转换为表征发音器官动做的信号，包括下巴、喉、嘴唇和舌头动做相关的脑信号。

第二步，根据解码出来的发音器官动做，把信号转换为说出的词句。

脑机接口实现语音合成的步骤图示

在解码流程上，研究者首先将患者说话时，三个脑区域表层的连续电图信号解码，这些电图信号由侵入式电极记录。

解码后获得 33 种发音器官运动特征指标，随后将这些运动特征指标解码为 32 项语音参数（包括音高（pitch）、清浊（voicing）等），最终根据这些参数合成语音声波。

为分析合成语音对真实语音的重现准确度，研究人员将原始语音与合成语音的声波特征做了比较，发现神经网络解码的语音，至关完整地重现了患者所述原始语句中的单个音素，以及音素间的天然链接和停顿。

原始语音声波（上）与合成语音声波（下）对比

以后，研究人员以众包方式，让网友来辨认解码器合成的语音。最后结果是，倾听者复述合成语音内容的成功率接近70%。

此外，研究人员还测试了解码器对于不出声说话的语音合成能力。测试者先说出一个句子，而后默念同一个句子（有动做，但不出声）。结果显示，解码器对默念动做合成的语音频谱与同一句子的有声频谱是类似的。

口语句子神经解码的语音合成演示

里程碑：挑战与期待并存

「这项研究首次代表，咱们能够根据我的的大脑活动生成完整的口语句子，」Edward Chang 说，「这使人振奋。这是已经触手可及的技术，咱们应该可以为语言功能丢失患者，构建具备临床可行性的设备。」

Edward Chang 博士的研究重点是
言语、运动和人类情感的大脑机制

论文第一做者 Gopala Anumanchipalli 补充说：「我很自豪可以将神经科学，语言学和机器学习的专业知识，做为帮助神经残疾患者这一重要里程碑的一部分。」

固然，要真正地百分百实现语音合成的脑机接口语音交互，依然存在不少挑战，好比患者是否能接受侵入式手术安装电极、实验中的脑电波是否与真实患者的脑电波相同等等。

可是，从这项研究中，咱们看到了语音合成脑机接口再也不是一个概念。

期待将来某一天，语言障碍患者可以早日重获「说话」的能力，早日倾吐他们的心声。

超神经百科

前馈神经网络 Feedforward Neural Networks

前馈神经网络是人工智能领域中，最先发明的简单人工神经网络类型。在它内部，参数从输入层向输出层单向传播。有异于递归神经网络，它的内部不会构成有向环。

前馈（feedforward）也能够称为前向，从信号流向来理解就是输入信号进入网络后，信号流动是单向的，即信号从前一层流向后一层，一直到输出层，其中任意两层之间的链接并无反馈（feedback），亦即信号没有从后一层又返回到前一层。若是从输入输出关系来理解，则为当输入信号进入后，输入层以后的每个层都将前一个层的输出做为输入。

当前馈神经网络中层与层之间的信号有反向流动，或者自输入时，咱们则称这种网络为循环神经网络。

在深度前馈网络中，链式结构也就是层与层之间的链接方式，层数就表明网络深度。