用大脑“说话”:这项技术让失语者再次发声

500

一项新型脑机接口技术,借助 AI 算法将神经信号映射为预期声音,首次实现将脑活动实时转化为语音,为神经疾病失语者恢复对话能力提供可能。

撰文 | 常恺

“这就像我重新拥有了⾃⼰的声⾳。”

一位渐冻症患者在通过脑语⾳接⼝系统说出第一句话时如此表达。

2025年6⽉12⽇,由加州⼤学戴维斯分校(UC Davis)联合布朗⼤学、哈佛医学院附属⻢萨诸塞总医院及美国退伍军⼈事务部神经恢复中⼼组成的研究团队,在Nature杂志发表了一项引发全球关注的神经⼯程研究。他们⾸次实现了通过⼤脑信号直接⽣成⾃然语⾳的技术,让一位因渐冻症(ALS)失去发声能⼒的患者“重新开⼝”。

500

图1:脑—语音接口系统的工作原理示意图。

⽤⼤脑说话:⾸次实现⾃然语⾳的脑机接⼝

在神经⼯程和脑机接⼝领域,实现“⽤⼤脑直接说话”一直是一个意义⾮凡却充满挑战的⽬标。过去的脑机接⼝⼤多依赖⽂字拼写或按钮输⼊,即便能合成语⾳,往往也机械⽽单调,缺乏⾃然语⾔的韵律和情感。⽽对于那些⽆法发声的⼈来说,语⾔从未在⼤脑中沉默,只是被困在了⽆声的意图之中。如今,科学家们终于找到了一种⽅式,让这些“沉默的语⾔”被真实听⻅。

此次发表在Nature上的研究,⾸次通过⼤脑运动⽪层的神经信号,实时⽣成带有语调、节奏与个性化⾳⾊的⾃然语⾳。这不仅让语⾔障碍患者能够重新“说话”,更让他们能⽤属于⾃⼰的声⾳、⾃⼰的⽅式进⾏交流。

对于参与试验的ALS患者来说,这是一次技术测试,更是一次语⾔⾝份的重建。他成功说出“你好”“今天感觉很好”等简单句⼦,并能灵活调控语调语⽓,甚⾄尝试哼唱旋律。这些表达,不再只是功能性的输出,⽽是具有⾃我⾊彩、情感温度和交流能⼒的完整语⾔。

从沉默到发声:⼤脑如何直接驱动真实语⾳

要实现如此⾃然流畅的语⾳表达,背后依赖的是一个⾼度精密的脑—语⾳接⼝系统。研究团队将整个流程设计为四个关键步骤:神经信号采集(neural recording)、神经解码(neural decoding)、语⾳合成(speech synthesis)和实时播放(real-time audio feedback),构建出一个完整的闭环路径,让意图真正转化为可听⻅、可互动的语⾔。

⾸先,研究⼈员在患者⼤脑左侧前中央回腹部(ventral premotor cortex)——这一控制⾯部和喉部运动的关键区域——植⼊了两组共计256通道微电极阵列(microelectrode arrays)。即便患者已⽆法发声,但在“试图说话”时,⼤脑依然会产⽣可被记录的电信号。随后,这些神经信号被输⼊⾄两套并⾏的深度神经⽹络模型中进⾏解码:

•第一套模型⽤于预测语⾳内容(phoneme probabilities及acoustic features),即识别“说了什么”;

•第⼆套模型则专⻔提取语调和情绪等副语⾔信息(paralinguistic features),如语句是否为疑问句、是否强调某一词等。

这种“双路径解码”机制,不仅能还原语义信息,还能呈现语言中的情感和个性表达,使系统输出更接近真实人类语言。

由于患者无法清晰发声,研究团队面临缺乏“真实语音”训练数据的难题。为此,他们开发了一种创新算法:借助屏幕提示语引导患者进行“尝试说话”,并实时记录其神经活动。系统随后从这些神经信号中识别出音节边界,再通过语音合成技术(text-to-speech)生成对应的目标语音。最后,研究人员将合成语音与神经信号在时间上对齐,从而构建出神经—语音配对数据,间接还原出患者的“预期发音”,为神经解码模型的训练提供了可靠基础。

在此基础上,团队训练了一套基于 Transformer 架构的深度学习模型,每10毫秒预测一次语音的频谱与音高特征。该模型实现了“因果解码”能力,还对不同实验时段之间神经信号的波动进行了结构优化,以确保不同使用时间下的稳定性和精确性。

最终的语音输出由一套个性化声码器(personalized neural vocoder)完成。该系统通过模拟人类声带与发音机制,将神经解码得到的语言参数转化为清晰自然的语音,并通过扬声器实时播放给患者。这种闭环式音频反馈有助于重建大脑与语言表达之间的神经通路,也增强了交流的沉浸感。

为了最大限度保留个体特征,声码器在训练时还融⼊了患者早期的语⾳录⾳,使得合成的语音在音色、语调上更贴近患者原有的嗓⾳特征,具有⾼度个体化识别度。

整体而言,该系统在音素识别、语调判断等方面均表现出色。实验显示,该系统对疑问语调的识别准确率约为 90.5%,词语重读的识别准确率约为 95.7%;在部分自由表达任务中,合成语音的音频质量与提示语条件下生成结果相当(Pearson 相关系数约为 0.79±0.05)。整个过程在毫秒级时间窗⼝内完成闭环,从神经信号产⽣到声⾳输出延迟极低,⼏乎可实现实时对话。这一速度远超以往的脑—机语⾳系统,真正做到了“⽤⼤脑实时说话”。

500

图2:语言相关脑区的神经信号采集与放电波形图。左侧图显示了研究中电极阵列的植入区域,包括中前中央回(Middleprecentral gyrus,55b)、腹侧前运动皮层(ventral premotorcortex,6v)、初级运动皮层(primary motorcortex,M1)以及相关子区(d6v、v6v)。黄色虚线标示中央沟(central sulcus)作为解剖参照。右侧图为从每个脑区采集到的神经放电波形(spike waveforms),展示了不同皮层区域中神经元的典型放电模式。这些信号构成了接口系统语音解码的神经基础。

500

图3:脑—语⾳接⼝系统的表达⼒与语调控制能⼒。本图展示系统在语速调控(a–b)、词语重读(c)、语调识别(d–e)、强调重建(f–g)和⾳⾼合成(h–k)⽅⾯的多维解码能⼒。a–b:系统可区分快速与缓慢语速的神经意图,并合成相应节奏语⾳;c:在不同⽪层(M1、v6v、d6v、55b)中检测到与词语强调相关的神经调制;d–e:区分疑问句与陈述句语调,并实现⾼准确率的语调解码(90.5%);f–g:成功识别并再现句中不同词语的强调位置(如“Where” vs “You”);h–k:合成不同⾳⾼(Low,Mid,High)的旋律语⾳,并达到了与⽬标语调一致的频率分布(合成精度>73%)。

语⾔的未来:不仅是技术,更是权利的归还

这项研究的意义,不仅在技术层面实现了用“大脑说话”的突破,更在于它为失语者在重建语言、身份与人际连结提供了全新可能。在传统沟通手段失效的情况下,这一脑语音接口技术让沉默的大脑重新被听见,让表达不再依赖声音或动作,而直通思维本身。

为加速这一方向的发展,研究团队已将完整的数据与代码在GitHub(Neuroprosthetics-Lab/brain-to-voice-2025)开源,并邀请全球研究者共同优化算法、拓展功能。未来,它有望推广至中⻛、脑瘫、喉癌术后等多类失语人群;与此同时,研究人员也在探索其与⾮侵⼊式脑电技术(如EEG)的结合,以进一步降低使用⻔槛;它还可能与AI语义理解系统融合,构建新—代⾃然语⾔交互平台。

尽管该研究已实现了神经信号到自然语音的实时转化,但目前仍处于早期探索阶段。在实验中,患者需要根据屏幕提示语进行“默念”或“尝试说话”,系统才能识别相应意图并合成语音。换句话说,当前的表达仍依赖于“外部引导”,尚未达到完全由大脑自主驱动的自由交流。

不过,研究团队也尝试在更开放的场景中进行测试。例如,在部分无提示的问答任务中,系统依然能够生成清晰、自然的语音输出。这一结果提示:脑语音接口正朝着“无提示、自主表达”的方向迈进,为未来实现意图直接驱动语言奠定了技术基础。

当然,这项技术目前仅在一位ALS患者中完成验证,样本数量有限,仍不足以评估其在不同个体、不同病理状态下的通用性与稳定性。同时,从公开演示视频来看,系统生成的语音虽然具备个性化音色,但在语调灵活性、节奏自然度与情感表现方面,仍与真实人类对话存在一定差距。

要实现真正的日常实用化,该技术仍面临诸多挑战:如何从“提示语驱动”迈向“自由表达”?如何减少设备的侵入性、提升长期使用的稳定性与适配性?这些问题将决定脑语音接口能否从实验室走进真实生活的深度与广度。

但毋庸置疑,我们正在迈入一个新的语言纪元。未来的语⾔,不再依赖声带、⽂字或⼿势,⽽将直接来源于我们的思维本⾝。语⾔,原本就是我们存在的延伸。⽽今天的这项研究,让我们看到:即使在沉默之中,⼤脑依然有话可说。科技,正在帮助那些失去语⾔的⼈再次被世界听⻅。

参考文献

[1]Wairagkar, M., Card, N.S., Singer-Clark, T. et al. An instantaneous voice-synthesis neuroprosthesis. Nature (2025). https://doi.org/10.1038/s41586-025-09127-3

注:本文封面图片来自版权图库,转载使用可能引发版权纠纷。

500

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。

版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。

站务

全部专栏