AI会读心术了!准确率高达72%,Meta新成果登Nature顶刊

文|周愚

编辑|尚恩

仅凭脑电波就能判断对方想说什么?科幻片中的幻想,或许即将成为现实。

最近,Facebook Research的一项相关研究成果发布在了Nature上。该项目名为BrainMagick,利用大模型,分析非侵入性的脑电图(EEG)和脑磁图(MEG)获取的脑电活动,并将其转化为语音。

性能方面,在对大脑3秒的MEG记录中,该模型解码超过1500个语音片段的top-10准确率高达72.5%,top-1准确率则可达41%。此外,该项目为开源项目,已经发布在了GitHub上。

研究团队在发表的文章中表示:

该方法从非侵入性记录中解码语音,描绘了一条从大脑活动中解码语言的可能道路,同时不会让患者面临脑部手术的风险。

消息一出,网友们便开始纷纷热议。有网友结合了身边亲人的真实经历,对这项研究给予了高度评价和感谢。

图源:X(Twitter)

当然,面对大模型日益强大的功能,恐惧、质疑的声音也总是不绝于耳。有网友直言:“这个好吓人。”

图源:X(Twitter)

AI学会读心术

从大脑活动中解码语音,是医疗保健和神经科学领域致力已久的目标。目前,侵入性设备已经取得了不错的成果:基于颅内活动记录训练的深度学习算法,可以开始解码基本的语言特征,如字母、单词和声谱图等。

然而,尽管非侵入性设备的风险更低,但将这种方法拓展到非侵入性设备却还在起步阶段。BrainMagick便是希望在非侵入性设备上有所突破。

研究团队收集了大量健康个体的非侵入性脑电活动记录,试图通过一个对比学习模型解码它们和语音之间的联系。

具体而言,研究人员首先向BrainMagick输入了两种类型的数据——EEG或MEG记录的脑电活动,以及与之相关的音频数据。

图源:Facebook Research

而后,该模型会使用一种名为对比损失(Contrastive Loss)的函数进行训练。简单来说,该函数可以将与脑电活动匹配的音频样本聚集到对应的脑电活动周边,同时隔开与脑电活动不匹配的音频样本,最终实现脑电活动数据和音频数据的对应。

BrainMagick的团队还特地整理了四个公共的数据集,用来测试这一方法的有效性,其中就包括175名志愿者在听短篇故事和孤立句子时,记录下的脑电活动。

图源:Facebook Research

结果表明,在Gwilliams2022数据集上,该模型的表现最佳,从3秒的MEG信号中识别出的语音片段,在1000多种不同的可能性中,top-1准确率高达41%,top-10准确率高达72.5%,在最佳参与者中准确率更是高达80%

同时,该模型还支持解码训练集中不存在的单词和短语,能够在超过1300个未见过的候选句子中,准确地识别出受试者当前正在听哪个句子,以及该句子中的哪个单词。

让失语者重新“说话”

根据美国国家失语症协会的数据,超过200万的美国人罹患失语症,而这个数字在我国大约是600万。许多患者往往因为神经系统疾病,如脑干中风、肌萎缩性侧索硬化症等,肌肉瘫痪后丧失语言能力。

如何帮助这些失语者重新恢复言语功能,一直是医学界长期以来的难题。

近年来,脑机接口(Brain-Computer Interface, BCI)技术日益发展,通过将大脑与外部设备连接起来,实现人脑与计算机或机器之间的直接交互和通信。脑机接口也成为了失语症患者恢复言语功能,期待已久的工具。

脑机接口,图源:IC photo

今年8月,Nature曾一天双发来自加州大学旧金山分校(UCSF)和斯坦福大学的“脑机接口”重磅研究,介绍了BCI恢复沟通能力的不同手段。

UCSF的研究人员将一系列电极植入了受试者Ann的大脑表层下,当Ann试图开口说话时,BCI会拦截大脑信号,并根据信号转化出相应的单词和语音。

图源:加州大学旧金山分校

不过,这种侵入性的脑机接口必然意味着需要接受手术,而手术势必伴随着风险。于是,BrainMagick的研究团队试图从EEG和MEG这样的非侵入性设备入手,寻找一种让失语者重新开口说话更安全的手段

对于失语者这个巨大的群体而言,这一成果无疑是振奋人心,BrainMagick为恢复他们的沟通能力提供了一条全新的途径。

项目开源,一块GPU即可训练

该项目也延续了Meta在大模型方面一贯的作风,为开源项目,并且已经在GitHub公布了开源地址,获得了161颗星。

根据GitHub上的提示信息,使用者需要使用至少一块内存为16GB的英伟达GPU来执行相关训练。使用者也可以通过减少批量处理的规模,以减少内存使用量,当然这可能会影响对比损失的过程。

图源:GitHub

在网络连接良好的情况下,该项目的安装最多需要20分钟。

此外,项目代码中也已经包含了数据预处理的步骤,包括潜在的下采样和低/高通滤波等,还对最耗时的计算进行了缓存操作,以提高效率。

图源:Facebook Research

BrainMagick团队的研究还表明,随着提供的数据量不断增大,模型的解码性能还能从越来越多的参与者那里学习,而得到一定程度的提升。

长按添加「智涌」小助手入群 添加请备注:公司+职务

展开阅读全文

页面更新:2024-03-03

标签:旧金山   失语症   心术   单词   语音   大脑   模型   接口   准确   成果   团队   数据   设备

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top