大脑视觉信号被Stable Diffusion复现图像！日本新研究炸了

丰色萧箫发自凹非寺
量子位 | 公众号 QbitAI

“现在Stable Diffusion已经能重建大脑视觉信号了！”

就在昨晚，一个听起来细思极恐的“AI读脑术”研究，在网上掀起轩然大波：

这项研究声称，只需用fMRI（功能磁共振成像技术，相比sMRI更关注功能性信息，如脑皮层激活情况等）扫描大脑特定部位获取信号，AI就能重建出我们看到的图像！

例如这是一系列人眼看到的图像，包括戴着蝴蝶结的小熊、飞机和白色钟楼：

AI看了眼人脑信号后，立马就给出这样的结果，属实把该抓的重点全都抓住了：

再发展一步，这不就约等于哈利波特里的读心术了吗？？

更有网友感到惊叹：如果说ChatGPT开放API是件大事，那这简直称得上疯狂。

所以，这究竟是怎么一回事？

用Stable Diffusion可视化人脑信号

这项研究来自日本大阪大学，目前已经被CVPR 2023收录：

研究希望能从人类大脑活动中，重建高保真的真实感图像，来理解大脑、并解读计算机视觉模型和人类视觉系统之间的联系。

要知道，此前虽然有不少脑机接口研究，致力于从人类大脑活动中读取并重建信号，如意念打字等。

然而，从人类大脑活动中重建视觉信号——具有真实感的图像，仍然挑战极大。

例如这是此前UC伯克利做过的一项类似研究，复现一张人眼看到的飞机片段，但计算机重建出来的图像却几乎看不出飞机的特征：

△图源UC伯克利研究Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies

这次，研究人员重建信号选用的AI模型，是这一年多在图像生成领域地位飞升的扩散模型。

当然，更准确地说是基于潜在扩散模型（LDM）——Stable Diffusion。

整体研究的思路，则是基于Stable Diffusion，打造一种以人脑活动信号为条件的去噪过程的可视化技术。

它不需要在复杂的深度学习模型上进行训练或做精细的微调，只需要做好fMRI（功能磁共振成像技术）成像到Stable Diffusion中潜在表征的简单线性映射关系就行。

它的概览框架是这样的，看起来也非常简单：

仅由1个图像编码器、1个图像解码器，外加1个语义解码器组成。

具体怎么work？

如下图所示，第一部分为本研究用到的LDM示意图。

其中ε代表图像编码器，D代表图像解码器，而τ是一个文本编码器（CLIP）。

重点是解码分析，如下图所示，模型依次从大脑早期（蓝色）和较高（黄色）视觉皮层内的fMRI信号中，解码出重建图像（z）和相关文本c的潜在表征。

然后将这些潜在表征当作输入，就可以得到模型最终复现出来的图像Xzc。

最后还没有完，如编码分析示意图，作者还构建了一个编码模型，用来预测LDM不同组件（包括图像z、文本c和zc）所对应的fMRI信号，它可以用来理解Stable Diffusion的内部过程。

可以看到，采用了zc的编码模型在大脑后部视觉皮层产生的预测精确度是最高的。（zc是与c进行交叉注意的反向扩散后，z再添加噪声的潜在表征）

相比其它两者，它生成的图像既具有高语义保真度，分辨率也很高。

还有用GAN重建人脸图像的

看完这项研究，已经有网友想到了细思极恐的东西：

这个AI虽然只是复制了“眼睛”所看到的东西。
但是否会有一天，AI能直接从人脑的思维、甚至是记忆中重建出图像或文字？

“语言的用处不再存在了”

于是有网友进一步想到，如果能读取记忆的话，那么目击证人的证词似乎也会变得更可靠了：

还别说，就在去年真有一项研究基于GAN，通过fMRI收集到的大脑信号重建看到的人脸图像：

不过，重建出来的效果似乎不怎么样……

显然，在人脸这种比较精细的图像生成上，AI“读脑术”还有很长一段路要走。

对于这种大脑信号重建的研究，也有网友提出了质疑。

例如，是否只是AI从训练数据集中提取出了相似的数据？

对此有网友回复表示，论文中的训练数据集和测试集是分开的：

作者们也在项目主页中表示，代码很快会开源。可以先期待一下~

作者介绍

本研究仅两位作者。

一位是2021年才刚刚成为大阪大学助理教授的Yu Takagi，他主要从事计算神经科学和人工智能的交叉研究。

最近，他同时在牛津大学人脑活动中心和东京大学心理学系利用机器学习技术，来研究复杂决策任务中的动态计算。

另一位是大阪大学教授Shinji Nishimoto，他也是日本脑信息通信融合研究中心的首席研究员。

研究方向为定量理解大脑中的视觉和认知处理，谷歌学术引用3000+次。

那么，你觉得这波AI重建图像的效果如何？

项目地址：
https://sites.google.com/view/stablediffusion-with-brain/

参考链接：
[1]https://twitter.com/SmokeAwayyy/status/1631474973243236354
[2]https://twitter.com/blader/status/1631543565305405443
[3]https://news.berkeley.edu/2011/09/22/brain-movies/
[4]https://www.nature.com/articles/s41598-021-03938-w

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

展开阅读全文

页面更新：2024-04-24

标签：大阪大脑信号图像视觉表征皮层人脑日本模型网友

1 2 3 4 5

前实习生称遭同事性侵犯后在转留用中受到不公正对待，蔚来回应

新京报讯 3月4日，针对“前实习生称遭同事性侵犯后在转留用中受到不公正对待”一事，蔚来控股有限公司发布情况说明称，蔚来零容忍任何的违法犯罪与性骚扰行为，对收到的每一起举报事件都会进行彻底调查，并对查实的不合规行为

红旗全新SUV概念车来袭，外观前卫科幻，配800伏快充

近几年，老牌劲旅的红旗的转型之路走的是十分顺畅，旗下的车款越来越年轻时尚。近日，红旗又发布了一款全新的概念车，内部代号为红旗E202，定位中大型SUV，并采用了纯电动力，在新能源领域又往前踏了几步。新车外观前卫科幻，量产车

用人脑模拟计算机，会让计算机更聪明吗？

图片来源@视觉中国文｜根新未来，作者｜陈根2月28日，在国际学术期刊《人工智能前沿》杂志上，科学家发表标题为《建立类器官智能社区的首个类器官智能（OI）研讨会》的文章，提出了一个前所未有的新概念——类器官智能，并发布了首个“

一文搞懂Go1.20内存分配器

作者：mingguangtu，腾讯IEG后台开发工程师| 导语最近学习了Go内存分配器的相关文章，结合Go最新的源码，以简单精炼的语言和丰富的图表形式，输出了自己的Go内存分配器的学习笔记。关于Go内存分配器的分析文章很多，看到的比较经

OpenA一折I开放ChatGPT，谷歌该怎么应对？

OpenA一折I开放ChatGPT，谷歌该怎么应对？ ChatGPT是由OpenAI开发的人工智能聊天机器人，于2022年11月发布。它基于OpenAI的GPT-3.5的大型语言模型，并使用了监督学习和强化学习技术。可以与用户进行自然语言交流，回答用户的问

谁在买华为问界？南北方人消费观念和经济实力的差异？

问界车主画像最近发了几篇关于华为赛力斯问界的小文章，发现阅读这些文章的用户具有高度集中的特征（详见下图）。从年龄上看，大多在30-40岁之间，占比超过50%，其次是24-30岁以及41-50岁，合计约40%，另外有一部分是50岁以上。换句

vivo很勇敢，120W快充+4nm高端机，12G+256G又降了2000

为什么懂行的人越来越喜欢入手vivo iQOO系列旗舰，而不是vivo X系列旗舰？其实原因很明了，vivo iQOO系列具备了强大的综合配置，外观设计颜值高、处理器强、快充续航完美，关键是影像也不错，但总体的售价上却不如vivo X系列贵，所

太阳系内，出现了一个“不该存在”的环

对围绕其他恒星运行的行星进行观测的间歇，欧洲航天局（ESA）的系外行星特性探测卫星（CHaracterising ExOPlanet Satellite，Cheops）任务为一个新发现做出了决定性贡献：在太阳系中一颗矮行星的周围，出现了一个意想不到的致密物质

网约车为什么不能由交通部门统一收费标准？司机都被坑哭了，心疼

如今网约车的平台数已经达到了200多家，除了耳熟能详的滴滴、高德、一喂顺风车、T3出行这类一线平台，还有像首汽约车、花小猪打车、哈啰、滴答这样的后起之秀。按理说，更多的平台给了司机更多的选择，乘客也有选择平台的权

计算机行业隐私计算专题研究：隐私计算发展迅猛，长期空间大

（报告出品方/作者：国泰君安证券，李沐华、朱丽江）市场概况：隐私计算产业正在发展壮大隐私计算是在保障数据隐私安全的同时，实现数据分析计算的技术体系隐私计算是一套包含了密码学、数据科学、人工智能、安全硬件等多个交叉

Coinbase 收购 One River Digital 以扩大对加密资产的机构访问

加密货币交易所 Coinbase 已收购 One River Digital Asset Management，这是一家机构数字资产管理公司，也是美国证券交易委员会 (SEC) 的注册投资顾问。该加密货币交易所表示，此次收购使 Coinbase 能够“扩大机构对数字资

英特尔或在开发视频超分辨率技术：最低要求为配备核显的第10代酷睿处理器

据之前报道，英伟达在GeForce Game Ready 531.18 WHQL驱动程序中，为Chrome和Edge浏览器提供了RTX Video Super Resolution（VSR）技术支持，适用于部分视频网站的在线内容。援引VideoCardz的消息，英特尔似乎也在准备推出类似技

书单丨ChatGPT火了！10本书搞懂人工智能

《生命3.0》一书中，作者迈克斯·泰格马克对人类的终极未来进行了全方位的畅想，从我们能活到的近未来穿行至1万年乃至10 亿年及其以后，从可见的智能潜入不可见的意识，重新定义了“生命”“智能”“目标”“意识”，并澄清了

11 个对懒惰程序员有用的 Python 代码片段

这是最有用的 Python 代码片段，它们将使您作为程序员的生活更轻松！在本文中，我将向您展示11 个对懒惰的程序员有用的 Python 代码片段，它有时会很有用，因为您在生活中需要现成的东西。因此，不要浪费任何时间让我们开始吧。1

当年最经典的安卓神机，居然诈尸了！

我不知道有多少小伙伴真正用过这款手机哦？就算没用过，那肯定都认得吧？作为当时摩托罗拉的 “ 超经典 ” 机型，Defy “ 戴妃 ” 绝对是很多小伙伴之前 “ 梦中情机 ” 。包括果子在内......之前真的为了能买到它，初中假期一

上滑加载更多 ↓

大脑视觉信号被Stable Diffusion复现图像！日本新研究炸了

用Stable Diffusion可视化人脑信号

△图源UC伯克利研究Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies

还有用GAN重建人脸图像的

作者介绍

前实习生称遭同事性侵犯后在转留用中受到不公正对待，蔚来回应

红旗全新SUV概念车来袭，外观前卫科幻，配800伏快充

用人脑模拟计算机，会让计算机更聪明吗？

一文搞懂Go1.20内存分配器

OpenA一折I开放ChatGPT，谷歌该怎么应对？

谁在买华为问界？南北方人消费观念和经济实力的差异？

vivo很勇敢，120W快充+4nm高端机，12G+256G又降了2000

太阳系内，出现了一个“不该存在”的环

网约车为什么不能由交通部门统一收费标准？司机都被坑哭了，心疼

计算机行业隐私计算专题研究：隐私计算发展迅猛，长期空间大

Coinbase 收购 One River Digital 以扩大对加密资产的机构访问

英特尔或在开发视频超分辨率技术：最低要求为配备核显的第10代酷睿处理器

书单丨ChatGPT火了！10本书搞懂人工智能

11 个对懒惰程序员有用的 Python 代码片段

当年最经典的安卓神机，居然诈尸了！

用人脑模拟计算机，会让计算机更聪明吗？

大脑科学颠覆认知的案例，让我这七年级孩子家长，反思教育

Bella到底有没有抢C位？网友出面代其澄清，经纪人回应头晕

一代女神钟丽缇直播时老态毕现，网友：何不安静老去，不磕碜

桓武天皇律令制度改革：健儿制为何是日本武士阶层产生的

嫁入日本皇族有多可怕，哈佛才女、富商爱女两位平民皇后

“水哥”王昱珩首度谈感情，对最强大脑来说，破镜也无法重

经济学家王福重：中国人勤奋勇敢智慧都是扯淡，买日本货就

日本央行突然释放“鸽派”信号日元利差交易资金海外

球星赛大结局！5项冠军出炉，国乒拿下2冠，韩国队2冠，日本队1