小红书多模态团队建立新「扩散模型」：解码脑电波，高清还原人眼所见

近些年，研究人员们对探索大脑如何解读视觉信息，并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文，通过扩散模型重建视觉影像，给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么，并且帮你画了出来。

第一行：人眼所见画面，第二行：AI 重现的画面

简而言之，AI 利用 fMRI 信号（全称为功能性核磁共振成像）+ Diffusion Model，就能一定程度上实现「读脑术」。

不过，如何有效提取并利用 fMRI 信号中隐含的语义和轮廓信息，仍然是业界的一个关键挑战。

在上月揭晓的 AAAI 2024 上，小红书多模态团队提出了一种新方法——可控脑视觉扩散模型（Controllable Mind Visual Diffusion Model，CMVDM）。该模型能很好地将 fMRI 信号还原为与原始视觉刺激语义属性一致，空间结构对齐的高质量图片，可以使得生成的图像清晰度更高、也更接近人眼所见的原始图像。

具体来说，CMVDM 首先使用属性对齐和辅助网络，从 fMRI 数据中提取语义和轮廓信息。其次，引入一个控制模型并结合残差块，充分利用提取的信息进行图像合成，生成与原始视觉刺激在语义内容和轮廓特征上高度相似的高质量图像。

通过大量实验，小红书多模态团队证明了 CMVDM 在可视化质量和技术指标上都优于现有的最先进的方法（SOTA）。此外，团队还发现大脑的高级视觉皮层（HVC）主要关注视觉刺激的语义信息，而低级视觉皮层（LVC）则主要关注视觉刺激的结构信息。

理解人类大脑在观察视觉刺激（例如自然图像）时发生的认知过程，一直是神经科学家的主要关注点。客观的视觉刺激和主观的认知活动，都能在大脑的视觉皮层中引发复杂的神经信号传递，从而为更高层次的认知认知和决策过程奠定基础。随着功能性磁共振成像（fMRI）等技术的进步，人们已经能够以更高的精度和更细的粒度捕获实时的大脑活动信号，从而加速了神经科学研究的进程。然而，对于认知神经科学和下游应用（如脑机接口 BCI）来说，解读和重构这些复杂的信号仍然是一个巨大的挑战。

早期尝试在分析视觉任务的大脑活动时，主要关注将在人类受试者的大脑活动与观察到的自然图像相匹配，或者重构简单几何形状的视觉模式。这些探索证明了从大脑信号中获取感知图像的语义信息的可行性，然而它们对未见过的语义类别或复杂的重构任务的泛化能力较差。

近期研究在从大脑信号重构视觉刺激方面取得了重要进展。Roman Beliy、Guy Gaziv 等工作能够生成与原始视觉刺激形状相似的图像，但这些图像存在严重的扭曲和模糊问题。文献 IC-GAN, Mind-Vis 等研究采用了常用的生成模型，如生成对抗网络（GAN）或扩散模型，生成的高质量 RGB 图像在语义上与原始视觉刺激保持一致，条件是对应的 fMRI 信号。然而，如图所示，这些方法在位置一致性上存在问题。总的来说，现有方法未能有效地利用 fMRI 信号中固有的语义和空间特征。

为了解决上述问题，我们提出了一种可控脑视觉扩散模型（CMVDM），该模型通过控制网络使扩散模型能够利用提取出可信的语义和轮廓信息，从而完成高度逼真的人类视觉重构。我们在两个数据集上进行了全面的实验来评估 CMVDM 的性能。与现有的方法相比，它在定性和定量结果上都达到了最先进的水平（SOTA），证明了 CMVDM 从 fMRI 信号中解码高质量和可控图像的有效性。

CMVDM 框架示意图

具体来说，我们的方法可以被拆解为：

● 我们首先对一个预训练的潜在扩散模型（Latent Diffusion Model，LDM）进行微调，使用语义对齐损失来提高性能，并预训练一个轮廓提取器来估计 fMRI 数据的准确语义和轮廓信息。

● 受 ControlNet 的启发，我们引入一个控制网络，该网络将轮廓信息作为条件输入到预训练的 LDM 中，以指导扩散过程生成所需的图像，这些图像在语义和轮廓信息方面都与原始视觉刺激相匹配。

● 此外，我们构建了一个残差模块来提供超出语义和轮廓的信息。

2.1 预训练 LDM 调整以及语义信息提取

我们引入在 HCP 数据集上预训练的 fMRI 信号特征提取器以及预训练的 LDM 网络，通过下述监督损失优化 fMRI 信号特征提取器以及 LDM 网络中的 cross attention 层，从而基本实现将脑电信号还原为视觉刺激。

我们将上文从 fMRI 信号提取器中得到的特征定义为从 fMRI 信号中提取的语义信息。由于缺乏直接的语义监督，只凭上文提到的监督函数可能无法提供足够的语义信息。因此，我们设计了一个语义对齐损失来进一步增强语义信息和余弦相似度，如下所示。

核心思路是将从 fMRI 信号中提取出的语义信息与 CLIP 处理图片得到的特征进行对齐。可以参考「CMVDM 框架示意图」中的“Finetuning LDM”部分。

2.2 轮廓信息提取

由于缺乏明确的位置条件指导，Latent Diffusion Model 生成与轮廓匹配的结果仍然是一个挑战。因此，我们提出了轮廓估计网络来提取轮廓信息。我们的轮廓估计网络由两个对称的部分组成：一个编码器和一个解码器。编码器将输入图像投影到 fMRI 信号空间，而解码器则正相反。我们采用结构相似性（SSIM）损失和平均绝对误差（MAE）损失来优化图像和 Ground Truth 图像之间的空间距离，具体公示如下。我们采用解码器从 fMRI 信号中提取轮廓信息。

可以参考「CMVDM 框架示意图」中的 “Silhouette Extraction” 部分。

2.3 控制网络训练

在从 fMRI 信号中获取增强的语义信息和可靠的轮廓信息后，我们使用它们来控制生成的结果。受 ControlNet 的启发，我们设计了一个控制模型来控制生成图像的整体构成。具体来说，我们固定了 LDM 中去噪网络中的所有参数，并将去噪网络的 U-Net 编码器克隆到可训练的控制模块中。控制模块的输入包括噪声潜在代码、语义信息和轮廓信息。此外，为了弥补在属性提取中丢失的 fMRI 信息，我们采用了一个可训练的残差块来添加超出语义和轮廓的信息。推理过程和监督控制模型的训练损失表示为：

可以参考「CMVDM 框架示意图」中的 “Control Model” 以及部分。

我们考虑在不同复杂度数据集上进行视觉信号重建测试，考虑的数据集有两个：Generic Objects Dataset (GOD)、BOLD5000 (Brain, Object, Landscape Dataset)。前者多为受试者对简单图片物体的脑电信号-图片对，后者则增加了场景复杂度和数据量。我们将 CMVDM 与四种 SOTA 方法进行比较：Beliy、Gaziv、IC-GAN、MinD-Vis。为评估模型的性能，在评价指标上我们考虑 N-way 分类准确度（Acc)，皮尔森相关系数（PCC)，结构相似性度量（SSIM）来评价生成图像的语义准确度和结构相似性。

3.1 指标对比结果

如图所示，实验结果揭示了 CMVDM 总体上显著优于其他方法。与 IC-GAN、MinD-Vis 相比，尽管两者都产生了良好的结果，但 CMVDM 在 SSIM 方面显著优于它们。这表明 CMVDM 生成的图像在物体轮廓和图像结构方面与视觉刺激的相似度更高。Gaziv 在 SSIM 方面取得了显著的结果，但视觉结果表明，Gaziv 方法无法生成高保真度的图像。

3.2 可视化对比结果

● GOD 上的可视化对比

● BOLD5000 对比结果

3.3 实验分析

本工作对提出的损失函数与引入的模块进行了消融实验，并结合不同视觉皮层的脑电信号进行实验对比与可视化验证，证明了所提出方法的有效性。

● 消融实验指标分析

消融实验表明，CMVDM 在引入了新的对齐损失与结构控制模块后实现了对原始刺激更高的语义准确度和结构相似性。

引入的残差模块有效提高了模型的表现：

● 重建结果一致性可视化分析

我们的方法相比于 MinD-Vis 在生成一致性上更佳，表现出了对生成图片结构的有效控制。

● 不同视觉皮层区域信号的重建分析

实验结果与可视化表明：LVC 在结构指标上(如 SSIM )表现优于 HVC，表明低级视觉皮层捕获视觉信息的结构等低级特征；HVC 在语义指标上(如 Acc )表现明显优于 LVC，表明高级视觉皮层用于处理更抽象的语义特征；借助全视觉皮层 VC 的信号，我们的方法可以有效重建出语义、结构与原始视觉刺激相近的高质量图像。

我们提出了可控脑视觉扩散模型（CMVDM）。这项工作将脑电信号重建问题分解为特征提取和图像重建两个子任务。通过采取自监督与半监督方法，我们分别提取信号的语义和结构特征，并利用预训练扩散模型的丰富知识进行多条件视觉信号重建，实现了与原始视觉刺激语义匹配且结构相似的高质量图像生成。

更进一步，CMVDM 在脑电信号重建相关的数据集上取得了最先进成果（SOTA），展现了其在复杂场景视觉信号可控重建方面的良好泛化性，突出其在神经科学和计算机视觉交叉领域的创新性和实用性。本文提出的 Diffusion-based 生成方案可拓展至泛化的条件可控生成领域，为小红书发布端文生图新玩法提供更多方案。

论文地址：https://arxiv.org/pdf/2305.10135.pdf

曾博涵
现为北京航空航天大学硕士研究生，小红书创作发布团队实习生，曾在 ECCV、CVPR、NeurIPS 等发表论文。主要研究方向为计算机视觉生成。

李尚霖
现为北京航空航天大学硕士研究生，小红书创作发布团队实习生，曾在 AAAI 发表多篇论文。主要研究方向为计算机视觉生成、联邦学习等。
莱戈（贾一亮）
小红书生态算法团队负责人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等会刊发表 10 余篇论文，曾获 YouTube-VOS 视频分割竞赛 Top-3 排名，曾获天池视觉分割大奖赛复赛第 1 名。主要研究方向：目标跟踪、视频分割、多模态分类/检索等。
汤神（田不易）
小红书创作发布团队负责人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等会议与期刊发表近 20 篇论文。多次刷新 WiderFace 和 FDDB 国际榜单世界记录，ICCV Wider Challenge 人脸检测国际竞赛冠军，ICCV VOT 单目标跟踪冠军，CVPR UG2+ 亚军。

NLP 算法工程师-智能创作

岗位职责：

基于高质量的小红书内容生态，研发实用领先的 NLP 智能创作技术，技术栈包括关键词提取、情感分析、上下文理解、命名实体识别、词性标注、句法分析、机器翻译、文本摘要、问答系统等，广泛支持智能内容创作需求，创造小红书独有的产品用户价值。

任职资格：

1. 熟悉语言知识表示、多模态生成模型及 NLP 智能创作，在以下一个或多个领域有深入的研究及落地经验，包括但不限于：NLP 生成、文案创作、多轮对话、模型压缩等

2. 具有优秀的编程基础及动手能力、良好的工作习惯，丰富的业务落地实战经验，优秀的快速学习能力

3. 敢于应对实际挑战，有坚韧的品质、优秀的自驱能力，善于主动沟通表达和团队协作

4. 发表 ML/NLP 等顶会/期刊论文、取得权威竞赛 Top 名次、ACM 编程国际竞赛 Top 成绩者优先

欢迎感兴趣的同学发送简历至[email protected]，并抄送至[email protected]。

算法工程师-社区生态

岗位职责：

职责包括但不限于图文、视频等多模态内容的分类、检索、去重等工作，旨在优化平台内容生态、提升内容质量和分发效率，提高用户体验；
负责 CV 相关算法研发，包括但不限于：图像/视频分类、图像检测/分割、视频理解、人脸识别、OCR、自监督学习等；
负责 NLP 相关算法研发，包括但不限于：文本分析、语义分析、事件提取、分类、聚类、情感、问答、关系抽取、知识图谱等；
完成算法的快速实现以及大规模工业化部署，参与创新性算法的研究以及开发工作；提供系统解决方案，打造可复用的社区业务平台能力，提升社区核心服务稳定性；有互联网内容生态相关技术从业经验者优先。

任职资格：

计算机/电子信息/自动控制/软件工程/数学等相关专业，硕士及以上学历
优秀的分析、解决问题能力，对新技术充满好奇，敢于挑战高难度，善于提出解决方案并快速验证；
熟练掌握 PyTorch/TensorFlow 等深度学习框架中的至少一种；
具备优秀的编程能力和经验，熟悉 Python、C/C++、Java 等编程语言，具有扎实的数据结构和算法功底；
具备优秀的研究和创新能力，在 CVPR/ICCV/ECCV 与 ICML/ACL/EMNLP/KDD/AAAI 等计算机视觉&自然语言处理&机器学习领域国际顶会或顶刊上发表过论文或 workshop 获奖者优先; 在国际竞赛(如: ACM ICPC, Kaggle, KDD Cup 等)中获得过优异成绩者优先；

欢迎感兴趣的同学发送简历至[email protected]，并抄送至[email protected]。

往期精彩内容指路

添加小助手，了解更多内容

微信号 / REDtech01