0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

惊!大脑视觉信号被Stable Diffusion复现成视频!

CVer 来源:量子位 2023-06-02 16:51 次阅读

现在,AI可以把人类脑中的信息,用高清视频展示出来了!

例如你坐在副驾所欣赏到的沿途美景信息,AI分分钟给重建了出来:

e8e12ad0-fae1-11ed-90ce-dac502259ad0.gif

看到过的水中的鱼儿、草原上的马儿,也不在话下:

e8f91f00-fae1-11ed-90ce-dac502259ad0.gif

e90528ea-fae1-11ed-90ce-dac502259ad0.gif

这就是由新加坡国立大学和香港中文大学共同完成的最新研究,团队将项目取名为MinD-Video。

e914e28a-fae1-11ed-90ce-dac502259ad0.png

Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity 主页:https://mind-video.com/ 论文:https://arxiv.org/abs/2305.11675 代码:https://github.com/jqin4749/MindVideo

这波操作,宛如科幻电影《超体》中Lucy读取反派大佬记忆一般:

e91f001c-fae1-11ed-90ce-dac502259ad0.gif

引得网友直呼:

推动人工智能和神经科学的前沿。

e94a5302-fae1-11ed-90ce-dac502259ad0.png

值得一提的是,大火的Stable Diffusion也在这次研究中立了不小的功劳。

e9588300-fae1-11ed-90ce-dac502259ad0.png

怎么做到的?

从大脑活动中重建人类视觉任务,尤其是功能磁共振成像技术(fMRI)这种非侵入式方法,一直是受到学界较多的关注。

因为类似这样的研究,有利于理解我们的认知过程。

但以往的研究都主要聚焦在重建静态图像,而以高清视频形式来展现的工作还是较为有限。

之所以会如此,是因为与重建一张静态图片不同,我们视觉所看到的场景、动作和物体的变化是连续、多样化的。

而fMRI这项技术的本质是测量血氧水平依赖(BOLD)信号,并且在每隔几秒钟的时间里捕捉大脑活动的快照。

相比之下,一个典型的视频每秒大约包含30帧画面,如果要用fMRI去重建一个2秒的视频,就需要呈现起码60帧。

因此,这项任务的难点就在于解码fMRI并以远高于fMRI时间分辨率的FPS恢复视频。

为了弥合图像和视频大脑解码之间差距,研究团队便提出了MinD-Video的方法。

整体来看,这个方法主要包含两大模块,它们分别做训练,然后再在一起做微调。

e96f0e18-fae1-11ed-90ce-dac502259ad0.png

这个模型从大脑信号中逐步学习,在第一个模块多个阶段的过程,可以获得对语义空间的更深入理解。

具体而言,便是先利用大规模无监督学习与mask brain modeling(MBM)来学习一般的视觉fMRI特征。

然后,团队使用标注数据集的多模态提取语义相关特征,在对比语言-图像预训练(CLIP)空间中使用对比学习训练fMRI编码器

在第二个模块中,团队通过与增强版Stable Diffusion模型的共同训练来微调学习到的特征,这个模型是专门为fMRI技术下的视频生成量身定制的。

如此方法之下,团队也与此前的诸多研究做了对比,可以明显地看到MinD-Video方法所生成的图片、视频质量要远优于其它方法。

e97b83f0-fae1-11ed-90ce-dac502259ad0.png

而且在场景连续变化的过程中,也能够呈现高清、有意义的连续帧。

e98d88ac-fae1-11ed-90ce-dac502259ad0.png

研究团队

这项研究的共同一作,其中一位是来自新加坡国立大学的博士生Zijiao Chen,目前在该校的神经精神疾病多模式神经成像实验室(MNNDL_Lab)。

另一位一作则是来自香港中文大学的Jiaxin Qing,就读专业是信息工程系。

除此之外,通讯作者是新加坡国立大学副教授Juan Helen ZHOU。

据了解,这次的新研究是他们团队在此前一项名为MinD-Vis的功能磁共振成像图像重建工作的延伸。

MinD-Vis已经被CVPR 2023所接收。

e99ee28c-fae1-11ed-90ce-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30146

    浏览量

    268421
  • 人工智能
    +关注

    关注

    1791

    文章

    46859

    浏览量

    237584
  • 视觉
    +关注

    关注

    1

    文章

    146

    浏览量

    23893

原文标题:惊!大脑视觉信号被Stable Diffusion复现成视频!"AI读脑术"又来了!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    PCB视频板 —— 开启视觉盛宴的关键之匙

    PCB 视频板是一种专门用于处理视频信号的印制电路板。它作为电子元器件的支撑体和电气连接的载体 ,主要功能是承载与视频处理相关的电子元件,如视频信号处理器、解码器、编码器等。通过其上面
    的头像 发表于 09-06 14:18 103次阅读

    示波器的波形存储与复现,再也不怕瞬时信号抓不住了

    示波器和虚拟USB示波器来进行。Chrent台式示波器的波形存储与复现使用信号源模拟一个信号。通过BNC线将这个信号连接到示波器上。在示
    的头像 发表于 09-05 08:06 1902次阅读
    示波器的波形存储与<b class='flag-5'>复现</b>,再也不怕瞬时<b class='flag-5'>信号</b>抓不住了

    实操: 如何在AirBox上跑Stable Diffusion 3

    StableDiffusion3Medium是一种多模态扩散变换器(MMDiT)文本到图像模型,在图像质量、排版、复杂提示理解和资源效率方面具有显著提升的性能。目前瑞莎团队使用StableDiffusion3Medium开源模型,通过SOPHONSDK移植到SG2300X处理器系列产品上进行本地TPU硬件加速推理,实现在radxaAirbox上离线快速生成特
    的头像 发表于 07-23 08:34 216次阅读
    实操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 3

    STM32F4在APP运行时导致IAP程序修改怎么解决?

    IAP程序修改无法运行,导致过程IAP卡死。 已验证该错误发生在APP程序(地址0x08020000)中,仅IAP程序的首地址0x08000000和0x08000004两个数据改写,且每次复现
    发表于 05-17 09:32

    怎样检测测电路的差分信号和单端信号?

    在检测电路信号之前,首先要知道什么是测电路,什么是信号。盲目测试或使用不正确的测量方法可能会导致错误的波形甚至损坏仪器,危及安全。 1、差分
    的头像 发表于 03-26 11:00 733次阅读
    怎样检测<b class='flag-5'>被</b>测电路的差分<b class='flag-5'>信号</b>和单端<b class='flag-5'>信号</b>?

    UL Procyon AI 发布图像生成基准测试,基于Stable Diffusion

    UL去年发布的首个Windows版Procyon AI推理基准测试,以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精确且易于理解的工作负载,用以保证各支持硬件间公平、可比的性能表现。
    的头像 发表于 03-25 16:16 837次阅读

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图3D视频的能力,为视频制作领域带来了革命性的突破。
    的头像 发表于 03-22 10:30 788次阅读

    Stability AI推出Stable Video 3D模型,可制作多视角3D视频

    SV3D_u是Stable Video 3D的一个版本,仅需单幅图片即可生成运动轨迹视频,无须进行相机调整。扩充版本的SV3D_p加入了轨道视图的特性,使其可以根据预设的相机路径创建3D视频
    的头像 发表于 03-21 14:57 959次阅读

    韩国科研团队发布新型AI图像生成模型KOALA,大幅优化硬件需求

    由此模型的核心在于其运用了“知识蒸馏”(knowledge distillation)技术,这使得开源图像生成工具Stable Diffusion XL可大幅缩小其规模。原Stable Dif
    的头像 发表于 03-01 14:10 587次阅读

    OpenAI视频模型Sora的架构及应用场景

    LDM 就是 Stable Diffusion 使用的模型架构。扩散模型的一大问题是计算需求大,难以拟合高分辨率图像。为了解决这一问题,实现 LDM时,会先训练一个几乎能无损压缩图像的自编码器,能把 512x512 的真实图像压缩成 64x64 的压缩图像并还原。
    发表于 02-20 15:13 612次阅读
    OpenAI<b class='flag-5'>视频</b>模型Sora的架构及应用场景

    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大,而Stable
    的头像 发表于 02-19 16:03 895次阅读
    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    一种新的分割模型Stable-SAM

    SAM、HQ-SAM、Stable-SAM在提供次优提示时的性能比较,Stable-SAM明显优于其他算法。这里也推荐工坊推出的新课程《如何将深度学习模型部署到实际工程中?
    的头像 发表于 12-29 14:35 625次阅读
    一种新的分割模型<b class='flag-5'>Stable</b>-SAM

    NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

    在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率出解析出人眼观看到的图像。 人类的感知不仅由客观
    的头像 发表于 12-24 21:35 495次阅读
    NeurIPS23|<b class='flag-5'>视觉</b> 「读脑术」:从<b class='flag-5'>大脑</b>活动中重建你眼中的世界

    免费开源图像修复工具lama-cleaner介绍

    Lama Cleaner 是由 SOTA AI 模型提供支持的免费开源图像修复工具。可以从图片中移除任何不需要的物体、缺陷和人,或者擦除并替换(powered by stable diffusion)图片上的任何东西。
    的头像 发表于 12-04 10:23 2818次阅读
    免费开源图像修复工具lama-cleaner介绍

    LDR6020 VR串流线方案:实现同时充电传输视频信号

    ,将用户带入一个虚拟的三维环境中,感受到身临其境的视觉和听觉体验。那么VR中的视频信号和音频信号是如何进行传输的呢,今天我们华光昱能Hangalaxy就来详细讲解VR串流中的有线串流。 VR有线串流简介:而在VR中,有线串流
    的头像 发表于 11-27 09:24 602次阅读
    LDR6020 VR串流线方案:实现同时充电传输<b class='flag-5'>视频信号</b>