NÜWA多模态模型支持八大视觉生成与编辑任务-电子发烧友网

小编说：“自然语言”正在越来越经常地出现在我们的日常生活中。你有没有想象过，我们有一天可以使用自然语言对视觉内容进行编辑?微软亚洲研究院最新推出的多模态模型 NÜWA，不仅让视觉内容创造多了一条路，甚至还让 Windows 经典桌面有了更多的打开方式。人类对于信息的感知有五种途径，包括视觉、听觉、嗅觉、触觉和味觉，其中视觉是接受信息的最主要渠道，也是创造力的源泉。在推动人工智能发展的道路上，计算机视觉已经成为一个重要的研究领域，尤其是近几年视觉创作类应用的频繁涌现，让创作变得越来越便捷，越来越多的用户可以用这些工具制作和分享身边的美好生活。与此同时，视觉类应用的广泛使用也促进了计算机视觉领域的研究。

然而，尽管这些工具功能强大，但仍有不足之处：其一，它们需要创作者手动收集和处理视觉素材，导致现有的大规模视觉数据中所包含的视觉知识无法自动地有效利用。其二，这些工具往往是通过图形界面与创作者交互，并非自然语言指令，因此对于一些用户来说，具有一定的技术门槛，他们需要拥有丰富的使用经验。在微软亚洲研究院看来，下一代可视化内容创建工具应该能够利用大数据、AI 模型帮助用户更便捷地进行内容创作，并使用自然语言作为更加友好的交互界面。

在这样的理念下，微软亚洲研究院在视频生成预训练模型的基础上进行再创新，开发了多模态的 NÜWA(Neural visUal World creAtion)模型。通过自然语言指令，NÜWA 可以实现文本、图像、视频之间的生成、转换和编辑，帮助视觉内容创作者降低技术门槛，提高创造力。同时，开发者也可以利用 NÜWA 构建基于 AI 的视觉内容创造平台。

支持八大视觉生成与编辑任务

NÜWA 目前支持八大视觉生成和编辑任务。其中，支持图像的四类任务包括：文本到图像，草图到图像，图像补全，图像编辑;支持视频的四类任务包括：文本到视频，视频草图到视频，视频预测，视频编辑。下面，让我们以 Windows 经典桌面为例，试一下 NÜWA 的几个功能。

给定一张原始图片;

让 NÜWA 将图片补全为256x256(图像补全);

让 NÜWA 在图片的红框位置处添加“一匹在草地上行走的马”(图像编辑);

让 NÜWA 将这张图片生成为一个能“动”起来的视频(视频预测)。

NÜWA-LIP：让视觉编辑更精细

NÜWA 模型已基本包含了视觉创作的核心流程，可在一定程度上辅助创作者提升效率，但在实际创作中，创作者还有很多多样且高质量的需求。为此，微软亚洲研究院的研究员们在 NÜWA 的基础之上更新迭代，于近日提出了 NÜWA-LIP 模型，并且在视觉领域的典型任务——缺陷图像修复中取得了新突破。尽管此前也有方法完成了类似的图像修复，但是模型的创作却比较随意，无法符合创作者的意愿，而 NÜWA LIP 几乎可以按照给定的自然语言指令修复、补全成人们肉眼可接受的图像。下面，让我们直观感受一下 NÜWA-LIP 神奇的图像修复效果。图2给出了两个例子。第一个例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托车手骑四轮车)来补全黑色区域。已有工作 GLIDE 虽然可以补全，但是可以看到边界处有明显的白线，并且补全的区域比较模糊。NÜWA 模型使用自回归的方式从左到右依次扫描生成，边界处相比于 GLIDE 更加自然。但是由于在补全黑色区域时看不到右侧的车轮，因此标准的 NÜWA 模型存在补全边界衔接不对的问题。NÜWA-LIP 修复了 NÜWA 这一不足，它会提前预看整个图像，并创新地使用无损编码技术，然后再自回归地生成，因此可以做到黑色区域边界处衔接自然，并且补全区域也很清晰。

NÜWA-Infinity：让视觉创作趋于 “无限流”

除了图像修复之外，微软亚洲研究院在高分辨率、大图像的横向延展方面也进行了持续研究，提出了 NÜWA Infinity 模型。顾名思义，NÜWA Infinity 可以根据给定的图像生成无限连续的高清“大片”。“一开始 NÜWA 能够生成、编辑的图像和视频的分辨率相对较低，一般是256×256分辨率的小图。我们希望通过模型可以生成更高清的大图，形成更大的视觉冲击，满足不同创作者的实际需求。简单来说，NÜWA Infinity 会根据图像的不同层次内容扫描每一帧窗口，不断渲染形成高像素、连续的大图，”微软亚洲研究院研究员吴晨飞介绍说。想知道 Windows 经典桌面的右侧是什么样么?点击下图，NÜWA-Infinity 为你“揭开”神秘面纱。

段楠补充说，“表面看 NÜWA Infinity 解决了之前 NÜWA 生成图片不高清，以及视频帧数有限的问题。但其实 NÜWA Infinity 从底层形成了一套生成机制，不仅可以对图片进行延展式的生成，也可以应用于视频预测创作，而这也是我们接下来要攻克的研究课题。”

自此，NÜWA-LIP 让机器接受语言指令自动修图成为了可能，而 NÜWA-Infinity 则使得图像生成质量向高清、无限的真实世界迈进了一大步。按照这样的迭代创新步伐，未来创作者拥有一套趋于“无限流”的视觉创作辅助工具，指日可待。

NÜWA 在八大任务中的效果

NÜWA 多模态模型连锁反应：或将带来更多“杀手级”应用

微软亚洲研究院高级研究员段楠表示，“NÜWA 是第一个多模态预训练模型。我们希望 NÜWA 可以实现真实世界的视频生成，但在训练过程中模型会产生大量的‘中间变量’，消耗巨大的显存、计算等资源。因此，NÜWA 团队与系统组的同事们联手协作，为 NÜWA 在系统架构上设置了多种并行机制，如张量并行、管道并行和数据并行，使得我们的跨模态训练成为可能。”

未来，随着人工智能技术的发展，增强现实、虚拟现实等沉浸式的人机交互界面将会得到更广泛的应用，数字世界和物理世界的结合也将越来越紧密。而不同类型的多模态内容则是拉近虚拟空间与现实世界的强力胶，因此，虚拟内容的创建、编辑和交互将至关重要。NÜWA 提供的视觉内容生成和编辑技术，为这些应用提供了无限的想象空间。当多模态技术成为未来人工智能应用发展的方向时，多模态模型将会为学习、广告、新闻、会议、娱乐、社交网络、数字人、脑机交互等领域带来更多的下一代“杀手级”应用。

原文标题：用一句话，让AI画一匹马是什么体验?

文章出处：【微信公众号：微软科技】欢迎添加关注!文章转载请注明出处。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6954

浏览量
88904
AI

AI

+关注

关注
87

文章
30503

浏览量
268741
模型

模型

+关注

关注
1

文章
3199

浏览量
48789

原文标题：用一句话，让AI画一匹马是什么体验？

文章出处：【微信号：mstech2014，微信公众号：微软科技】欢迎添加关注！文章转载请注明出处。

基于AX650N/AX630C部署多模态大模型InternVL2-1B

InternVL2是由上海人工智能实验室OpenGVLab发布的一款多模态大模型，中文名称为“书生·万象”。该模型在多学科问答（MMMU）等任务

发表于 11-18 17:32 •632次阅读

高通与智谱推动多模态生成式AI体验的终端侧部署

此前，骁龙峰会首日，智谱与高通技术公司宣布合作将GLM-4V端侧视觉大模型，面向骁龙8至尊版进行深度适配和推理优化，支持丰富的多模态交互方式

发表于 11-08 09:55 •163次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •389次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

丰富外设配件配套多模态应用示例，支持快速上手体验大模型语音交互、智能视觉等 AI 应用板载 DAPLINK 调试器，外接一条USB 线即

发表于 06-18 17:33

阿里云通义大模型助力“小爱同学”强化多模态AI生成能力

小米的人工智能助手“小爱同学”近期与阿里云通义大模型达成战略合作，共同提升其多模态AI生成能力，特别是在图片生成与理解方面。这次合作不仅将强

发表于 05-13 09:19 •773次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+

发表于 04-18 17:01 •574次阅读

NVIDIA Edify多模态架构升级，引领视觉生成式AI新纪元

NVIDIA近日宣布，其用于视觉生成式AI的多模态架构Edify迎来重大更新，为开发者和视觉内容提供商带来前所未有的新功能。其中，3D资产

发表于 03-27 10:22 •436次阅读

蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

近日，蚂蚁集团联合武汉大学宣布成功研发出20亿参数多模态遥感基础模型SkySense。这一创新模型由蚂蚁集团的AI创新研发部门NextEvo与武汉大学共同完成，是迄今为止国际上参数规模

发表于 03-04 11:22 •799次阅读

蚂蚁推出20亿参数多模态遥感模型SkySense

据了解，负责开发的百灵团队利用自身拥有的19亿遥感影像数据集进行了预训练，从而生成了具有20.6亿参数的SkySense大模型。官方称其为全球范围内参数规模最大、任务覆盖最全且识别精度最高的多

发表于 02-28 15:53 •644次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作

发表于 01-19 11:43 •378次阅读

安霸发布全新N1系列生成式AI芯片

安霸在CES 2024上发布了全新的N1系列生成式AI芯片，这是一款专门为前端设备设计的芯片，支持本地运行大型语言模型（LLM）应用。其单颗SoC能够

发表于 01-09 15:32 •1349次阅读

安霸发布N1系列生成式AI芯片支持前端设备运行本地LLM应用

单颗 SoC 支持 1 至 340 亿参数的多模态大模型（Multi-Modal LLM）推理，实现前端低功耗生成式 AI。

发表于 01-09 15:19 •923次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任

发表于 12-28 11:45 •508次阅读

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

发表于 12-28 11:19 •1233次阅读

大模型+多模态的3种实现方法

我们知道，预训练LLM已经取得了诸多惊人的成就，然而其明显的劣势是不支持其他模态（包括图像、语音、视频模态）的输入和输出，那么如何在预训练LLM的基础上引入跨模态的信息，让其变得更强

发表于 12-13 13:55 •1654次阅读