0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

EditGAN图像编辑框架将影响未来几代GAN的发展

星星科技指导员 来源:NVIDIA 作者:Nathan Horrocks 2022-04-06 16:29 次阅读

编辑猫、汽车甚至古董画照片的愿望,由于一种称为EditGAN的生成性对抗网络(GAN)模型,从未像现在这样容易实现。来自 NVIDIA,多伦多大学和 MIT 研究人员的工作建立了 DatasetGAN ,这是一种人工智能视觉模型,可以用最少16个人类注释的图像来训练,并像其他需要100X更多图像的方法一样有效地执行。EditGAN 利用了前一个模型的功能,允许用户使用简单的命令(如绘图)编辑或操作所需的图像,而不会影响原始图像质量。

什么是 EditGAN ?

根据 paper :“ EditGAN 是第一个 GAN 驱动的图像编辑框架,它同时提供非常高精度的编辑,只需要很少的带注释的训练数据(并且不依赖外部分类器),可以实时交互运行,允许对多个编辑进行简单的合成,并可处理真正的嵌入式、生成的图像,甚至是域外图像。”

该模型学习特定数量的编辑向量,这些编辑向量可以交互地应用于图像。本质上,它形成了对图像及其内容的直观理解,用户可以利用这些信息进行特定的修改和编辑。该模型从相似的图像中学习,并识别图像中对象的不同组件和特定部分。用户可以利用它对不同子部分进行有针对性的修改,或在特定区域内进行编辑。由于模型的精确性,图像在用户设置的参数之外不会失真。

“该框架允许我们学习任意数量的编辑向量,然后可以以交互速率直接应用于其他图像。”研究人员在他们的研究中解释道。“我们的实验表明, EditGAN 可以以前所未有的细节和自由度处理图像,同时保持完整的图像质量。我们还可以轻松地组合多种编辑,并在 EditGAN 的训练数据之外执行合理的编辑。我们在各种图像类型上演示了 EditGAN ,并在数量上优于几种预处理的图像标准编辑基准任务的编辑方法。”

从增加微笑、改变别人看的方向、创造新的发型,或者给汽车一套更好的轮子,研究人员展示了模型的内在性,只需要很少的数据注释。用户可以根据所需的编辑绘制简单的草图或遮罩,并引导 AI 模型实现修改,例如更大的猫耳或更酷的汽车前灯。人工智能然后渲染图像,同时保持非常高的精度和原始图像的质量。之后,同样的编辑可以实时应用于其他图像。

poYBAGJNT3iAFP43AAFEfxepoiI936.png

poYBAGJNT3iAFP43AAFEfxepoiI936.png

图 2 分配给图像不同部分的像素示例。人工智能可以识别不同的区域,并可以根据人工输入进行编辑。

这是怎么工作的?

Edigan 将图像的每个像素指定给一个类别,例如轮胎、挡风玻璃或车架。这些像素在人工智能潜在空间内控制,并基于用户的输入,用户可以轻松灵活地编辑这些类别。 Edigan 操纵 only 与所需更改相关的像素。人工智能根据训练模型时使用的其他图像知道每个像素代表什么,因此你无法尝试将猫耳朵添加到汽车中以获得准确的结果。但是,当在正确的模型中使用时, EditGAN 是一个非凡的工具,可以提供出色的图像编辑效果。

pYYBAGJNT3qAAggwAANRBkD8Lts841.png

pYYBAGJNT3qAAggwAANRBkD8Lts841.png

图 3 Edigan 可以训练各种各样的图像,从动物到环境,形成对其内容的详细理解。

EditGAN 的潜能

人工智能驱动的照片和图像编辑有可能简化摄影师和内容创作者的工作流程,并实现创新和数字艺术的新水平。 EditGAN 还使新手摄影师和编辑能够制作高质量的内容,以及偶尔的病毒性模因。

“这个人工智能可能会改变我们编辑照片的方式,也许最终会改变视频。它允许人们通过简单的文本命令拍摄图像并对其进行修改。如果你有一张汽车照片,你想让车轮更大,只需键入“ make wheels bigger ”,然后噗 – 这是一张完全真实的照片,上面是同一辆车轮更大的汽车。”—— Fortune magazine

EditGAN 将来也可能用于其他重要应用。例如, EditGAN 的编辑功能可用于创建具有特定特征的大型图像数据集。当针对不同的计算机视觉任务训练下游机器学习模型时,这种特定的数据集可能很有用。

此外, EditGAN 框架可能会影响未来几代 GAN 的发展。虽然当前版本的 EditGAN 侧重于图像编辑,但类似的方法也可能用于编辑 3D 形状和对象,这在为游戏、电影或 metaverse 创建虚拟 3D 内容时非常有用。

关于作者

Nathan Horrocks 是 NVIDIA Research 的内容营销经理。他重点强调了 NVIDIA 实验室在世界各地进行的惊人研究。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4694

    浏览量

    102133
  • 人工智能
    +关注

    关注

    1783

    文章

    45233

    浏览量

    232576
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1822

    浏览量

    69715
收藏 人收藏

    评论

    相关推荐

    计算机视觉怎么给图像分类

    图像分类是计算机视觉领域中的一项核心任务,其目标是输入的图像自动分配到预定义的类别集合中。这一过程涉及图像的特征提取、特征表示以及分类器的设计与训练。随着深度学习技术的飞速
    的头像 发表于 07-08 17:06 76次阅读

    微软AI新成果:将不可编辑PDF转化为可编辑文档

    市面现有相关软件虽能将PDF转为可编辑版,但易丧失原始布局。微软研究论文名为《从不可编辑文档生成可编辑文档的方法和系统》,其独特之处在于运用AI技术保持了字体、色彩、布局及图像格式等视
    的头像 发表于 05-30 10:11 228次阅读

    谷歌模型怎么用PS打开文件和图片

    )或ONNX模型(.onnx)等。这些模型文件是二进制的,并且是为特定的机器学习框架设计的,而不是为图像编辑软件如PS设计的。
    的头像 发表于 02-29 18:25 1029次阅读

    放下你的PhotoShop!无限图像编辑已开源!

    我们知道扩散模型生成图像是通过反转采样来进行的,重点是识别噪声。LEDITS++从DDPM反演中提取特征,并提出一种有效的反演方法,大大减少所需的步骤,同时降低重建误差。当反向扩散过程公式化为SDE时
    的头像 发表于 12-10 10:09 606次阅读
    放下你的PhotoShop!无限<b class='flag-5'>图像编辑</b>已开源!

    jpg如何转psd格式?

    jpg如何转psd格式? JPG格式转换为PSD格式是一个比较简单的过程,只需使用合适的图像编辑软件即可完成。在本文中,我提供详尽、详实、细致的步骤,帮助你完成这个转换过程。 首先,我们需要
    的头像 发表于 12-09 16:09 1754次阅读

    基于springboot和vue框架的Java

    和Vue项目的环境,并展示从前端到后端的完整开发流程。接着,重点关注前后端分离的开发模式,并介绍如何通过RESTful API进行数据交互。最后,分享一些实践中的经验和技巧,以及对未来发展
    的头像 发表于 12-03 15:15 696次阅读

    文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

    AIGC 从去年 9 月到现在,我们能看到各种各样的模型和公司不断涌现。从最初大家使用 Stable Diffusion 来生成简单的图像,到后来用一些其它方法进行生成式图像编辑,后来甚至 Adobe Photoshop 支持使用自然语言方式修改图片。
    的头像 发表于 11-21 16:04 525次阅读
    文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

    GaN基蓝光半导体激光器的发展

    电子发烧友网站提供《GaN基蓝光半导体激光器的发展.pdf》资料免费下载
    发表于 10-31 11:13 0次下载
    <b class='flag-5'>GaN</b>基蓝光半导体激光器的<b class='flag-5'>发展</b>

    Direct Inversion:三行代码提升基于扩散的图像编辑效果

    为了完成这两个任务,最为直觉,也是使用最多的方式就是:使用两个分支来完成这两件事,一个用来保留信息,一个用来添加信息。之前的编辑算法大多可以划分出这两个分支,但可能隐含在模型中或者没有显式割离,也正是在这篇文章中,作者两个概念划分清楚并给出了过往方法的分类。
    的头像 发表于 10-10 17:18 665次阅读
    Direct Inversion:三行代码提升基于扩散的<b class='flag-5'>图像编辑</b>效果

    HDB-III全功能特种变比测试仪操作方法

    操作说明1、旋转鼠标使用方法向下按动:在编辑框选择当前的输入;顺时针旋转:切换当前界面中的可操控按钮或者在当前的编辑框编辑选项,在数字输入状态数字会按照0、1、2、3……9、.的状态循环;逆时针
    的头像 发表于 09-12 13:00 477次阅读
    HDB-III全功能特种变比测试仪操作方法

    流程图编辑框架LogicFlow快速入门

    最近因为要在系统里植入一个流程图的灵活绘制功能。如果说自己写一个,那必将是个庞大的工程,所以就在GitHub上调研了一番。最后发现了今天要给大家推荐的这个开源框架:LogicFlow。
    的头像 发表于 09-12 11:27 2829次阅读
    流程图<b class='flag-5'>编辑框架</b>LogicFlow快速入门

    伯克利AI实验室开源图像编辑模型InstructPix2Pix,简化生成图像编辑并提供一致结果

    之前的 AI 图像编辑能力通常是进行风格转换,流行的文本到图像生成模型(如 DALL-E 和 Stable Diffusion)也支持图像图像风格转换操作。然而,使用这些模型进行有针
    的头像 发表于 08-28 15:45 619次阅读
    伯克利AI实验室开源<b class='flag-5'>图像编辑</b>模型InstructPix2Pix,简化生成<b class='flag-5'>图像编辑</b>并提供一致结果

    氮化镓芯片未来会取代硅芯片吗?

    2000 年代初就已开始,但 GaN 晶体管仍处于起步阶段。 毫无疑问,它们将在未来十年内取代功率应用中的硅晶体管,但距离用于数据处理应用还很远。 Keep Tops氮化镓有什么好处? 氮化镓的出现
    发表于 08-21 17:06

    labview通用视觉框架参考

    labview通用视觉软件框架,机器视觉通用框架 通用视觉框架源代码。可以参考用于开发常规案例。里面有部分函数,用户也可随意编辑函数,开发速度超级快。打开前需要先安装labview、V
    发表于 08-04 15:58 50次下载

    生成式 AI 研究通过引导式图像结构控制为创作者赋能

    新的研究正在通过一个文本引导的图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究提出了一个使用即插即用扩散特征(PnP DFs)的框架,可引导实现逼真而精确的图像生成。通过这项研究,视觉
    的头像 发表于 07-24 19:30 427次阅读