0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

EditGAN图像编辑框架将影响未来几代GAN的发展

星星科技指导员 来源:NVIDIA 作者:Nathan Horrocks 2022-04-06 16:29 次阅读

编辑猫、汽车甚至古董画照片的愿望,由于一种称为EditGAN的生成性对抗网络(GAN)模型,从未像现在这样容易实现。来自 NVIDIA,多伦多大学和 MIT 研究人员的工作建立了 DatasetGAN ,这是一种人工智能视觉模型,可以用最少16个人类注释的图像来训练,并像其他需要100X更多图像的方法一样有效地执行。EditGAN 利用了前一个模型的功能,允许用户使用简单的命令(如绘图)编辑或操作所需的图像,而不会影响原始图像质量。

什么是 EditGAN ?

根据 paper :“ EditGAN 是第一个 GAN 驱动的图像编辑框架,它同时提供非常高精度的编辑,只需要很少的带注释的训练数据(并且不依赖外部分类器),可以实时交互运行,允许对多个编辑进行简单的合成,并可处理真正的嵌入式、生成的图像,甚至是域外图像。”

该模型学习特定数量的编辑向量,这些编辑向量可以交互地应用于图像。本质上,它形成了对图像及其内容的直观理解,用户可以利用这些信息进行特定的修改和编辑。该模型从相似的图像中学习,并识别图像中对象的不同组件和特定部分。用户可以利用它对不同子部分进行有针对性的修改,或在特定区域内进行编辑。由于模型的精确性,图像在用户设置的参数之外不会失真。

“该框架允许我们学习任意数量的编辑向量,然后可以以交互速率直接应用于其他图像。”研究人员在他们的研究中解释道。“我们的实验表明, EditGAN 可以以前所未有的细节和自由度处理图像,同时保持完整的图像质量。我们还可以轻松地组合多种编辑,并在 EditGAN 的训练数据之外执行合理的编辑。我们在各种图像类型上演示了 EditGAN ,并在数量上优于几种预处理的图像标准编辑基准任务的编辑方法。”

从增加微笑、改变别人看的方向、创造新的发型,或者给汽车一套更好的轮子,研究人员展示了模型的内在性,只需要很少的数据注释。用户可以根据所需的编辑绘制简单的草图或遮罩,并引导 AI 模型实现修改,例如更大的猫耳或更酷的汽车前灯。人工智能然后渲染图像,同时保持非常高的精度和原始图像的质量。之后,同样的编辑可以实时应用于其他图像。

poYBAGJNT3iAFP43AAFEfxepoiI936.png

poYBAGJNT3iAFP43AAFEfxepoiI936.png

图 2 分配给图像不同部分的像素示例。人工智能可以识别不同的区域,并可以根据人工输入进行编辑。

这是怎么工作的?

Edigan 将图像的每个像素指定给一个类别,例如轮胎、挡风玻璃或车架。这些像素在人工智能潜在空间内控制,并基于用户的输入,用户可以轻松灵活地编辑这些类别。 Edigan 操纵 only 与所需更改相关的像素。人工智能根据训练模型时使用的其他图像知道每个像素代表什么,因此你无法尝试将猫耳朵添加到汽车中以获得准确的结果。但是,当在正确的模型中使用时, EditGAN 是一个非凡的工具,可以提供出色的图像编辑效果。

pYYBAGJNT3qAAggwAANRBkD8Lts841.png

pYYBAGJNT3qAAggwAANRBkD8Lts841.png

图 3 Edigan 可以训练各种各样的图像,从动物到环境,形成对其内容的详细理解。

EditGAN 的潜能

人工智能驱动的照片和图像编辑有可能简化摄影师和内容创作者的工作流程,并实现创新和数字艺术的新水平。 EditGAN 还使新手摄影师和编辑能够制作高质量的内容,以及偶尔的病毒性模因。

“这个人工智能可能会改变我们编辑照片的方式,也许最终会改变视频。它允许人们通过简单的文本命令拍摄图像并对其进行修改。如果你有一张汽车照片,你想让车轮更大,只需键入“ make wheels bigger ”,然后噗 – 这是一张完全真实的照片,上面是同一辆车轮更大的汽车。”—— Fortune magazine

EditGAN 将来也可能用于其他重要应用。例如, EditGAN 的编辑功能可用于创建具有特定特征的大型图像数据集。当针对不同的计算机视觉任务训练下游机器学习模型时,这种特定的数据集可能很有用。

此外, EditGAN 框架可能会影响未来几代 GAN 的发展。虽然当前版本的 EditGAN 侧重于图像编辑,但类似的方法也可能用于编辑 3D 形状和对象,这在为游戏、电影或 metaverse 创建虚拟 3D 内容时非常有用。

关于作者

Nathan Horrocks 是 NVIDIA Research 的内容营销经理。他重点强调了 NVIDIA 实验室在世界各地进行的惊人研究。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4940

    浏览量

    102820
  • 人工智能
    +关注

    关注

    1791

    文章

    46872

    浏览量

    237605
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1919

    浏览量

    73011
收藏 人收藏

    评论

    相关推荐

    字节发布SeedEdit图像编辑模型

    近日,字节跳动公司在其豆包大模型团队的官方网站上,正式公布了其最新的通用图像编辑模型——SeedEdit。这款创新性的图像编辑模型,为用户提供了前所未有的便捷图像编辑体验。 据官方介绍
    的头像 发表于 11-12 10:43 201次阅读

    图像采集卡的接口类型有哪些?

    图像采集卡又称图像捕获卡,是一种能获取数字视频图像信息并进行存储和播放的硬件设备。它的作用是图像信号采集到计算机中,以数据文件的形式保存在
    的头像 发表于 10-24 17:07 128次阅读
    <b class='flag-5'>图像</b>采集卡的接口类型有哪些?

    未来AI大模型的发展趋势

    上得到了显著提升。未来,算法和架构的进一步优化推动AI大模型在性能上实现新的突破。 多头自注意力机制、前馈神经网络等关键技术的改进,增强模型的表达能力和泛化能力。 多模态融合 : AI大模型正逐渐从单一模态向多模态
    的头像 发表于 10-23 15:06 435次阅读

    DMA与C64x的框架组件结合使用

    电子发烧友网站提供《DMA与C64x的框架组件结合使用.pdf》资料免费下载
    发表于 10-16 10:29 0次下载
    <b class='flag-5'>将</b>DMA与C64x的<b class='flag-5'>框架</b>组件结合使用

    变阻器的未来发展趋势和前景如何?是否有替代品出现?

    变阻器是一种用于调节电路中电阻值的电子元件,广泛应用于各种电子设备和系统中。随着科技的不断进步和应用领域的扩展,变阻器的未来发展趋势和前景备受关注。 未来变阻器趋向于智能化和多功能化
    发表于 10-10 14:35

    嵌入式系统的未来趋势有哪些?

    (ML)技术的快速发展,嵌入式系统更多地整合这些先进技术,以支持智能决策和自动化。在设备上直接运行AI和ML模型,进行图像识别、自然语言处理、预测分析等任务,极大提升嵌入式系统的智
    发表于 09-12 15:42

    图像处理器的发展历史

    图像处理器(Image Processor)的发展历史是一段充满创新与突破的历程,它伴随着计算机技术的不断进步和图像处理需求的日益增长而逐渐成熟。以下是对图像处理器
    的头像 发表于 08-14 09:42 617次阅读

    全球SiC与GaN市场发展趋势,未来迎来快速增长

    在近期的慕尼黑上海电子展上,YoleGroup的分析师邱柏顺深入剖析了全球碳化硅(SiC)和氮化镓(GaN)市场的发展趋势,提供了对未来电力电子行业的深刻见解。随着科技的进步和市场需求的变化,宽禁带
    的头像 发表于 07-22 11:46 347次阅读
    全球SiC与<b class='flag-5'>GaN</b>市场<b class='flag-5'>发展</b>趋势,<b class='flag-5'>未来</b><b class='flag-5'>将</b>迎来快速增长

    计算机视觉怎么给图像分类

    图像分类是计算机视觉领域中的一项核心任务,其目标是输入的图像自动分配到预定义的类别集合中。这一过程涉及图像的特征提取、特征表示以及分类器的设计与训练。随着深度学习技术的飞速
    的头像 发表于 07-08 17:06 524次阅读

    微软AI新成果:将不可编辑PDF转化为可编辑文档

    市面现有相关软件虽能将PDF转为可编辑版,但易丧失原始布局。微软研究论文名为《从不可编辑文档生成可编辑文档的方法和系统》,其独特之处在于运用AI技术保持了字体、色彩、布局及图像格式等视
    的头像 发表于 05-30 10:11 620次阅读

    谷歌模型怎么用PS打开文件和图片

    )或ONNX模型(.onnx)等。这些模型文件是二进制的,并且是为特定的机器学习框架设计的,而不是为图像编辑软件如PS设计的。
    的头像 发表于 02-29 18:25 1375次阅读

    机器视觉图像采集卡:关键的图像处理设备

    机器视觉图像采集卡是一种用于采集和处理图像数据的关键设备,它在现代工业生产和科学研究中起着至关重要的作用。本文探讨机器视觉图像采集卡的工作原理、应用领域以及
    的头像 发表于 02-22 16:23 462次阅读
    机器视觉<b class='flag-5'>图像</b>采集卡:关键的<b class='flag-5'>图像</b>处理设备

    放下你的PhotoShop!无限图像编辑已开源!

    我们知道扩散模型生成图像是通过反转采样来进行的,重点是识别噪声。LEDITS++从DDPM反演中提取特征,并提出一种有效的反演方法,大大减少所需的步骤,同时降低重建误差。当反向扩散过程公式化为SDE时
    的头像 发表于 12-10 10:09 846次阅读
    放下你的PhotoShop!无限<b class='flag-5'>图像编辑</b>已开源!

    jpg如何转psd格式?

    jpg如何转psd格式? JPG格式转换为PSD格式是一个比较简单的过程,只需使用合适的图像编辑软件即可完成。在本文中,我提供详尽、详实、细致的步骤,帮助你完成这个转换过程。 首先,我们需要
    的头像 发表于 12-09 16:09 2418次阅读

    基于springboot和vue框架的Java

    和Vue项目的环境,并展示从前端到后端的完整开发流程。接着,重点关注前后端分离的开发模式,并介绍如何通过RESTful API进行数据交互。最后,分享一些实践中的经验和技巧,以及对未来发展
    的头像 发表于 12-03 15:15 964次阅读