一种图像语义分层处理框架，可以实现像素级别的图像语义理解和操纵-电子发烧友网

密歇根大学和谷歌大脑的研究人员合作，提出了一种图像语义分层处理框架，可以实现像素级别的图像语义理解和操纵，在图像中任意添加、改变、移动对象，并与原图浑然一体，实现真正的“毫无PS痕迹”。

曾经，你以为下面普京×容嬷嬷那张图就称得上“毫无PS痕迹”了。

的确，用肉眼看，效果是很不错。但是，在专业的图像分析软件下，修改的痕迹一目了然。

你再看看这两张图：

不不不，这不是“找不同”，是为了让你感受一下“像素级语义分割和理解”带来的修图效果：

可能，你需要看得更清晰一点。

看好了哦，这是原图：

发现有什么不同/不自然的地方了吗？（提示：一共有7处不同）。

先别急着往下拉……

答案揭晓：

实际上，找出不同是很简单的（毕竟多了好几个东西），关键是这样像素级的改动，比原先意义上“毫无PS痕迹”增强了一大步！

无论是色调、光线还是纹理，都与原图配合得更加自然，操作起来也十分简单方便。

这多亏了密歇根大学和谷歌大脑的研究人员，他们提出了一种新的图像语义处理分层框架，首先根据图像中给定对象的边界框，学习生成像素级语义标签地图（pixel-wise semantic label maps），然后根据这个地图再生成新的图像。

因此，用户可以实现对象级的操纵，无论是改变颜色、移动位置、去除某个物体，增加新的东西，或者把原来在最前面的人物往后移一层或两层，而且与原图像自然融为一体。

操作只需要一步即可：

图像语义分层处理框架工作流程图示意：输入车道照片，输出上面有一辆车的照片

定量和定性结果分析，该方法比当前流行的Context Encoder、Pix2PixHD等效果都要高出许多。这有望掀起计算机视觉和图像处理界的巨变，难怪有人看完后在Twitter留言：

“在我两年前开始学计算机视觉时，这种技术简直是无法想象的。”“简直是科幻变成了现实！”

还有人疾呼：PS里有个功能我想在就想要！

像素级分层语义处理框架，实现图片对象自然修改

想必大家看到这个神级PS技术，对其原理应该是十分好奇了吧！接下来，小编就带着读者领略这款神技的技术奥秘！

正如上述所言，这个PS技术框架的核心就是分层图像处理。

当给出新的边界框B时，算法首先通过以B为中心、尺寸为S×S的裁剪平方窗口，提取标签映射（semantic label map）M∈RS×S×C和图像I∈RS×S×3的局部观测值。在M，I和B上，模型通过以下过程生成操纵图像：

给定边界框B和语义标签映射M，结构生成器通过

给定操纵的标签映射M和图像I，图像生成器通过

而在分层图像处理过程中，有两个核心的关键步骤：

结构生成器（Structure Generator）

结构生成器的目标是以像素级类标签M∈RS×S×C的形式推断由B = {b，c}指定的区域的潜在结构。

结构生成器的体系结构

给定一个masked layout M和一个binary mask B，分别用于对目标的类和位置进行编码。该模型通过来自双流解码器（two-stream decoder）的输出产生M（该双流解码器对应于box整个区域中对象的二进制掩码和语义标签映射）。

图像生成器（Image Generator）

给定一张图像I和从结构生成器中获得的可操纵layout M，图像生成器输出区域内由B定义的、内容的像素级预测。

图像生成器的体系结构

给定一张masked图像I和语义layout M，该模型使用单独的编码路径对对象的视觉样式和语义结构进行编码，并产生被操纵的图像。

超越当前最好标准，从此修图随心所欲

定量评估

Ablation Study。为了分析所提方法的有效性，对该方法的几种变体进行了Ablation Study。首先考虑图像生成器的三个基线：

仅限于图像上下文（SingleStream-Image）；

仅限于语义布局（SingleStream-Layout）；

对上述两个基线的结合。

结果如下表所示：

下图显示了基线的定性比较：

定性分析

语义对象处理

通过将汽车的同一个边界框移动到图像中的不同位置来展示操作结果

从图中可以看到，当把车的边框从一边移动到另一边的时候，模型所产生的车辆外观发生了变化。有趣的是，汽车的形状、方向和外观也会根据周围区域的场景布局和阴影而改变。

在更多样化的上下文中生成的结果

该结果表明，模型在考虑上下文的情况下生成了合适的对象结构和外观。除了生成与周围环境相匹配的对象外，还可以对框架轻松地进行扩展，允许用户直接控制对象样式。

扩展式操作

用样式向量控制对象颜色

结果表明，模型成功地合成了具有指定颜色的各种对象，同时保持图像的其他部分不变。

交互式和数据驱动的图像编辑

图像编辑是该模型的关键点之一。通过添加、删除和移动对象边界框来执行交互式图像处理。结果如下图所示：

在图像中对多对象进行处理的例子

表明该方法生成合理的语义布局和图像，可以平滑地增加原始图像的内容。除了交互式操作之外，还可以通过以数据驱动的方式对图像中的边界框进行采样来自动化操作过程。结果如下图所示：

数据驱动的图像操作示例

室内场景数据集的实验结果

使用ADE20K数据集对卧室图像进行定性实验。下图展示了了交互式图像处理结果。

室内图像处理的示例

由于室内图像中的对象涉及更多样化的类别和外观，因此生成与场景中的其他组件对齐的适当对象形状和纹理比街道图像更具挑战性。

可以看出，该方法生成的对象与周围环境可以保持高度一致性。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6169

浏览量
105423
图像

图像

+关注

关注
2

文章
1085

浏览量
40477
图像分析

图像分析

+关注

关注
0

文章
82

浏览量
18679

原文标题：谷歌等祭出图像语义理解分割神器，PS再也不用专业设计师！

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

利用VLM和MLLMs实现SLAM语义增强

语义同步定位与建图（SLAM）系统在对邻近的语义相似物体进行建图时面临困境，特别是在复杂的室内环境中。本文提出了一种面向对象SLAM的语义增强（SEO-SLAM）的新型SLAM系统，借

发表于 12-05 10:00 •170次阅读

利用VLM和MLLMs<b class='flag-5'>实现</b>SLAM<b class='flag-5'>语义</b>增强

百问FB显示开发图像处理 - BMP图像处理

2 图像处理前言：所有的图像文件，都是一种二进制格式文件，每一个图像文件，都

发表于 11-28 13:52

如何设定机器人语义地图的细粒度级别

和区域与封闭的语义标签集对应的工作。然而，封闭集检测在能够表示的概念集方面存在固有的限制，并且不能很好地处理自然语言的内在歧义性和可变性。为了克服这些限制，一组新的方法开始利用视觉语言基础模型进行开放集

发表于 11-12 10:54 •327次阅读

如何设定机器人<b class='flag-5'>语义</b>地图的细粒度<b class='flag-5'>级别</b>

使用语义线索增强局部特征匹配

视觉匹配是关键计算机视觉任务中的关键步骤，包括摄像机定位、图像配准和运动结构。目前最有效的匹配关键点的技术包括使用经过学习的稀疏或密集匹配器，这需要成对的图像。这些神经网络对两幅图像的特征有很好的总体

发表于 10-28 09:57 •244次阅读

语义分割25种损失函数综述和展望

本综述提供了对25种用于图像分割的损失函数的全面且统一的回顾。我们提供了一种新颖的分类法，并详细审查了这些损失函数如何在图像分割中被定制和利

发表于 10-22 08:04 •567次阅读

<b class='flag-5'>语义</b>分割25<b class='flag-5'>种</b>损失函数综述和展望

图像处理器是什么意思

图像处理器（Image Processor）是一种专门用于图像处理和计算的硬件设备或芯片，它通过高速数据传输、

发表于 08-14 09:28 •871次阅读

DSP教学实验箱_数字图像处理操作_案例分享:5-13 灰度图像二值化

，以二值图像处理实现而构成的系统是很多的，要进行二值图像的处理与分析，首先要把灰度图像二值化，得

发表于 07-25 15:03

图像语义分割的实用性是什么

图像语义分割是一种重要的计算机视觉任务，它旨在将图像中的每个像素分配到相应的语义类别中。这项技术

发表于 07-17 09:56 •438次阅读

图像分割和语义分割的区别与联系

、亮度等。图像分割的目的是将图像中感兴趣的部分与背景分离，以便进行进一步的处理和分析。 1.1 图像分割的类型

发表于 07-17 09:55 •982次阅读

图像识别技术的原理是什么

图像识别技术是一种利用计算机视觉和机器学习技术对图像进行分析和理解的技术。它可以帮助计算机识别和理解

发表于 07-16 10:46 •1051次阅读

图像处理中的卷积运算

卷积运算是图像处理中一种极其重要的操作，广泛应用于图像滤波、边缘检测、特征提取等多个方面。它基于一个核（或称为卷积核、滤波器）与

发表于 07-11 15:15 •2339次阅读

图像分割与语义分割中的CNN模型综述

图像分割与语义分割是计算机视觉领域的重要任务，旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络（CNN）作为深度学习的一种核心

发表于 07-09 11:51 •928次阅读

FPGA设计经验之图像处理

处理窗口对资源影响成倍增加基于FPGA设计框架举例： 1、灰度直方图统计直方图是图像的灰度分布统计的一种表示方法，统计目标图像

发表于 06-12 16:26

基于FPGA的实时边缘检测系统设计，Sobel图像边缘检测，FPGA图像处理

计算机软件实现方式有更快的处理速度。经验证，系统工作稳定，满足实时性要求。 MATLAB 与 FPGA无线通信、图像处理、数字信号处理系

发表于 05-24 07:45

如何使用Python进行图像识别的自动学习自动训练？

图像识别的自动学习和自动训练。首先，让我们了解一下图像识别的基本概念。图像识别是指通过计算机程序识别和理解图像内容的过程。自动学习和自动训

发表于 01-12 16:06 •594次阅读

搜索历史

一种图像语义分层处理框架，可以实现像素级别的图像语义理解和操纵

评论

利用VLM和MLLMs实现SLAM语义增强

百问FB显示开发图像处理 - BMP图像处理

如何设定机器人语义地图的细粒度级别

使用语义线索增强局部特征匹配

语义分割25种损失函数综述和展望

图像处理器是什么意思

DSP教学实验箱_数字图像处理操作_案例分享:5-13 灰度图像二值化

图像语义分割的实用性是什么

图像分割和语义分割的区别与联系

图像识别技术的原理是什么

图像处理中的卷积运算

图像分割与语义分割中的CNN模型综述

FPGA设计经验之图像处理

基于FPGA的实时边缘检测系统设计，Sobel图像边缘检测，FPGA图像处理

如何使用Python进行图像识别的自动学习自动训练？