一种基于对抗训练的图像翻译技术,为裸女们自动“穿”上比基尼-电子发烧友网

互联网的内容繁杂，一不小心就会看到一些“辣眼睛”的内容，比如裸女，这也是为什么我们需要审核人员的存在。当然，受益于 AI 技术的发展，现在很多审核工作已经自动化了。不过，仅仅识别出来还不够，要是能为她们穿上衣服就更好了。

南大河州天主教大学（Pontifícia Universidade Católica do Rio Grande do Sul）是巴西南大河州的一所天主教私立大學，这里的研究人员为了不让那些裸露的图片污染大众的眼睛煞费苦心，特意开发了一种技术，为裸女们自动“穿”上比基尼。当然，这也是为了她们好，毕竟裸照在网上流传并不是一件好事。

下面，我们就为大家简单介绍下这项工作。

▌摘要

我们可以将裸体和色情信息的审查工作视为二分类任务，分类的结果用于决定是否能够完全忽略所访问的内容。这样的方法可能会损害用户的体验，因为无论是图像还是视频，最终都必须被移除或者阻断。在本文中，我们提出了一种范式转换来过滤掉图像中的一些敏感区域，而不是检测并移除识别的内容，并将其用于成人审查任务。为此，我们基于对抗训练的方法开发了一种图像翻译技术，它能够隐式地定位出图像中的敏感区域，并在保留语义信息的同时覆盖该区域。我们在裸体女性图像上测试这种新颖的方法，我们的方法能够为裸体自动进行生成比基尼并覆盖敏感部位，而不需要额外标注身体部位的工作。

▌方法

我们将敏感内容区域 X 的图像 x (包含女性裸体图像) 翻译到非敏感内容域 Y 的图像 y (包含比基尼女性的图像)，这个过程我们在保留敏感区域语义信息的同时，用比基尼覆盖了图像中的敏感区域。此任务所需的数据很容易获得，分别来自图像 X 和 Y 域，且不需要特殊数据标注。我们使用的两个域数据是从网上爬取的，包括裸体女性和穿比基尼女性的照片。我们对结果进行过滤，仅保留单个人出现的图像并将该数据集进一步分为训练和测试集。对于穿比基尼女性 (X)，最终有 1044 张训练图像和 117 张测试图像；而对于裸体女性 (Y)，最终有 921 张训练图像和 103 张测试图像。

我们提出的方法在图像转换过程无需数据配对，其模型结构如下图 1 所示。该模型的关键思想在于利用对抗性训练的方式来学习域之间的现实映射。具体来说，框架由两个映射生成器组成，G：X → Y 和 F：Y → X 和两个判别器 DX和DY 构成。其中 DX 用于区分真实图像 {x} 和翻译图像 {F (y)} = {^x}，而 DY 用于区分真实图像 {y} 和翻译的图像 {G(x)} = {^y}。我们采用了 LSGANs 中的损失函数，它能够更稳定的训练以产生不错的结果表现。为了很好地衡量跨领域图像的相似度，我们还探索了 cycle-consistent 的性质并用于衡量图像翻译结果的质量。

我们的判别器采用标准的多层次卷积滤波结构。除了第一层和最后一层外，我们采用 Leaky ReLU 作为每层卷积的激活函数并进行实例正则化 (instance normalization， IN)。

对于生成器，我们测试了两种流行的结构。首先我们测试了 9-Blocks ResNet 结构的生成器，这种结构由带残余连接的自编码器构成，我们在每层的卷积后采用 ReLU 激活函数和 IN 正则化。此外，我们还采用了 U-Net 256 结构的生成器。U-Net 由一个带残余连接的自动编码器构成，它能够在相同的空间维度上进行残余操作。同样地，我们也采用 IN 正则化，并对编码器采用 Leaky ReLU 激活函数，而解码器采用 ReLU 激活函数。

▌实验结果

我们模型的训练分辨率为 256×256 像素。生成器和判别器都同时采用梯度下降法进行训练，每个训练步骤分别更新 DY，DX，以及 G 和 F 的权重。我们使用 Adam 优化器，学习率为0.0002，β1 = 0.5，β2 = 0.99，并将 cycle consistent 项的权重值设为10。我们的网络以批次 1 重复训练 400 步，学习率随着训练的进行而线性衰减。此外，每 100 秒我们将翻译的图像进行可视化以查看实验结果。

原始数据集的结果

下图 2 展示了我们的方法在原始数据集中的结果。可以看到，与 U-Net 方法 (第三排) 相比，采用 ResNet 作为生成器结构 (第二排) 时始终能够产生更好的结果。

图2：在原始数据集上的训练结果。顶行：真实图像 (手动删除以保护读者)。中间行：使用 9-Blocks esNet 结构的生成器结果。底行：使用 U-Net 256 结构的生成器结果 (产生模糊、令人不满意的结果)。

移除背景后的结果

下图3显示了我们的方法在无背景数据集上的结果。可以看到，这些结果比图2原始数据集中的结果更加一致。基于 ResNet 结构的模型表现更优于 U-Net 结构，它能够通过生成敏感性的图像组件来正确覆盖真实的比基尼区域。此外，ResNet 结构模型生成的图像失真度更低。

图3：在无背景数据集上的结果。顶行：真实图像 (手动删除以保护读者)。间行：使用9-Blocks esNet 结构的生成器结果。底行：使用 U-Net 256 结构的生成器结果 (产生模糊、令人不满意的结果)。

▌鲁棒性结果分析

图5：鲁棒性分析。左：真实图像；右：由生成器 F 创建的最小修改图。

▌结论

本文我们提出了一种基于对抗训练的图像翻译技术，用于隐式地定位裸体图像中的敏感区域并在保留其语义信息的同时覆盖该区域。我们的方法不需要训练样本的配对工作，在实验验证过程中产生令人印象深刻而又高度逼真的结果，为解决裸体图像审查任务提供了一种新方法。对于未来的工作，我们打算分析影响生成图像质量的不同模型架构和损失函数，并将我们的方法嵌入到浏览器应用程序中以保护公众，避免看到那些不受欢迎的内容。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3680

浏览量
135427
图像

图像

+关注

关注
2

文章
1089

浏览量
40605
ai技术

ai技术

+关注

关注
1

文章
1302

浏览量
24544

原文标题：用AI给裸女自动“穿”上比基尼，妈妈再也不担心我“辣眼睛”了

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

一种改进的矩不变自动阈值算法

摘要：提出了一种改进的矩不变自动阈值算法。该算法针对矩不变自动阈值法忽略图像细节的缺点，在矩不变自动阈值的基础

发表于 08-24 16:22

分享一种CameraCube新型图像传感技术

发表于 06-08 09:29

一种基于机器学习的建筑物分割掩模自动正则化和多边形化方法

摘要我们提出了一种基于机器学习的建筑物分割掩模自动正则化和多边形化方法。以图像为输入，首先使用通用完全卷积网络( FCN )预测建筑物分割图，然后使用生成

发表于 09-01 07:19

简述电子对抗综合模拟训练平台

电子对抗综合模拟训练平台以电子战部队指挥机构为主要训练对象，开展集电子对抗、指挥干预、战术使用、仿真推演、训练监控与评估等功能的综合电子

发表于 09-01 10:50

探索一种降低ViT模型训练成本的方法

（1 GPU）和时间（24小时）资源下从头开始训练ViT模型。首先，提出了一种向ViT架构添加局部性的有效方法。其次，开发了一种新的图像大小课程学习策略，该策略允许在

发表于 11-24 14:56

Python和Keras在训练期间如何将高斯噪声添加到输入数据中呢？

会得到添加了高斯噪声的新图像。高斯噪声也称为白噪声，是一种服从正态分布的随机噪声。在深度学习中，训练时往往会在输入数据中加入高斯噪声，以提高模型的鲁棒性和泛化能力。这称为数据扩充。通过向输入数据添加

发表于 02-16 14:04

网络对抗训练模拟系统的设计与实现

提高计算机网络对抗能力，是夺取信息优势和控制网络权的必要手段和途径；网络对抗训练模拟系统的建立有利于网络对抗人才的培养。研究和设计了一种网络

发表于 12-16 01:12 •20次下载

让AI为裸照“穿上”比基尼泳装

穿着比基尼泳的女性的照片被被输入系统，教它比基尼是什么样子的。为了找出应该穿上比基尼的地方，系统也学习了大量的裸体照片。有了这些照片数据集后，这个系统实质上相当于一个

发表于 07-22 08:45 •2w次阅读

关于语言模型和对抗训练的工作

本文把对抗训练用到了预训练和微调两个阶段，对抗训练的方法是针对embedding space，通过最大化

发表于 11-02 15:26 •2159次阅读

关于语言模型和<b class='flag-5'>对抗</b><b class='flag-5'>训练</b>的工作

NLP中的对抗训练到底是什么

简介对抗训练是一种引入噪声的训练方式，可以对参数进行正则化，提升模型鲁棒性和泛化能力。对抗训练

发表于 01-18 17:17 •3650次阅读

一种基于改进的DCGAN生成SAR图像的方法

针对SAR图像识别软件，通过改进 DCGAN模型单生成器与单判别器对抗的结构，采用多生成器与单判别器进行对抗，设计了控制各生成器生成图像平均质量的算法，提出了

发表于 04-23 11:01 •21次下载

基于密集卷积生成对抗网络的图像修复方法

差等问题。针对上述问题，文中提出了一种基于密集卷积生成对抗网络的图像修复算法。该算法采用生成对抗网络作为图像修复的基本框架。首先，利用密集卷

发表于 05-13 14:39 •15次下载

一种基于生成对抗网络的无人机图像去雾算法

和判别网络，生成网络由多层编码器和解码器对称分布构成，判别网络由全卷积网络构成，为了提高生成图像的清晰度，引入了一种新的对抗和平滑损失函数来优化整个网络。最后，通过大量实验表明，基于本文方法进行

发表于 03-10 10:30 •1717次阅读

一种基于生成对抗网络的无人机图像去雾算法

和判别网络，生成网络由多层编码器和解码器对称分布构成，判别网络由全卷积网络构成，为了提高生成图像的清晰度，引入了一种新的对抗和平滑损失函数来优化整个网络。最后，通过大量实验表明，基于本文方法进行

发表于 03-20 12:24 •864次阅读

如何使用Python进行图像识别的自动学习自动训练？

如何使用Python进行图像识别的自动学习自动训练？使用Python进行图像识别的自动学习和

发表于 01-12 16:06 •681次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

一种基于对抗训练的图像翻译技术,为裸女们自动“穿”上比基尼

评论