清华刘永进提出APDrawingGAN ，GAN秒变肖像画！-电子发烧友网

自动地将人脸照片转换为高质量的艺术肖像画具有重要的艺术价值和实用价值。清华大学刘永进教授课题组对此提出APDrawingGAN，结果优于目前已有方法。该项工作被CVPR 2019录取为oral paper。

肖像画是一种独特的艺术形式，通常使用一组稀疏的连续图形元素如线条来捕捉一个人的外表特征。

肖像画通常是在人物面前或基于人物照片进行创作的，其创作依赖于细致的观察、分析和丰富的经验。一幅好的肖像画能很好地捕捉到人的个性和情感。

图1. 一些人脸照片和对应的艺术家画的肖像线条画。

然而，即使是受过专业训练的艺术家，完成一幅精致的肖像画也需要很长时间。因此，自动地将人脸照片转换为高质量的艺术肖像画具有重要的艺术价值和实用价值。

清华刘永进组提出APDrawing GAN

随着深度学习的发展，使用卷积神经网络进行图像风格转换的神经风格转换（NST）方法被提出。随后，基于生成对抗网络（GAN）的方法在图像风格转换上实现了很好的效果。

但是，这些已有方法多数针对于生成信息较为丰富的风格，如油画，这些风格的图像中包含很多零碎的图形元素（如笔触），而对单个元素的质量要求较低。也就是说，在这些风格的图像中，一些细节上的瑕疵会被忽视。

艺术肖像线条画(Artistic Portrait Drawings，简称APDrawings)和已有工作研究的油画肖像的风格有很大的不同。它主要有5个特点：

首先它是高度抽象的，只由少数稀疏、连续的图形元素组成，因此瑕疵会比油画中更明显。

其次是具有强限制性，由于包含面部特征，APDrawings相比一般的风格有更强的语义限制（因为我们对人脸很熟悉，会对人脸图像中的瑕疵容忍度更低）。

具有多样性，因为对于不同的面部特征，艺术家绘制的方式是不同的（如眼睛和头发）。

艺术创作的模糊性，人工创作导致了一些面部特征的轮廓没法被完全精准的定位，这对基于像素对应的方法是个很大的挑战。

APDrawings的概念性，艺术家有时会在原图没有亮度变化的地方添加额外的概念性的线条，比如头发区域中的白线和五官的轮廓线。因此，即使是顶尖的方法也难以产生好的艺术肖像画结果。

APDrawingGAN和一般P图、抠图、滤镜等工具的不同在于，一般的软件对真实照片进行美化得到更美观或具有某种特点的真实照片，而APDrawingGAN生成的是非真实感的抽象艺术肖像画，既能捕捉到照片特征又和真实照片观感完全不同。并且我们生成的线条风格的艺术肖像画比一般的肖像画（如卡通、铅笔素描）具有更少的图形元素，更抽象，因此也更有难度。下图展示了我们方法和一般图像处理工具的结果对比。

图2. 我们的方法和一般图像处理工具的处理结果的对比。人脸照片来源于免费版权图片网站Pixabay。

在CVPR2019上，清华大学计算机系刘永进教授课题组提出了APDrawingGAN，为了更有效地学习不同面部区域的不同绘制风格，我们的GAN模型包括几个专门针对不同面部特征区域的局部网络，和一个用于捕捉整体特征的全局网络。

论文地址：

https://cg.cs.tsinghua.edu.cn/papers/CVPR-2019-Drawing.pdf

APDrawingGAN的主要贡献在于：

我们提出了一个层次化的GAN模型，可以有效地将人脸照片生成高质量、富有表现力的艺术肖像线条画。不仅如此，我们的方法对黑白线条分明的复杂发型绘制有更好的效果。

为了学习不同面部区域的不同绘制风格，我们的模型将GAN的渲染输出分为不同层次，每个层次被独立的损失项控制。我们提出了一个针对艺术肖像画的损失函数，它包含四个损失项：对抗损失、像素级损失、一种新的距离变换（DT）损失（用于学习艺术肖像画中的线条笔画）和一个局部变换损失（用于引导局部网络保持面部特征）。

我们使用6655张人脸照片和非真实感渲染算法生成的结果进行了预训练，构建了一个包含140对高质量正面人脸照片和对应艺术肖像画的APDrawings数据集，用于正式的训练和测试。

图3. 我们提出的APDrawingGAN的结构图。左侧为层次化生成器网络的结构，右侧为层次化鉴别器网络的结构。

在APDrawingGAN中，生成器网络G和鉴别器网络D都采用层次化的结构。生成器网络G用于将输入照片转换为艺术肖像画，它包含6个局部生成器（对应于左右眼、鼻子、嘴巴、头发和背景），1个全局生成器和1个融合网络。

局部生成器的作用是学习不同局部面部特征的绘制风格。我们将所有局部生成器的输出混合到一个图像Ilocal中。局部生成器和全局生成器都采用U-Net结构。

然后我们使用一个融合网络将Ilocal和全局生成器的输出Iglobal融合在一起，以获得最终的生成图。鉴别器网络D用于判断输入图像是否是真实的，即是否是艺术家画的艺术肖像画。

其中全局鉴别器对整个图像进行检查，以判断肖像画的整体特征。而局部鉴别器对不同的局部面部区域进行检查，评估细节的质量。局部鉴别器和全局鉴别器都采用PatchGAN的形式。

为了进一步应对线条的风格和艺术家画作中不完全精确定位的轮廓，我们提出了一个全新的距离变换(Distance transform，简称DT)损失来学习艺术肖像线条画中的线条笔画风格。

我们前面提到，在艺术家的肖像画中，线条和原图有时不是精确对应的，会有微小的错位，主要的原因有两个：

艺术家裸眼观察，面部特征的轮廓有时无法被完全精准地定位；

艺术家添加的线条有时是概念性的，不与原图完全对应（如头发区域中的白线）。

因此仅使用L1损失是不足以应对这种情况的——L1损失会惩罚即使是很微小的错位，但是对于较大的错位并不会更敏感。

于是我们提出一种新的损失来容忍这种细微的错位，而惩罚过大的错位。我们提出的这个DT损失是基于距离的，它计算的是艺术家肖像画（Groundtruth）中每个线条上的像素到生成肖像画中相同类型（黑或白）的最近像素的距离之和，和生成肖像画到艺术家肖像画的距离之和的总和。

DT损失对于微小的错位的惩罚是非常小的，但会真正惩罚那些过大的错位。我们使用了距离变换和倒角匹配（chamfermatching）来计算这个损失，公式如下：

倒角匹配距离：

距离变换损失：

其中和表示两幅肖像画，和表示距离变换，和分别表示黑白线条检测器，和分别表示人脸照片和对应的艺术家肖像画。

APDrawingGAN结果对比

图4. APDrawingGAN在没有对应艺术家肖像画的人脸照片上的测试结果。人脸照片来源于免费版权图片网站Pixabay。

图5. APDrawingGAN与Gatys，CycleGAN和Pix2Pix方法在艺术肖像风格化上的结果对比。其中红色矩形标出了CycleGAN和Pix2Pix方法结果中的一些明显瑕疵。

图6. APDrawingGAN与CNNMRF，DeepImageAnalogy和HeadshotPortrait方法在艺术肖像风格化上的结果对比。

图7. APDrawingGAN与现有风格转换方法的结果对比。

第一列是人脸照片，第二列是艺术家画的肖像画，第三列是一些方法需要的风格参考图，第四至九列是其他方法的结果，最后一列是我们方法的结果。

用户研究（user study）结果统计。

73名参与者参与了用户研究。用户研究中，每位参与者每次从两种算法生成的肖像画中选择一幅更接近艺术家肖像画和图像质量更好的肖像画，并对三种方法（CycleGAN、Pix2Pix和我们的方法）两两进行了比较，由此我们得到了三种方法的排名。

表中给出了每种方法排名最好(1)、中间(2)和最差(3)的百分比。在71.39%的情况下我们的方法排名最好。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4767

浏览量
100663
GaN

GaN

+关注

关注
19

文章
1928

浏览量
73225
深度学习

深度学习

+关注

关注
73

文章
5497

浏览量
121068

原文标题：GAN秒变肖像画！清华刘永进提出APDrawingGAN ，CVPR Oral(附微信小程序)

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

java小知识-纳秒

()对比 System.currentTimeMillis()我们经常使用，可以参考对比一下看方法意思，一个是纳秒，一个是毫秒，二者有关系吗? 先看看单位换算：一秒=1000毫秒 1毫秒

发表于 11-26 11:11 •96次阅读

字节跳动与清华AIR成立联合研究中心

近日，清华大学智能产业研究院（AIR）与字节跳动共同宣布成立“可扩展大模型智能技术联合研究中心”（SIA Lab），并在清华大学举行了隆重的成立仪式。

发表于 10-12 15:24 •359次阅读

GaN有体二极管吗?了解GaN的第三象限运行

电子发烧友网站提供《GaN有体二极管吗?了解GaN的第三象限运行.pdf》资料免费下载

发表于 09-19 12:55 •6次下载

GaN应用介绍

电子发烧友网站提供《GaN应用介绍.pdf》资料免费下载

发表于 09-12 09:55 •0次下载

一本小册子，咋就让IT人水灵灵地「由I变E」了？

当IT圈遇上MBTI，看「I人」如何秒变「E人」！

发表于 08-12 14:28 •1305次阅读

GaN MOSFET 器件结构及原理

GaN MOSFET（氮化镓金属氧化物半导体场效应晶体管）是一种新型的功率器件，具有高功率密度、高效率和快速开关速度等优点。与传统的硅基MOSFET相比，GaN MOSFET具有更高的电子迁移率

发表于 07-14 11:39 •1190次阅读

清华FPGA的开发软件

清华的FPGA除了官方提供的开发软件，能用其它开发软件进行开发吗？官方的开发软件安装，挺麻烦啊。

发表于 06-23 12:25

世界首款！又是清华：类脑互补视觉芯片“天眸芯”

近日，清华大学在类脑视觉感知芯片领域取得重要突破：清华大学依托精密仪器系的类脑计算研究中心施路平教授团队，提出一种基于视觉原语的互补双通路类脑视觉感知新范式，研制出世界首款类脑互补视觉芯片“天眸芯

发表于 06-04 08:36 •396次阅读

微软运用深度学习技术构建多模态3D肖像模型，成就逼真虚拟肖像

此项专利名为《多模态三维面部建模及追踪，制作栩栩如生的虚拟肖像》。其系统包括处理器和存储器系统，前者负责收集初始数据（即面部初始模样）以及多元数据信号（例如用户声波等音频数据），再将两者整合并进行拟合处理。

发表于 04-24 15:24 •307次阅读

谷歌发布VLOGGER AI模型，实现肖像朗读音频内容

具体来说，VLOGGER AI 采用一种适应虚拟肖像的多模态 Diffusion 模型，通过 MENTOR 数据库进行训练，涵盖了超80万个人物肖像及超过2200小时的视频数据。得益于此，VLOGGER 可以生成各种族、各年龄段、穿着多样、姿态各异的

发表于 03-19 14:27 •767次阅读

功率GaN，炙手可热的并购赛道？

电子发烧友网报道（文/梁浩斌）继去年英飞凌收购GaN Systems之后，2024年1月，另一家汽车芯片大厂瑞萨也收购了功率GaN公司Transphorm。 Transphorm在2022年

发表于 02-26 06:30 •2420次阅读

首个在6英寸蓝宝石衬底上的1700V GaN HEMTs器件发布

近日，广东致能科技团队与西安电子科技大学广州研究院/广州第三代半导体创新中心郝跃院士、张进成教授团队等等合作攻关，通过采用广东致能科技有限公司的薄缓冲层AlGaN / GaN外延片，基于广州第三代半导体创新中心中试平台，成功在6英寸蓝宝石衬底上实现了1700V

发表于 01-25 10:17 •1085次阅读

EG网关串口连接永宏PLC应用案例

EG网关串口连接永宏PLC应用案例前言：永宏PLC是一款国产优秀的可编程控制器，广泛应于工业控制领域，是一款性能高，运行稳定的控制器。此次我们要把永宏FBs/B1系列PLC通过Modbus协议连接

发表于 01-03 14:45 •597次阅读

阿秒激光有哪些应用呢？

阿秒激光有哪些应用呢？阿秒激光是一种特殊的激光技术，它的独特之处在于它的脉冲宽度极短，仅为飞秒级（即10^-15秒）。这种特性使得阿秒激光

发表于 12-18 13:52 •1045次阅读

微波GaN HEMT 技术面临的挑战

报告内容包含：微带WBG MMIC工艺 GaN HEMT 结构的生长 GaN HEMT 技术面临的挑战

发表于 12-14 11:06 •403次阅读