StyleGAN3学习笔记

Alias-Free Generative Adversarial Networks

原文链接

Alias-Free Generative Adversarial Networks. CoRR abs/2106.12423 (2021)

摘要

  我们观察到,尽管它们具有层次卷积性质(hierarchical convolutional nature),但典型的生成对抗网络的合成过程以一种不健康的方式依赖于绝对像素坐标。这表现为,例如,细节似乎粘在图像坐标上,而不是描绘对象的表面。我们将根本原因追溯到粗心的信号处理,这会导致生成器网络出现混叠(aliasing)。我们将网络中的所有信号解释为连续的,从而得出普遍适用的小型架构更改,以确保不需要的信息不会泄漏到分层合成过程中。由此产生的网络与StyleGAN2的FID相当,但在其内部表示(internal representations)上存在显著差异,即使在亚像素尺度上(subpixel scales),它们在平移和旋转上也是等变的(equivariant)。我们的结果为更适合视频和动画生成的模型铺平了道路。

Read More

StyleGAN2-ADA学习笔记

Training Generative Adversarial Networks with Limited Data

原文链接

Training Generative Adversarial Networks with Limited Data. NeurIPS 2020

摘要

  使用太少的数据训练生成对抗网络(GAN)通常会导致鉴别器过拟合,导致训练发散。我们提出了一种自适应鉴别器增强机制,可以在有限的数据范围内显著稳定训练。该方法不需要更改损失函数或网络架构,并且适用于从头开始的训练和在另一个数据集上微调现有的GAN。我们在几个数据集上证明,现在仅使用几千张训练图像就可以获得良好的结果,经常将StyleGAN2结果与数量级较少的图像匹配。我们预计这将为GAN开辟新的应用领域。我们还发现,广泛使用的CIFAR-10实际上是一个有限的数据基准,并将FID记录从5.59提高到了2.42。

Read More

StyleGAN2学习笔记

Analyzing and Improving the Image Quality of StyleGAN

原文链接

Analyzing and Improving the Image Quality of StyleGAN. CVPR 2020: 8107-8116

摘要

  基于风格的GAN架构(StyleGAN)在数据驱动的无条件生成图像建模中实现了最先进的效果。我们公开并分析了它的几个缺点(characteristic artifacts),并提出了模型体系结构和训练方法的改变来解决这些问题。特别地,我们重新设计了生成器规范化,重新研究了渐进增长(progressive growing),并对生成器进行了正则化,以鼓励在从潜在编码到图像的映射中的良好的调节。除了提高图像质量外,此路径长度正则化器还带来了其他好处,即生成器明显更容易反转。这使得通过某个特定网络来赋予生成图像属性成为可能。此外,我们还可视化了生成器如何利用其输出分辨率,并确定(identify)了容量问题,从而促使我们训练更大的模型,以进一步提高质量。总的来说,我们的改进模型重新定义了无条件图像模型的最先进水平,既包括现有的分布质量指标(distribution quality metrics ),也包括感知图像质量(perceived image quality)。

Read More

SofGAN学习笔记

SofGAN: A Portrait Image Generator with Dynamic Styling

原文链接

SofGAN: A Portrait Image Generator with Dynamic Styling. ACM Trans. Graph. 41(1): 1:1-1:26 (2022)

近年来,生成对抗网络(Generative adversative Networks, GAN)被广泛用于肖像图生成。然而,在GAN学习到的潜在空间中,不同的属性,例如姿势,形状和纹理风格,通常会相互纠缠,使得对特定属性的显式控制变得困难。为了解决这个问题,我们提出SofGAN图像生成器,把肖像的潜在空间分离成两个子空间:几何空间和纹理空间。从两个子空间中采样的潜在编码被分别送入两个网络分支,一个用于生成具有标准姿势的3D几何图形,另一个用于生成纹理。对齐的3D几何图形还带有语义分割,被编码为语义占用域(semantic occupancy field, SOF)。SOF允许在任意视图中呈现一致的2D语义分割映射,然后将其与生成的纹理映射融合,并使用我们的语义实例(semantic instance-wise, SIW)模块将其风格化(stylized)为肖像图片。通过大量实验,我们证明了我们的系统能生成高质量肖像图,并且具有独立可控的几何和纹理属性。该方法也适用于各种应用,例如外观一致的人脸动画和动态风格。代码可在sofgan.github.io获得。

Read More