模拟的未来

  准确率越来越高,能做的事越来越多,如今的人工智能看起来越来越智能,因为它做到了我们以前认为计算机做不到的事。它能听能说能写能看,有时做的比人还好,好像就要量变累积成质变,哪天就变成强人工智能了。

  可是为了实现这些,代价是什么呢?上百瓦的GPU没日没夜地运转,因为一个新模型的提出,被不断尝试、改良,试图用在其他问题上,直到下一个模型的提出。

  而模拟计算机,不仅仅会解决能耗的问题,我认为它在底层上真正提供了数字计算机难以实现的随机性,或许这种随机性就是划分人工智能和强人工智能的关键,我总有这种感觉。

卷积核与通道数

  卷积核本身是有通道的,通道数和输入通道数相等,卷积核的个数即输出通道数。

  为了方便解释卷积操作,几乎所有的教程配图都采用的是单通道卷积核。这容易让人误以为卷积核都是一个二维矩阵,也导致我曾经在卷积操作的输入输出通道个数上产生了很大的疑惑,为什么输入通道和输出通道的个数可以不是倍数关系?

  这也是为什么卷积操作中参数out_channels规定了卷积核的个数。

  在学习卷积的过程中,还经常会见到一些例子帮助你理解卷积能做什么,用一些特定的卷积核对图像进行卷积可得到诸如边缘信息等特征。这会引导人去想卷积网络中用到了什么卷积核,如果这样想,那就把问题想颠倒了。卷积核里的元素就是卷积网络在训练过程中要学习的参数,之所以举出前面某些特定卷积核的例子,是为了说明卷积核是的确可以提取图像特征的。至于训练之后得到的卷积核中的元素,没人关心它们具体是什么,我们只关心它们能否提取到想要的特征。网络开始训练前的参数初始化也是在初始化卷积核中的元素。

20220325

  最近在研究把人脸扭正并替换掉图片中的一些元素相关的问题。生成图片就绕不开GAN,生成人脸就绕不开StyleGAN。开始关于StyleGAN的文章我读得并不是太懂,只知道它能随机生成人脸,于是找了在StyleGAN以前的对于我来说结构简单易懂的DR-GAN来研究。DR-GAN所做的事是可以生成任意角度的人脸,和我的目标还是很相符的,但是经过我的研究与复现,它的整个网络的能力我认为是有限的,生成的图片并不能使人满意。多读了几篇文献,感觉渐渐对图片生成有点模糊的认识了,就又回来重新读StyleGAN的论文了,然后就发现了StyleGAN-Encoder的存在,并且才意识到英伟达本身在StyleGAN2里就提出了一个Projector(为什么当初不好好地读完论文),瞬间觉得之前做的努力大约的确是白费了。StyleGAN生成人脸可以不随机,理论上我觉得StyleGAN-Encoder调调优,应该就能很大程度上解决我现在的问题了,希望能从中找到一些改进空间,让我挤出一篇论文来,别让我的时间再次白费。

Read More

StyleGAN Encoder学习笔记

Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?

原文链接

Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space? ICCV 2019: 4431-4440

摘要

  我们提出了一种将给定图像嵌入StyleGAN的潜在空间的有效算法。这种嵌入使语义图像编辑(semantic image editing)操作能够应用于存在的照片。以在FFHD数据集上训练的StyleGAN为例,我们展示了图像变形(image morphing),风格迁移和表情迁移的结果:通过研究嵌入算法的结果,可以深入了解StyleGAN的潜在空间的结构。我们提出了一组实验来测试什么类型的图像可以被嵌入,它们是如何被嵌入的,什么样的潜在空间适合嵌入,以及嵌入是否具有语义意义(semantically meaningful)。

Read More

非线性最优化基础

第1章 最优化问题简介

  最优化问题记为

  满足约束条件的向量$x$称为可行解(feasible solution),全体可行解构成的集合称为可行域(feasible region). 此外,函数$g_i\ (i = 1, \dots, m)$与$h_j\ (j = 1, \dots, l)$称为约束函数(constraint function),而可行域中使得目标函数值为最小的向量$x$称为问题的最优解(optimal solution).

Read More