引用次数最多的深度学习论文出自谁手?(无监督学习/生成模型篇) 引用次数最多的深度学习论文出自谁手?(无监督学习/生成模型篇) AI资讯

雷锋网AI科技评论:我们通常都会学习前辈或大牛的经典作品,而引用次数自然也成为了论文的一个重要标杆。在GitHub上,@Terryum整理了一份精心编写的论文推荐列表,其中包含了在深度学习领域中引用次数最多的前100篇论文(自2012年起)。

有一些深度学习论文,无论它们属于哪个应用领域,都值得仔细研习。文章在精不在多,雷锋网提供的这些文章,都被认为是值得一读的优秀论文。囿于篇幅限制,雷锋网整理编译了无监督学习/生成模型的七篇论文,并增加了论文的概要,方便读者快速了解。

自然图像分布的建模在无监督学习中是一个里程碑式的难题,因为图像的高维度和高结构性,建模时需要考虑模型的可表达性,可控性和可扩展性,这使得很多模型在建立时以牺牲性能为代价,才能提取出有意义的图像表征。来自Google的Aaron van den Oord,Nal Kalchbrenner和Koray Kavukcuoglu在《Pixel Recurrent Neural Networks》一文中提出了一种能连续预测图像像素的二维RNN模型(PixelRNN)和全卷积网络CNN模型(PixelCNN)。作者对原像素的离散概率建模,并编码了完整的图像依赖关系。模型在MNIST和CIFAR-10上进行了测试,取得的对数似然函数值明显优于当下的技术发展水平。最后作者还给出了PixelRNN生成的一个样本定性评估。

[1] Pixel recurrent neural networks(2016), A. Oord et al.[pdf]

来自OpenAI 的多位技术专家联合发表了一篇名为《Improved Techniques for Training GANs》的论文,他们在论文中给出了训练GAN模型时应用的一些技巧。这些技巧的应用使得他们在MNIST,CIFAR-10和SVHN数据集的半监督分类问题中取得了目前技术发展的最高水平。视觉图灵测试证实了模型生成图像的高质量,连肉眼也无法分辨模型生成的MNIST样本和真实数据的区别,而模型生成的CIFAR-10样本,人类判断的错误率为21.3%。模型生成的ImageNet样本更是达到了空前未有的分辨率。作者在文章提出,这些技巧使得模型能够学习ImageNet类的可辨别特征。

[2] Improved techniques for training GANs(2016), T. Salimans et al.[pdf]

近几年在计算机视觉领域,卷积神经网络在有监督学习问题上得到了大量应用,而在无监督学习问题上却鲜少有人关注。Alec Radford,Luke Metz和Soumith Chintala在论文《Unsupervised representation learning with deep convolutional generative adversarial networks》中介绍了一类名为深度卷积生成式对抗网络(DCGAN)的CNN模型,并认为这种模型很适合无监督学习问题。通过在不同的图像数据集上训练,模型在生成器和判别器上,从物体物件到场景图像,都能学习到的一种层次的表征。最后,将学习到的特征应用到新任务中,证明了它们作为通用图像表征的适用性。

[3] Unsupervised representation learning with deep convolutional generative adversarial networks(2015), A. Radford et al.[pdf]

《DRAW: A Recurrent Neural Network For Image Generation》一文出自Google的DeepMind实验室,介绍了一种可应用于图像生成的Deep Recurrent Attentive Writer(DRAW)神经网络模型,此模型能够生成高质量的自然图像,并提高了当前在MNIST数据集上生成模型表现的最好水平。此外,使用SVHN数据集训练的DRAW模型生成的图片,裸眼无法分辨其与真实数据的区别。

[4] DRAW: A recurrent neural network for image generation(2015), K. Gregor et al.[pdf]

作为生成对抗网络(GAN)的开山之作,《Generative Adversarial Nets》论文初次提出了这种对抗过程估计生成模型的新框架,文中同时训练了两个模型,一个生成模型G(获取数据分布),一个判别模型D(估计样本来自训练数据集或者生成模型G 的概率)。生成模型G的训练目标是最大化判别模型D犯错的概率。这个模型类似于两个人在玩极小极大算法的游戏。对于任意的函数G和D,存在唯一解,使得G恢复训练数据分布,而D处处为1/2。 当G和D由多层感知器定义时,整个系统都可以用反向传播算法来训练。在训练和样本生成过程中不需要任何的马尔科夫链或者unrolled approximate inference。实验通过对生成样本的定性和定量评估,证明了此框架的潜力。

[5] Generative adversarial nets(2014), I. Goodfellow et al.[pdf]

在面对连续的潜变量,复杂的后验分布和数据集庞大的情况下,贝叶斯概率模型(directed probabilistic models)如何进行有效的推理和学习?Diederik P. Kingma 和Max Welling在《Auto-Encoding Variational Bayes》一文中提出了一种随机变分推理和学习算法,能够适应庞大的数据集和弱可微条件。论文提出了一种新的变分下界估计,可以直接应用SGD来优化和调整。另外,论文引入了自动编码变分贝叶斯(AEVB),这是针对有效推理和学习的一种高效算法。

[6] Auto-encoding variational Bayes(2013), D. Kingma and M. Welling[pdf]

“有没有可能从无标签的图像数据中学习一个面部特征器?”《Building High-level Features Using Large Scale Unsupervised Learning》一文讨论了关于大规模无监督高层特征构建的问题。论文作者基于庞大的图像数据集,训练了一个9层的局部连接稀疏自编码网络模型,模型带有池化层和局部对比归一化层。通过模型并行化和异步SGD在1000个机器(16000个核)上训练了3天,由此证明了从无标签图像数据中训练面部特征器是可行的。对照实验表明,训练出来的特征探测器在平移,缩放和平面外旋转上都体现了鲁棒性。除此之外,相同网络对于其他高层概念的探测表现的很灵敏,比如对猫脸、人类身体结构的探测。通过这些学习到的特征,训练的网络在识别22000类物体的ImageNet数据集上获得了15.8%的准确率,相对之前的最高水平有了70% 的性能提升。

[7] Building high-level features using large scale unsupervised learning(2013), Q. Le et al.[pdf]

本文只介绍了列表中属于无监督学习/生成模型的七篇引用次数最多的论文,对于其他类别的论文,请参考作者其他编译文章或者原文链接:https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models,雷锋网(公众号:雷锋网)编译。