ImageNet Classification with Deep CNNs/zh

Research Paper
Authors	Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton
Year	2012
Venue	NeurIPS
Topic area	Deep Learning
Difficulty	Research
Source	View paper

This page is a translated version of the page ImageNet Classification with Deep CNNs and the translation is 100% complete.

Other languages:

English
Español
中文

ImageNet Classification with Deep Convolutional Neural Networks是Krizhevsky、Sutskever和Hinton于2012年发表的论文,该论文提出了AlexNet,这是一个深度卷积神经网络,以巨大优势赢得了2012年ImageNet大规模视觉识别挑战赛(ILSVRC)。该论文被广泛认为是现代深度学习革命的催化剂,证明了在GPU上训练的深度神经网络能够在大规模图像识别任务中大幅超越传统的计算机视觉方法。

概述

在AlexNet出现之前,图像分类的主流方法依赖于人工设计的特征(如SIFT、HOG或Fisher向量),这些特征被输入到诸如SVM等浅层分类器中。虽然神经网络在MNIST等较小数据集上展现出了潜力,但尚未成功扩展到复杂的大规模识别任务。许多研究者质疑深度网络是否能够与精心设计的特征流水线竞争。

Krizhevsky等人通过在ImageNet LSVRC-2010数据集(120万张图像,1000个类别)上训练一个具有6000万参数的深度卷积神经网络,打破了这一假设,其top-5错误率几乎仅为最佳竞争方法的一半。这一结果证明了大规模数据集、GPU计算和架构创新的结合能够释放深度网络的表征能力。

主要贡献

GPU上的大规模CNN训练:这是在GPU上成功训练深度卷积网络的最早演示之一,使用了一个跨两块各具3 GB内存的NVIDIA GTX 580 GPU拆分的模型。
ReLU激活函数:采用整流线性单元( $f(x) = \max(0, x)$ )代替传统的sigmoid或tanh激活,使深度网络的训练速度大大加快。
数据增强:使用随机图像平移、水平翻转和基于PCA的颜色增强来人为扩大训练集,减少过拟合。
Dropout正则化:在全连接层中应用dropout(概率为0.5),这是该技术在大型卷积网络中最早的应用之一。
局部响应归一化:一种受生物神经元侧抑制启发的归一化方案,应用于ReLU激活之后。
重叠池化:使用步幅小于核大小的max-pooling,与非重叠池化相比略微减少了过拟合。

方法

AlexNet由八个可学习的层组成:五个卷积层,后接三个全连接层。最后一个全连接层输入到一个1000路softmax,以生成类别概率分布。

该网络处理224x224的RGB图像。第一个卷积层应用96个大小为11x11、步幅为4的卷积核,大幅减少了空间维度。后续层使用更小的卷积核(5x5和3x3)。该架构在两块GPU之间拆分,每块GPU处理一半的特征图,跨GPU通信仅在某些层发生。

ReLU激活函数是一项关键创新。与当时标准的饱和非线性函数(sigmoid、tanh)相比,在相同架构下,ReLU使训练收敛速度大约快了六倍:

$f(x) = \max(0, x)$

数据增强以两种形式应用。第一种从256x256的图像中提取随机的224x224图块(及其水平翻转),将训练集扩大了2048倍。第二种执行基于PCA的颜色扰动,将RGB像素值主成分的倍数加到每张图像上,使top-1错误率降低了1%以上。

训练期间,dropout被应用于前两个全连接层的输出,以0.5的概率随机将每个神经元的输出置零。这使收敛所需的迭代次数大约增加了一倍,但显著减少了过拟合。

该网络使用随机梯度下降进行训练,batch大小为128,动量为0.9,权重衰减为0.0005。学习率初始化为0.01,当验证误差停止改善时手动按10倍因子降低。在两块NVIDIA GTX 580 GPU上,训练大约耗时五到六天。

结果

在ILSVRC-2012竞赛中,AlexNet取得了:

在测试集上top-5错误率为15.3%,而第二名(使用传统特征结合SVM)为26.2%。这10.9个百分点的提升在该竞赛历史上前所未有。
top-1错误率为37.5%,同样大幅领先于竞争方法。

在ILSVRC-2010测试集(其标签公开可用)上,该网络分别取得了37.5%和17.0%的top-1和top-5错误率,超过了之前47.1%和28.2%的最佳结果。

对所学特征的定性分析表明,第一个卷积层学到了一组频率和方向选择性滤波器以及颜色特定滤波器——令人联想到初级视觉皮层中的简单细胞。两条GPU路径的特化方式不同,其中一块GPU主要学习与颜色无关的特征,而另一块学习颜色特定的特征。

作者还证明了AlexNet学到的特征能够很好地迁移到其他任务,在其他数据集上将最后一层的特征与简单分类器结合使用时,取得了具有竞争力的结果。

影响

AlexNet被广泛认为点燃了深度学习革命。其在2012年ImageNet竞赛中的决定性胜利使计算机视觉社区——以及更广泛的人工智能领域——确信深度神经网络是处理感知任务的可行而强大的方法。在两年内,ImageNet中几乎所有的有竞争力参赛作品都使用了深度卷积网络,到2015年,top-5错误率已降至人类水平之下。

该论文引入或推广了若干技术(ReLU、dropout、GPU训练、数据增强),这些技术成为了标准实践。它直接影响了后续的架构,包括VGGNet、GoogLeNet和ResNet。本工作率先将GPU用于训练,改变了机器学习的硬件格局,并推动了专用AI加速器的发展。

AlexNet始终被列为有史以来最有影响力的机器学习论文之一,是人工智能历史上的一座里程碑。

该论文的成功也验证了大规模标注数据集对训练深度网络的重要性。由Fei-Fei Li及合作者整理的ImageNet数据集本身被证明是不可或缺的——没有120万张标注图像,深度网络的容量就无法被充分利用。这一洞见推动了在许多领域创建大规模数据集。

Krizhevsky、Sutskever和Hinton在多伦多大学的合作体现了深度学习复兴的学术起源,三人后来都在大型科技公司中,在该领域的后续发展中扮演了核心角色。

参见

参考文献

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25 (NeurIPS 2012).
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). ImageNet: A Large-Scale Hierarchical Image Database. CVPR 2009.
Simonyan, K. & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. ICLR 2015.