深度残差网学习在图像分类上的应用
何凯?/p>
张翔?/p>
任少?/p>
孙剑
微软研究?/p>
{kahe, v-xiangz, v-shren,jiansun}@microsoft.com
摘要
当前,深度神经网络比普通神?/p>
网络更难训练。我们提出了一种减?/p>
网络训练负担的残差学习框架,这种
网络比以前使用过的网络本质上层次
更深。我们明确地重定义这层为学习
输入层相关的残差函数,而不是学?/p>
未知的函数。同时,我们提供了全?/p>
经验数据,这些数据证明残差网络更
容易优化,并且可以从深度增加中大
大提高精度。我们在
ImageNet
数据
集用
152
?/p>
--
?/p>
VGG
网络
[41]
?/p>
8
?/p>
的深度神经网络来评估残差网络,但
它仍具有较低的复杂度。在
ImageNet
测试集中,这些残差网络整体达到了
3.57%
的误差。该结果?/p>
2015
年大?/p>
模视觉识别挑战赛分类任务中赢得了
第一。此外,我们还用?/p>
100
?/p>
1000
层深度分析了?/p>
CIFAR-10
?/p>
对于大部分视觉识别任务,深度
表示是非常重要的。正式由于使用极
深的表示,在
COCO
对象检查数据集
上,我们就得到了?/p>
28%
相关的改
进。深度残差网络是我们提交?/p>
ILSVRC
?/p>
COCO 2015
竞赛
[1]
的基
础,而且?/p>
ImageNet
检测任务,
ImageNet
定位?/p>
COCO
检测和
COCO
分割等领域赢我们也都获得了第一?/p>
1.
简?/p>
深度卷积网络
[21,22]
引领了一?/p>
列图像分类上的突?/p>
[21,50,40]
。深?/p>
网络通过层的叠加
(
深度
)
,自然而然
的以一种端到端的多层模式集成了?/p>
/
?/p>
/
高级的特?/p>
[50]
和分类器,并且特
征的
?/p>
水平
?/p>
都能变得更加丰富。最?/p>
证据
[41,44]
表明网络深度非常重要?
并且
ImageNet
数据?/p>
[36]
挑战赛中?/p>
先的结果
[41,44,13,16]
都是在探?/p>
?/p>
?/p>
?/p>
”[41]
的模型,这些模型?/p>
16
?/p>
[41]
?/p>
30
?/p>
[16]
。许多其他的重大的视?/p>
识别任务
[8,12,7,32,27]
也都从深度模
型中获益良多?/p>
在深度的意义驱使下,一个问?/p>
出现了:学习更好的网络是不是和叠
加层数一样容易呢?解决这个问题的
一个障碍就是那个重名昭著的梯度?/p>
?/p>
/
爆炸
[1,9]
问题,他从一开始就阻碍
了网络的收敛。然而,这个问题很大
程度上被归一的初始化
[23,9,37,13]
?/p>
中间层归一?/p>
[16]
解决了,它们确保
?/p>
10
层的网络开始用反向传播算法
以随机梯度下?/p>
(SGD)
的方式收?/p>
[22]
?/p>
当更深的网络能够开始收敛时?/p>
降级问题的问题开始出现:随着网络
深度的增加,精准度开始饱和(这并
不令人吃惊)
,然后迅速下降。预?/p>
之外的是,在
[11,42]
中报道并且经?/p>
我们实验验证发现,精准度的下降并
不是由过度拟合造成的,而且在合?/p>
的深度模型中增加更多的层数,会?/p>
成更高的训练误差。图
1
展示了一?/p>
经典的实例?/p>
?/p>
1 CIFAR-10
数据集上?/p>
20
层和
56
层的
?/p>
?/p>
?/p>
网络的训练误差(左)和测试误?/p>
(右?/p>
。更深的网络有更高的训练误差和测
试误差,?/p>
4
显示了在
ImageNet
也有相似
的现?/p>

(在训练集上精度)降级显示并