Residual Networks Behave Like Ensembles of Relatively Shallow Networks

论文链接

　　这篇文章分析了ResNet在层数不断加深的情况下仍然能够获得和好的效果，究竟是偶然现象还是必然的？
　　文中认为，ResNet是许多路径的集合，而不是简单的神经网络。ResNet网络中数据流所经过的路径，长度有所不同。路径的长度服从二项分布。换句话说，110层的ResNet实际上大约只相当于55层深。虽然增加更多的层能够使ResNet获得更好的效果，但是有效的路径相对来说是较浅的。文中得出的结论是：ResNet并不是通过保留贯穿整个网络的梯度流来解决梯度消失的问题，而是缩短了有效路径。
　　文章主要的贡献为：

　揭示了ResNet可以看成是许多路径的集合，而不是特简单的特深网络。
　验证了ResNet中的路径并不具有很强的相互依赖性。
　研究了ResNet中的梯度流，证明只有较短的路径才对训练中的梯度有影响。较长的路径在训练中并不需要。

　　文中分别为ResNet和Vgg16作了测试，删除了网络中的一些层，如图所示。(在测试时)删除ResNet中的一些层相当于将一半的路径置0，因此对结果几乎没有影响，但是删除Vgg等网络中的层会阻断了从输入到输出的路径，所以会对结果造成很大的影响。因此认为ResNet起到了一种ensemble的效果。