500字范文,内容丰富有趣,生活中的好帮手!
500字范文 > 经典网络结构学习(LeNet-5 AlexNet VGG GoogLeNet)

经典网络结构学习(LeNet-5 AlexNet VGG GoogLeNet)

时间:2022-09-22 15:06:10

相关推荐

经典网络结构学习(LeNet-5 AlexNet VGG GoogLeNet)

致读者:

本篇文章是笔者的学习笔记,仅做记录用,而不作任何指导作用,大家阅读时请带着批判的眼光看待,如有错误欢迎指出。

文章目录

0 基础知识0.1 卷积核与输入0.2 Batch Norm0.3 感受野(Receptive Field)0.4 梯度爆炸(Gradient Exploding)和梯度弥散(Gradient Vanishing)1 LeNet-51.1 相关背景1.2 网络结构1.3 总结2 AlexNet2.1 相关背景2.2 网络结构2.3 总结3 VGG3.1 相关背景3.2 网络结构3.3 优点与创新点3.3.1 小卷积核3.3.2 小池化核3.3.3 使用卷积替代全连接层3.3.4 1 * 1卷积核3.4 总结4 GoogLeNet4.1 相关背景4.2 Inception4.2.1 Inception V14.2.2 Inception V24.2.3 Inception V35 ResNet5.1 相关背景5.2 Residual block5.2.1 残差块的结构5.2.2 how residual block work参考文献

0 基础知识

0.1 卷积核与输入

此章节作为一个基础知识章节,回顾卷积核与输入数据之间的size对应关系。

假设:

Input: [b,3,28,28]

One-kernel: [3,5,5]

Multi-kernel: [16,3,5,5]

Bias: [16]

Out: [b,16,28,28]

此处,input代表输入有b张图片,3个通道(RGB),图片像素为(32828)

对于单卷积核(One-kernel)的卷积层来说,这个卷积核的尺寸为(3 * 5 * 5),实际上是利用了三个小卷积核同时对Input的三个通道进行卷积。由于输入为3通道,所以必须用3个小卷积核同时操作,此处的3必须和input的3相等。

大部分情况下,一个卷积层(convolution)不会只有一个卷积核,大都是使用多卷积核(Multi-kernel),此处使用了16个卷积核,又由于输入为3通道,所以此处应当有16*3个小卷积核。习惯上,这里的16称为通道(channel).最终得到16个特征图(feature maps).

在Multi-kernel的情况下,加入偏置(bias),即是16个偏置。

最终output为(b * 16 * 28 * 28),此处有填充(padding),所以原图和原图大小一致。

最后,贴上卷积层图片大小计算公式:

0.2 Batch Norm

举个例子,对于sigmoid函数:

S(x)=11+e−x\mathrm{S}(\mathrm{x})=\frac{1}{1+\mathrm{e}^{-\mathrm{x}}}S(x)=1+e−x1​

在x∈(-∞,-4),(4,+∞)时,梯度非常小,这影响了神经网络的收敛速率,所以要对input进行Normalization.

Batch Normalization的规范化写法:

Batch Norm的优点:

Converge faster

Better performance

Robust(stable,larger learning rate)

0.3 感受野(Receptive Field)

在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上的映射区域的大小。

如图所示,2个3 * 3卷积核,stride = 1,padding = 0的感受野为相当于5 * 5的卷积核。

感受野的计算

第n层的感受野为:

rn=rn−1+(kn−1)∏i=1n−1sir_{n}=r_{n-1}+\left(k_{n}-1\right) \prod_{i=1}^{n-1} s_{i}rn​=rn−1​+(kn​−1)∏i=1n−1​si​

其中,rnr_{n}rn​:第n层感受野大小,knk_{n}kn​第n层卷积/池化核大小。

简而言之:第n层感受野大小=上一层感受野大小+(第n层卷积核大小-1)乘以本层以前所有stride的乘积。

0.4 梯度爆炸(Gradient Exploding)和梯度弥散(Gradient Vanishing)

假设我们在训练一个深层的神经网络,共有l层,当我们忽略bias,使用线性激活函数,输出可以表示为:

y^=w[l]w[l−1]...w[2]w[1]x\hat y=w^{[l]}w^{[l-1]}...w^{[2]}w^{[1]}xy^​=w[l]w[l−1]...w[2]w[1]x

这里,z[1]=w[1]x,a[1]=g(z[1])=z[1]z^{[1]}=w^{[1]}x,a^{[1]}=g(z^{[1]})=z^{[1]}z[1]=w[1]x,a[1]=g(z[1])=z[1]

假如这里我们的w矩阵,均是对角线矩阵,主对角线元素为1.5,那么我们最后得到的y^\hat yy^​就会非常大,呈1.5的指数倍增加。相反,如果对角线元素特别小,为0.5,y^\hat yy^​就会特别小。

所以,当我们的权重矩阵w,哪怕只是比单位阵大一点点,在深层神经网络中它也会使得输出特别大,当然,w特别小也会造成不好的结果。

举个例子,在ResNet网络中,ResNet网络为152层,如果不采取任何相关措施,最后的梯度会是∂y^∂x=0.5151\frac{\partial {\hat y}}{\partial x}=0.5^{151}∂x∂y^​​=0.5151,这会让训练变得十分困难,让我们的梯度以非常小的stride变化。

1 LeNet-5

1.1 相关背景

LeNet由Yann Lecun于1998年提出,是一种经典CNN,是现代CNN起源之一。是一种用于邮政编码识别(手写体字符识别)的非常高效的CNN。出自论文《Gradient-Based Learning Applied to Document Recognition》.

1.2 网络结构

LeNet总共有六层网络,由于本网络年代久远,同时也没有在GPU上运行,包括最后的Gaussian connections现在已经鲜有人使用,本网络只进行简单介绍。

C1层: Input作为一个13232的图片(单通道,像素为32 * 32)。之后经过一个卷积层,卷积层的大小为6卷积核,每个卷积核大小为(5 * 5),这样就得到了6个feature map.

特征图大小为(32 - 5 + 1) * (32 - 5 + 1) = 28 *28

参数共享使得同个小卷积核每个神经元均使用相同的参数,因此,参数个数为(5 * 5 + 1) * 6 = 156,1为bias.

卷积后的图像大小为28 * 28,所以每个特征图有 28 * 28个神经元,所以连接数为(5 * 5 + 1) * 6 * 28 * 28 = 122304

S2层: 使用了一个下采样层(Subsampling).

不同于我们现在讲的Max-pooling,Average-pooling,此处采用了下采样层,采样原理为隔行采样,在AlexNet之后,我们比较熟制的Pooling操作就开始广泛使用了。

C3层: 16个卷积核,卷积模板大小为5 * 5

特征图大小为: (14 - 5 + 1) * (14 - 5 + 1) = 10 * 10

S4层: 下采样层,原理同S2.

C5层: [120,16,5,5] 的卷积核,padding = 0,stride = 1,本层虽然是个卷积层,但是S4层正好是5 * 5,和小卷积核的尺寸相同,所以可以看作一个120个神经元的全连接层(Full connection).

F6层: 全连接层,共有84个神经元,与C5层进行全连接,即每个神经元都与C5层的120个特征图进行连接。

Output层: 全连接层,Gaussian connections,采用了RBF函数径向欧氏距离函数),目前已被Softmax取代。

RBF:

yi=∑j=083(xj−wij)2y_{i}=\sum_{j=0}^{83}\left(x_{j}-w_{i j}\right)^{2}yi​=∑j=083​(xj​−wij​)2

1.3 总结

LeNet-5与现在大部分卷积神经网络还是有差别的,LeNet采用sigmoid作为激活函数,目前大多使用tanh,ReLU,Leakly ReLU.

LeNet-5下采样与现在的方式不同,目前大多使用池化层。

目前的分类问题大多在最后的输出层采用SoftMax,而LeNet使用Gaussian connections.

LeNet-5在当时计算机算力较低的情况下,已经是非常高效的CNN,但是还是缺乏大规模训练数据,在复杂问题的处理并不理想。

2 AlexNet

2.1 相关背景

在LeNet之后,深度学习的发展较为平缓,一直到了深度学习界里程碑的作品出现——AlexNet.

AlexNet是ISLVRC (ImageNet Scale Visual Recogniton Challenge)的冠军网络,分类准确率提高了惊人的十多个点,AlexNet的提出,使得深度学习开始蓬勃发展。

AlexNet是由G.Hinton(第三作者)和他的学生Alex Krizhevsky设计的,G.Hinton被人称为“神经网络教父”。

AlexNet使用了两块GTX 580(3GB * 2),将kernel均分在两张显卡上,在当时是非常新颖的做法,所以着重学习Alexnet在当时的影响力。

该网络的亮点在于:

使用了ReLU作为激活函数,而非传统的Sigmoid和Tanh首次利用GPU进行网络加速训练使用LRN对局部特征进行归一化(目前以Batch Norm为主)使用重叠最大池化(Max pooling)使用Dropout机制

数据集: ImageNet,训练集120万张图片,验证集5万张图片,测试集15万张图片,1000个类别,并且有多种不同的分辨率。

论文原文:

/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

2.2 网络结构

AlexNet总共有输入层和8个layers,其中包含5个卷积层和3个全连接层,其中最后一个全连接层也是softmax输出层。

1.卷积层,输入图像尺寸为3 * 224 * 224,第一次卷积是会padding 3个像素变为 3 * 227 * 227,卷积核大小为96 * 3 * 11 * 11,stride为4.

所以,C1层的输出图像为[(227 - 11) / 4 + 1] * [(227 - 11) / 4 + 1] = 55 * 55,最终输出数据为 96 * 55 * 55,其中,96个卷积核分别在两个GPU上进行运算,即48 * 2.

2.池化层(Max Pooling),池化尺寸为3 * 3,stride = 2. pooling后尺寸为96 * [(55 - 3) / 2 + 1] * [(55 - 3) / 2 + 1] = 96* 27 * 27,然后进行归一化,运算尺寸为5 * 5.

注意此处的归一化并非目前经常使用的BN(BN于发表),而是局部响应归一化LRN(Local Response Normalized),在发表的"Very Deep Convolutional Networks for Large-Scale Image Recognition"中说明了,LRN在IILSVRC数据集上不能对性能进行改善。当前主流模型也基本不使用LRN.这里不对其进行深入学习。

此外,可以看到,本文采用的池化(Pooling)操作,尺寸为3,步长为2,Size>Stride,这正是我们之前提到的重叠池化(Overlapping Pooling).

3.卷积层,输入为上一层的feature map:96 * 27 * 27,将数据分别在两个不同的的GPU中进行运算,每组数据的大小为48 * 27 * 27,卷积核大小为128 * 48 * 5 * 5,padding = 2,stride = 1,每组得出的output为128 * [(27 - 5 + 2 * 2) / 1 + 1] * [(27 - 5 + 2 * 2) / 1 + 1] = 128 * 27 * 27,得出结果后经过ReLU层,尺寸仍然为128 * 27 * 27,这是每个GPU上的数据,如果计算总数据,应该再乘以2.

4.池化层(Max pooling),池化运算的尺寸为3 * 3,步长为2,池化后的尺寸为(27 - 3) / 2 + 1 = 13,即,总数据尺寸为2组128 * 13 * 13的像素层,经过5 * 5的归一化处理。

5.卷积层,padding = 1,同样数据还是在两个GPU下计算,每个GPU内卷积核尺寸为192 * 128 * 3 * 3,得到的数据为2组192 * 13 * 13的像素层,同样也要经过ReLU.

6.卷积层,padding = 1,每个GPU内卷积核尺寸为192 * 192 * 3 * 3,最终得到的数据仍为2组192 * 13 *13,最后经过ReLU.

7.卷积层,padding = 1,每个GPU内卷积核尺寸为128 * 192 * 3 * 3,最终得到的数据为2组128 * 13 * 13,最后经过ReLU.

8.池化层(Max pooling),池化尺寸为3 * 3,stride = 2,同理,这里依然是overlapping pooling,最后得到的output尺寸为: 2组 128 * 6 * 6的像素层数据.

9.全连接层1: 这里的输入数据为256 * 6 * 6,采用4096 * 256 * 6 * 6尺寸的滤波器对上层数据进行运算,得到的结果通过ReLU生成4096个值,再通过dropout输出本层结果值。

10.全连接层2: 这里的结构和上一层相同,经过ReLU后再经过dropout处理数据,得出4096个结果。

11.全连接层3: 本层有1000个神经元与上层进行全连接,最终得出被训练的数值。

2.3 总结

AlexNet作为的冠军网络,虽然现在已经很少有用这种结构,但是这个方法产生了巨大的影响。相比于网络结构,我们更应该去学习作者的思路,作者解决问题的能力,作者是怎样受到启发能够解决问题的。

笔者通过学习LeNet,AlexNet了解到了机器学习发展历史,同时也由于这些网络年代久远,结构较为简单,对内部的参数运算有了更深层次的理解。

3 VGG

3.1 相关背景

VGG是牛津大学的Visual Geometry Group提出的,在ILSVRC-获得亚军(第一名是GoogNet)。相比于AlexNet,VGG使用了更深的网络结构,同时也使用了更小的卷积核,证明了增加网络深度能够在一定程度上影响网络性能。

该网络的亮点在于:

小卷积核组。作者通过堆叠多个3 * 3卷积核(甚至1 * 1)来替代大卷积核,例如AlexNet中的11 * 11,这样可以减少所需参数,这是笔者认为最佳的创新点。小池化核。VGG使用2 * 2卷积核。网络更深,特征图更宽.VGG是一组网络,其后的数字代表网络隐藏层数,最高达到了VGG-19.网络中,卷积层专注于扩大通道数,池化层专注于缩小高和宽,计算量逐渐放缓。将卷积核替代全连接层。作者在测试阶段将三个全连接层替换为三个卷积,使得测试得到的模型结构可以接收任意高度或宽度的输入。多尺度。作者从多尺度训练可以提升性能受到启发,训练和测试时使用整张图片的不同尺度的图像,以提高模型的性能。不使用LRN.作者发现深度网络中LRN作用并不明显。

3.2 网络结构

卷积层全部为3 * 3的卷积核,用conv3-xxx来表示,xxx表示卷积核的通道数。作者实验了6种网络结构,其中VGG-16和VGG-19性能好。证明了增加网络深度能在一定程度上影响最终的性能

以VGG-16为例:

convolution default: kernel_size = 3,padding = 1

pooling default: size = 2,stride = 2

input: 3 * 224 * 224

2 * conv3-64

output: 64 * 224 * 224

maxpool

output: 64 * 112 * 112

3 * conv3-128

output: 128 * 112 * 112

maxpool

output: 128 * 56 * 56

3 * conv3-256

output: 256 * 56 * 56

maxpool

output: 256 * 28 * 28

3 * conv3-512

output: 512 * 28 * 28

maxpool

output: 512 * 14 * 14

3 * conv3-512

output: 512 * 14 * 14

maxpool

output: 512 * 7 * 7

2 * FC-4096

output: 4096 * 1 * 1

FC-1000

output: 1000 * 1 * 1

参数数量:

可见,VGG-16的参数主要集中在全连接层,而根据统计,VGG-16的参数有138M,如此高的参数我们可以预期VGG-16网络有非常高的拟合能力,然而缺点也同样显而易见,参数量的提高导致了训练时间增长,调参难度变大,需要的存储容量大。

3.3 优点与创新点

VGG网络不同于LeNet,AlexNet,现在仍然有许多模型以VGG网络为骨干,笔者决定花较多时间学习VGG网络。

3.3.1 小卷积核

VGG网络的作者在一定程度上受AlexNet启发,许多思路都与AlexNet进行比较,采用小卷积核就是其中一项,下面贴上论文原文:

Rather than using relatively large receptive fields in the first conv. layers (e.g. 11×11 with stride 4 in (Krizhevsky et al., ), or 7×7 with stride 2 in (Zeiler & Fergus,; Sermanet et al., )), we use very small 3 × 3 receptive fields throughout the whole net, which are convolved with the input at every pixel (with stride 1). It is easy to see that a stack of two 3×3 conv. layers (without spatial pooling in between) has an effective receptive field of 5×5; three such layers have a 7 × 7 effective receptive field. So what have we gained by using, for instance, a stack of three 3×3 conv. layers instead of a single 7×7 layer?

First, we incorporate three non-linear rectification layers instead of a single one, which makes the decision function more discriminative.Second, we decrease the number of parameters: assuming that both the input and the output of a three-layer 3 × 3 convolution stack has C channels, the stack is parametrised by 3(32C2)=27C23(3^2C^2)=27C^23(32C2)=27C2weights; at the same time, a single 7 × 7 conv. layer would require72C2=49C27^2C^2=49C^272C2=49C2parameters, i.e.81% more. This can be seen as imposing a regularisation on the 7 × 7 conv. filters, forcing them to have a decomposition through the 3 × 3 filters (with non-linearity injected in between).

由上文的AlexNet可知,AlexNet的第一个卷积层就采用了11 * 11的大型卷积核,而在本网络中,采用了连续的几个3 * 3的卷积核代替之,其优点是在具有相同感受野的条件下,能够增加网络深度来保证学习更复杂的模式,而且能够使得参数更少

感受野(Receptive Field)相关知识已经在这里学习了。

在这里简单的举个例子:

3个3 * 3的卷积核与1个7 * 7的卷积核相比(stride = 1,padding = 0)

r0r_{0}r0​的默认感受野为1,对于3个3 * 3的卷积核:

r1r_{1}r1​ = r0r_{0}r0​ + (3 - 1) * 1 = 3

r2r_{2}r2​ = r1r_{1}r1​ + (3 - 1) * 1 * 1 = 5

r3r_{3}r3​ = r2r_{2}r2​ + (3 - 1) * 1 * 1 * 1 = 7

而7 * 7卷积核的感受野为:

r1r_{1}r1​ = r0r_{0}r0​ + (7 - 1) * 1 = 7

可以从公式中看出,3个3 * 3的卷积核与1个7 * 7的卷积核的感受野是相同的。

同理,2个3 * 3的卷积核与1个5 * 5的卷积核的感受野是相同的。

3.3.2 小池化核

VGG-16使用的所有池化采用kernel size = 2 * 2,stride = 1,比AlexNet使用的更小,小kernel使得更能捕获细节变化。当然,此处依然使用overlapping pooling.

3.3.3 使用卷积替代全连接层

作者在测试阶段把网络中三个全连接层依次变为1个conv 7 * 7,2个conv1 * 1,由于没有全连接层,网络中的feature map不会固定,所以网络对任意大小的输入都可以处理。

3.3.4 1 * 1卷积核

作者认为1 * 1的卷积可以增加决策函数的非线性能力,非线性是由激活函数ReLU决定的。1 * 1卷积核更加注重的是当前卷积核的信息整合,对feature map能够很好的将为或者升维。在3 * 3或者5 * 5卷积核进行卷积前先降低feature map的维度,能够提升计算速度。

3.4 总结

VGG网络作为亚军网络,与GoogNet是双雄,虽然只是拿到亚军,但是其中提出的思想值得思考,简而言之:卷积核小点好,网络深点好,LRN用处不大。但是,VGG的缺点也十分显而易见:海量的参数,相比于GoogNet,确实是差距明显。虽然前面的小卷积核能够有效的减少参数,但是VGG的主要参数来源是全连接层,而VGG-16有三个全连接层之多,所以这使得train一个vgg网络要花费更长的时间。

4 GoogLeNet

4.1 相关背景

GoogLeNet与VGG网络是ImageNet竞赛的双雄,而GoogLeNet正是那年的冠军,为了纪念最经典的LeNet网络,论文中提到将网络命名为"GoogLeNet".

与VGG网络相同的是,GoogLeNet的理念也是go deeper,然而GoogleNet做了比VGG更大胆的尝试,它并非像VGG一样继承了LeNet和AlexNet的框架,GoogleNet网络有22层,却比AlexNet和VGG网络都小很多。

随着神经网络的快速发展,网络的层数不断增加,工作者们也通过更好的硬件来训练网络,同时也会带来海量的数据和更庞大的网络模型。这样的手段虽然能够带来更好的预测识别效果,但也是有很大的缺陷:

1.更深更宽的网络会带来过拟合(overfitting)

2.庞大的计算量消耗更多的资源

,Google团队受Network in Network和稀疏网络的启发,提出了名为Inception的结构。

GoogLeNet的优点:

使用了1 * 1卷积核,减少feature map数采用了模块化结构(Inception-v1),方便添加和修改网络最后采用全剧平均池化(Global Average Pooling)+全连接层+SoftMax额外增加了2个辅助分类器,用以避免梯度消失,辅助分类器是将中间某一层的输出用作分类,并用一个较小的权重加到最终分类结果中。

论文原文:

GoogLeNet

4.2 Inception

当我们要构建一个卷积层时,我们需要选择是使用3 * 3还是5 * 5的卷积核去操作,其次,还要选择是否使用池化层,这里我们可以使用inception,它能够“帮你选择”。

我们知道,卷积层相比较于全连接层,最大的优点就是权值共享(weights share)和稀疏连接(Sparse Connectivity),Inception结构的主要思路是怎样用密集成分来近似最优的局部稀疏结构。

Inception V1:主要提出了多分支(多分辨率的filter组合)的网络

Inception V2:主要提出了BN层,提高网络性能(减少梯度消失和爆炸、防止过拟合,代替dropout层使初始化学习参数更大)

Inception V3:主要提出了分解卷积,把大卷积因式分解成小卷积和非对称卷积

4.2.1 Inception V1

原始的Inception结构:

采用不同大小的卷积核意味着不同大小的感受野,最后拼接意味着不同尺度的融合。卷积核大小采用1,3,5,是为了方便对齐。设定卷积步长stride=1之后,只要分别设定padding=0,1,2,那么卷积之后接可以得到相同维度的特征,然后这些特征可以直接拼接在一起。pooling十分有效,所以Inception也嵌入了。网络越到后面,特征越抽象,而且每个特征所涉及的感受野也更大了,因此随着层数的增加,3 * 3和5 *5卷积的比例也要增加。

如我们所知,inception的开发的初衷之一就是降低参数量,(b)图改进的inception相较于(a)图,又能够很好的降低参数量,这里我们来举个例子:

assume input_size = [192 * 28 * 28]

kernel_size=[32 * 192 * 5 * 5]

parameters_number=192 * 28 * 28 * 32 * 5 * 5=120M

if with 1 * 1 kernel,

C1:kernel_size = [16 * 192 * 1 * 1]

C2:kernel_size= [32 * 16 * 5 * 5]

parameters_number=192 * 28 * 28 * 16 + 16 * 28 * 28 * 32 * 5 * 5=2.4M + 10.0M = 12.4M

可见,参数量缩小至1\10

4.2.2 Inception V2

4.2.3 Inception V3

通过大量使用Inception模块的降维和并行性能钢结构实现,允许减轻结构变化对附近组件的影响。使Inception更有灵活性。

5 ResNet

5.1 相关背景

ResNet,残差网络(Residual Network)是ImageNet的冠军网络,最大的突破在于它使得我们可以训练成功非常深的神经网络,ResNet有152层之多,而ResNet之前,由于梯度消失(Gradients Vanishing)的问题,我们无法训练非常深的神经网络。

5.2 Residual block

5.2.1 残差块的结构

图中结构的推导公式如下:

a[l]−−Linear−−ReLU−−a[l+1]−−Linear−−ReLU−−a[l+2]a^{[l]}--Linear--ReLU--a^{[l+1]}--Linear--ReLU--a^{[l+2]}a[l]−−Linear−−ReLU−−a[l+1]−−Linear−−ReLU−−a[l+2]

g()g()g()表示非线性ReLU

z[l+1]=w[l+1]∗a[l]+b[l+1]z^{[l+1]}=w^{[l+1]} * a^{[l]}+b^{[l+1]}z[l+1]=w[l+1]∗a[l]+b[l+1]

a[l+1]=g(z[l+1])a^{[l+1]}=g(z^{[l+1]})a[l+1]=g(z[l+1])

z[l+2]=w[l+2]∗a[l+1]+b[l+2]z^{[l+2]}=w^{[l+2]} * a^{[l+1]}+b^{[l+2]}z[l+2]=w[l+2]∗a[l+1]+b[l+2]

a[l+2]=g(z[l+2])a^{[l+2]}=g(z^{[l+2]})a[l+2]=g(z[l+2])

以上是我们熟知的正向传播的过程,这条路径我们在此处称为"main path"

而在我们的ResNet中,我们可以进行如下操作:要将a[l]a^{[l]}a[l]引出来,放在a[l+2]a^{[l+2]}a[l+2]前的ReLUReLUReLU之前,这样的连接称作"short cut"/“skip connection”.

所以,我们上述的最后一个等式就变为了:

a[l+2]=g(z[l+2]+a[l])a^{[l+2]}=g(z^{[l+2]}+a^{[l]})a[l+2]=g(z[l+2]+a[l])

以上,这就是残差块的主要思路。

论文的作者们(Kaiming He等)发现:当我们使用这种残差块(Residual block)时,我们就可以去构建层数较深的神经网络,构建的方法也正如我们所想的一样:只需要去堆叠残差块即可。此外,论文中,将我们通常认为的神经网络(没有使用残差块)称作"plain network".

5.2.2 how residual block work

参考文献

deeplearning.ai-吴恩达

经典卷积神经网络-VGG原理

GoogLeNet系列解读

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。