图像的卷积和池化操作,卷积操作

不同于一般的卷积，空洞卷积的卷积核更加“蓬松”，也就是在卷积核中加入空洞，以此来扩大感受野。路径A具有三个卷积，其卷积核大小分别为1×1、3×3和1×1。这里所谓的卷积并不是数学意义上的，神经网络的卷积运算实际上可以看做一种比较特殊的矩阵计算，即将图中的局部像素矩阵和卷积核进行运算(符号是和直积一样，但不是直积，公式网上很多)，所以可以将其视为空间泛函，每次运算所得到是对应位置的实数(这里是一次，不是一趟)，使用一个卷积核′卷＇一趟所得到的输出一般是一个规模小一些的矩阵，不同卷积核(内容不同)自然可以得到不同的输出，故形成图像不同的特征(所以这里也可以把这里的卷积理解为一种空间间映照算子);在网络反馈时，需注意对于卷积的逆运算，即需旋转卷积核180度(当然不用真的旋转，可以inplace，即从后向前运算，就能达到相同效果)。

如何理解空洞卷积？

CNN网络中在对图像进行下采样时，常常使用pooling操作，包括average pooling和max pooling。其作用在仿照人的视觉系统进行降维，同时扩大了感受野（perceptual field）。对卷积层提取的特征进行降采样，从而能够获取到更高级的特征。此外pooling层也可以保证特征位置和旋转不变形。

最后引入pooling还能起到降少网络参数，防止过拟合的问题。但是采用pooling也有其缺点，在降采样的同时也会丢失一部分特征信息，损失了原始图像中的信息。空洞卷积（diluted convolution）就是为解决pooling层的缺点而提出的。它首先是针对图像语义分割而产生的一种卷积方法。不同于一般的卷积，空洞卷积的卷积核更加“蓬松”，也就是在卷积核中加入空洞，以此来扩大感受野。

引入了一个新的参数空洞率（dilation rate）,即卷积核的间隔数目，正常卷积核的空洞率等于1。如下图就是一个空洞率为2的3*3空洞卷积。我们可以发现，空洞卷积不仅扩大了感受野降低了维度，同时没有增加计算量。但是由于引入了一个超参数，就需要权衡每次卷积时的参数，如果空洞率过大，那么就很有可能捕捉不到图像中小物体的信息，因此再使用时需要设置好合适的空洞率。

如何理解Graph上的卷积操作？

这里所谓的卷积并不是数学意义上的，神经网络的卷积运算实际上可以看做一种比较特殊的矩阵计算，即将图中的局部像素矩阵和卷积核进行运算(符号是和直积一样，但不是直积，公式网上很多)，所以可以将其视为空间泛函，每次运算所得到是对应位置的实数(这里是一次，不是一趟)，使用一个卷积核′卷＇一趟所得到的输出一般是一个规模小一些的矩阵，不同卷积核(内容不同)自然可以得到不同的输出，故形成图像不同的特征(所以这里也可以把这里的卷积理解为一种空间间映照算子);在网络反馈时，需注意对于卷积的逆运算，即需旋转卷积核180度(当然不用真的旋转，可以inplace，即从后向前运算，就能达到相同效果)。

卷积神经网络有哪些重要的技巧细节？

除了带你动手学深度学习，李沐大神还带你深挖卷积神经网络的各种实践「技艺」。近日AWS的研究者研究了一系列训练过程和模型架构的改进方法，他们在多个神经网络架构和数据集上评估它们，并研究它们对最终模型准确率的影响。自 2012 年 AlexNet 大展神威以来，研究者已经提出了各种卷积架构，包括 VGG、NiN、Inception、ResNet、DenseNet 和 NASNet 等，我们会发现模型的准确率正稳定提升。

但是现在这些提升并不仅仅来源于架构的修正，还来源于训练过程的改进：包括损失函数的优化、数据预处理方法的提炼和最优化方法的提升等。在过去几年中，卷积网络与图像分割出现大量的改进，但大多数在文献中只作为实现细节而简要提及，而其它还有一些技巧甚至只能在源代码中找到。在这篇论文中，李沐等研究者研究了一系列训练过程和模型架构的改进方法。

这些方法都能提升模型的准确率，且几乎不增加任何计算复杂度。它们大多数都是次要的「技巧」，例如修正卷积步幅大小或调整学习率策略等。总的来说，采用这些技巧会产生很大的不同。因此研究者希望在多个神经网络架构和数据集上评估它们，并研究它们对最终模型准确率的影响。研究者的实验表明，一些技巧可以显著提升准确率，且将它们组合在一起能进一步提升模型的准确率。

研究者还对比了基线 ResNet 、加了各种技巧的 ResNet、以及其它相关的神经网络，下表 1 展示了所有的准确率对比。这些技巧将 ResNet50 的 Top-1 验证准确率从 75.3％提高到 79.29％，还优于其他更新和改进的网络架构。此外，研究者还表示这些技巧很多都可以迁移到其它领域和数据集，例如目标检测和语义分割等。

论文：Bag of Tricks for Image Classification with Convolutional Neural Networks论文地址：https://arxiv.org/pdf/1812.01187.pdf摘要：图像分类研究近期的多数进展都可以归功于训练过程的调整，例如数据增强和优化方法的变化。

然而，在这些文献中，大多数微调方法要么被简单地作为实现细节，或仅能在源代码中看到。在本文中，我们将测试一系列的微调方法，并通过控制变量实验评估它们对最终准确率的影响。我们将展示通过组合不同的微调方法，我们可以显著地改善多种 CNN 模型。例如，我们将 ImageNet 上训练的 ResNet-50 的 top-1 验证准确率从 75.3% 提升到 79.29。

本研究还表明，图像分类准确率的提高可以在其他应用领域（如目标检测和语义分割）中实现更好的迁移学习性能。2 训练过程目前我们基本上都用小批量 SGD 或其变体训练神经网络，Algorithm 1 展示了 SGD 的模版过程（感兴趣的读者可以查阅原论文）。利用广泛使用的 ResNet 实现作为我们的基线，训练过程主要分为以下六个步骤：随机采样一张图片，并解码为 32 位的原始像素浮点值，每一个像素值的取值范围为 [0, 255]。

随机以 [3/4, 4/3] 为长宽比、[8%, 100%] 为比例裁减矩形区域，然后再缩放为 224*224 的方图。以 0.5 的概率随机水平翻转图像。从均匀分布 [0.6, 1.4] 中抽取系数，并用于缩放色调和明亮度等。从正态分布 N (0, 0.1) 中采样一个系数，以添加 PCA 噪声。图像分别通过减去（123.68, 116.779, 103.939），并除以（58.393, 57.12, 57.375）而获得经归一化的 RGB 三通道。

经过六步后就可以训练并验证了，以下展示了基线模型的准确率：表 2：文献中实现的验证准确率与我们基线模型的验证准确率，注意 Inception V3 的输入图像大小是 299*299。3 高效训练随着 GPU 等硬件的流行，很多与性能相关的权衡取舍或最优选择都已经发生了改变。在这一章节中，我们研究了能利用低精度和大批量训练优势的多种技术，它们都不会损害模型的准确率，甚至有一些技术还能同时提升准确率与训练速度。

3.1 大批量训练对于凸优化问题，随着批量的增加，收敛速度会降低。人们已经知道神经网络会有类似的实证结果 [25]。换句话说，对于相同数量的 epoch，大批量训练的模型与使用较小批量训练的模型相比，验证准确率会降低。因此有很多方法与技巧都旨在解决这个问题：线性扩展学习率：较大的批量会减少梯度的噪声，从而可以增加学习率来加快收敛。

学习率预热：在预热这一启发式方法中，我们在最初使用较小的学习率，然后在训练过程变得稳定时换回初始学习率。Zero γ：注意 ResNet 块的最后一层可以是批归一化层（BN）。在 zero γ启发式方法中，我们对所有残差块末端的 BN 层初始化γ=0。因此，所有的残差块仅返回输入值，这相当于网络拥有更少的层，在初始阶段更容易训练。

无偏衰减：无偏衰减启发式方法仅应用权重衰减到卷积层和全连接层的权重，其它如 BN 中的γ和β都不进行衰减。表 4：ResNet-50 上每种有效训练启发式的准确率效果。3.2 低精度训练然而，新硬件可能具有增强的算术逻辑单元以用于较低精度的数据类型。尽管具备性能优势，但是精度降低具有较窄的取值范围，因此有可能出现超出范围而扰乱训练进度的情况。

表 3：ResNet-50 在基线（BS = 256 与 FP32）和更高效硬件设置（BS = 1024 与 FP16）之间的训练时间和验证准确率的比较。4 模型变体我们将简要介绍 ResNet 架构，特别是与模型变体调整相关的模块。ResNet 网络由一个输入主干、四个后续阶段和一个最终输出层组成，如图 1 所示。

输入主干有一个 7×7 卷积，输出通道有 64 个，步幅为 2，接着是 3 ×3 最大池化层，步幅为 2。输入主干（input stem）将输入宽度和高度减小 4 倍，并将其通道尺寸增加到 64。从阶段 2 开始，每个阶段从下采样块开始，然后是几个残差块。在下采样块中，存在路径 A 和路径 B。路径 A 具有三个卷积，其卷积核大小分别为 1×1、3×3 和 1×1。

第一个卷积的步幅为 2，以将输入长度和宽度减半，最后一个卷积的输出通道比前两个大 4 倍，称为瓶颈结构。路径 B 使用步长为 2 的 1×1 卷积将输入形状变换为路径 A 的输出形状，因此我们可以对两个路径的输出求和以获得下采样块的输出。残差块类似于下采样块，除了仅使用步幅为 1 的卷积。我们可以改变每个阶段中残差块的数量以获得不同的 ResNet 模型，例如 ResNet-50 和 ResNet-152，其中的数字表示网络中卷积层的数量。

图 1：ResNet-50 的架构。图中说明了卷积层的卷积核大小、输出通道大小和步幅大小（默认值为 1），池化层也类似。图 2：三个 ResNet 变体。ResNet-B 修改 ResNet 的下采样模块。ResNet-C 进一步修改输入主干。在此基础上，ResNet-D 再次修改了下采样块。表 5：将 ResNet-50 与三种模型变体进行模型大小（参数数量）、FLOPs 和 ImageNet 验证准确率（top-1、top-5）的比较。

5 训练方法改进5.1 余弦学习率衰减Loshchilov 等人 [18] 提出余弦退火策略，其简化版本是按照余弦函数将学习速率从初始值降低到 0。假设批次总数为 T（忽略预热阶段），然后在批次 t，学习率η_t 计算如下：其中η是初始学习率，我们将此方案称为「余弦」衰减。图 3：可视化带有预热方案的学习率变化。

顶部：批量大小为 1024 的余弦衰减和按迭代步衰减方案。底部：关于两个方案的 top-1 验证准确率曲线。5.2 标签平滑标签平滑的想法首先被提出用于训练 Inception-v2 [26]。它将真实概率的构造改成：其中ε是一个小常数，K 是标签总数量。图 4：ImageNet 上标签平滑效果的可视化。

顶部：当增加ε时，目标类别与其它类别之间的理论差距减小。下图：最大预测与其它类别平均值之间差距的经验分布。很明显，通过标签平滑，分布中心处于理论值并具有较少的极端值。5.3 知识蒸馏在知识蒸馏 [10] 中，我们使用教师模型来帮助训练当前模型（被称为学生模型）。教师模型通常是具有更高准确率的预训练模型，因此通过模仿，学生模型能够在保持模型复杂性相同的同时提高其自身的准确率。

一个例子是使用 ResNet-152 作为教师模型来帮助训练 ResNet-50。5.4 混合训练在混合训练（mixup）中，每次我们随机抽样两个样本 (x_i,y_i) 和 (x_j,y_j)。然后我们通过这两个样本的加权线性插值构建一个新的样本：其中 λ∈[0,1] 是从 Beta(α, α) 分布提取的随机数。

在混合训练中，我们只使用新的样本 (x hat, y hat)。5.5 实验结果表 6：通过堆叠训练改进方法，得到的 ImageNet 验证准确率。基线模型为第 3 节所描述的。6 迁移学习6.1 目标检测表 8：在 Pascal VOC 上评估各种预训练基础网络的 Faster-RCNN 性能。6.2 语义分割表 9：在 ADE20K 上评估各种基础网络的 FCN 性能。

如何理解卷积神经网络里卷积过滤器的深度问题？

我们通常看到的卷积过滤器示意图是这样的：（图片来源：cs231n）这其实是把卷积过滤器“压扁”了，或者说“拍平”了。比如，上图中粉色的卷积过滤器是3x3x3，也就是长3宽3深3，但是示意图中却画成二维——这是省略了深度（depth）。实际上，卷积过滤器是有深度的，深度值和输入图像的深度相同。也正因为卷积过滤器的深度和输入图像的深度相同，因此，一般在示意图中就不把深度画出来了。

如果把深度也画出来，效果大概就是这样：（图片来源：mlnotebook）如前所述，卷积过滤器的深度和输入图像的深度相同，都是3。顺便说下，输入图像深度为3，是因为输入图像是彩色图像，深度为3，分别为R、G、B值。作为对比，灰度图像的卷积过滤器是这样的（真2D）：（图片来源：mlnotebook）总之，卷积过滤器的深度和输入数据的深度保持一致就可以了。

图像的卷积和池化操作,卷积操作

最近更新

相关文章

配件最新文章

手机排行榜推荐

配件排行榜精选

配件文章排行榜

热门标签