PyTorch教程7.2之图像卷积

2512958 2023-06-05 | pdf | 1.28 MB | 次下载 | 免费

资料介绍

现在我们了解了卷积层在理论上是如何工作的，我们准备看看它们在实践中是如何工作的。基于我们将卷积神经网络作为探索图像数据结构的有效架构的动机，我们坚持使用图像作为我们的运行示例。

						import torch
from torch import nn
from d2l import torch as d2l

						 

						from mxnet import autograd, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

						import jax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						import tensorflow as tf
from d2l import tensorflow as d2l

7.2.1. 互相关运算

回想一下，严格来说，卷积层是用词不当，因为它们表达的操作更准确地描述为互相关。根据我们在 7.1 节中对卷积层的描述，在这样的层中，输入张量和核张量通过互相关运算组合以产生输出张量。

让我们暂时忽略通道，看看它如何处理二维数据和隐藏表示。在图 7.2.1中，输入是一个二维张量，高为 3，宽为 3。我们将张量的形状标记为 3×3或者（3,3). kernel的高和宽都是2，kernel window（或者卷积窗口）的形状由kernel的高和宽给定（这里是 2×2).

https://file.elecfans.com/web2/M00/A9/C7/poYBAGR9NSyAWvu_AAC_WoWZ9vo337.svg

图 7.2.1二维互相关运算。阴影部分是第一个输出元素以及用于输出计算的输入和内核张量元素： 0×0+1×1+3×2+4×3=19.

在二维互相关操作中，我们从位于输入张量左上角的卷积窗口开始，将其从左到右和从上到下滑动到输入张量上。当卷积窗口滑动到某个位置时，包含在该窗口中的输入子张量和核张量逐元素相乘，所得张量相加产生单个标量值。这个结果给出了相应位置的输出张量的值。这里，输出张量的高度为 2，宽度为 2，四个元素由二维互相关运算得出：

(7.2.1)0×0+1×1+3×2+4×3=19,1×0+2×1+4×2+5×3=25,3×0+4×1+6×2+7×3=37,4×0+5×1+7×2+8×3=43.

请注意，沿每个轴，输出大小略小于输入大小。因为内核的宽度和高度大于一，我们只能正确计算内核完全适合图像的位置的互相关，输出大小由输入大小给出nh×nw减去卷积核的大小kh×kw通过

(7.2.2)(nh−kh+1)×(nw−kw+1).

之所以如此，是因为我们需要足够的空间来“移动”图像上的卷积核。稍后我们将看到如何通过在图像边界周围填充零来保持大小不变，以便有足够的空间来移动内核。接下来，我们在函数中实现这个过程corr2d，它接受一个输入张量X 和一个内核张量K并返回一个输出张量Y。

							def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
  return Y

							 

							def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = np.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
  return Y

							 

							def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = jnp.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y = Y.at[i, j].set((X[i:i + h, j:j + w] * K).sum())
  return Y

							 

							def corr2d(X, K): #@save
  """Compute 2D cross-correlation."""
  h, w = K.shape
  Y = tf.Variable(tf.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1)))
  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j].assign(tf.reduce_sum(
        X[i: i + h, j: j + w] * K))
  return Y