CNN 并没有用卷积 (Convolution)

TL;DR: CNN uses cross-correlation, NOT convolution.

最近讲 CV Workshop 才意识到，原来卷积神经网络 (CNN) 用的并不是卷积 (Convolution)，实际上用的是 Cross-Correlation。

Convolutional Neural Network (CNN) 实际上是 Cross-Correlation Neural Network (CCNN)，可能大家习惯了，也懒得改了。

这篇文章会先介绍 Convolution 和 Cross-Correlation 的区别，为什么深度学习混淆了它们；接下来回到信号处理，理解什么是 Convolution，为什么要计算 Convolution？公式右边的 $[0, t]$ $g(t - \tau )$ 为什么要翻转信号？

f * g (t) = \int_{0}^{t} f (τ) g (t - τ) d τ, for f, g \in [0, \infty)

1 Convolution in Deep Learning

每当提到深度学习的卷积，很多人脑海里都会闪过这样一个小动画：

例如我们用一个 3x3 的 kernel 和一个图像做卷积，其实就是把这个 kernel 从左到右，从上到下扫过一张图片，然后对应位做乘法，最后相加求和就可以了：

然而如果我们细看这个方法，就会发现 $\ast$ $\otimes$ )：

\begin{aligned} [\begin{array}{c} a & b & c \\ d & e & f \\ g & h & i \end{array}] \otimes [\begin{array}{c} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{array}] \\ = a \cdot 1 + b \cdot 2 + c \cdot 3 + d \cdot 4 + . . . + h \cdot 8 + i \cdot 9 \end{aligned}

实际上，真正的卷积应当是这样计算的：

\begin{aligned} [\begin{array}{c} a & b & c \\ d & e & f \\ g & h & i \end{array}] * [\begin{array}{c} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{array}] \\ = a \cdot 9 + b \cdot 8 + c \cdot 7 + d \cdot 6 + . . . + h \cdot 2 + i \cdot 1 \end{aligned}

上面的公式是 element-wise 对应位相乘 (ax1, bx2, cx3 ...)，而下面的公式则是把矩阵 先上下左右反转 之后，再对应位相乘的 (ax9, bx8, cx7 ...)：

[\begin{matrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{matrix}] \to [\begin{matrix} 9 & 8 & 7 \\ 6 & 5 & 4 \\ 3 & 2 & 1 \end{matrix}]

标准定义

$\omega$ $k \times k$ $f(x, y)$ 表示输入图像，把这两种计算方式总结成公式，很容易就看出来区别了：

\begin{aligned} g (x, y) & = ω \otimes f (x, y) \\ = \sum_{i = - k}^{k} ω (i, j) f (x + i, y + j) \end{aligned}

\begin{aligned} g (x, y) & = ω * f (x, y) \\ = \sum_{i = - k}^{k} ω (i, j) f (x - i, y - j) \end{aligned}

$f(x+i, y+j)$ $f(x-i, y-j)$ 。

信号处理

$f(x)$ $g(x)$ 做卷积，我们需要 先反转信号，平移后再求积分：

f * g (t) = \int_{- \infty}^{\infty} f (τ) g (t - τ) d τ

$f(x-i, y-j)$ $g(t-\tau)$ $\ast$ 运算。

2 Convolution & Cross-Correlation

那么问题来了，为什么会犯这个错误呢？

最开始 Computer Vision 是把图像当作 2D 的信号处理的，所以借用了很多 Signal Processing 里的方法：

而在 Signal Processing 领域，很多 kernel filters 都是 对称函数，所以应用到图像处理，很自然的用了 对称矩阵。

前面提到 Convolution 需要上下左右反转矩阵，如果我们把上面的对称矩阵翻转会发现，还是原矩阵。

[\begin{matrix} 0 & - 1 & 0 \\ - 1 & 4 & - 1 \\ 0 & - 1 & 0 \end{matrix}] \to [\begin{matrix} 0 & - 1 & 0 \\ - 1 & 4 & - 1 \\ 0 & - 1 & 0 \end{matrix}]

也就是说对一个 Symmetric Matrix 来讲，Convolution 和 Cross-Correlation 的计算结果是一样的，以至于 CNN 原作者可能没注意到两者的区别。

然而，深度学习里的 CNN 训练出来的 kernel 通常并不是 Symmetric，所以 CNN 计算的实际上是 Cross-Correlation，并不等同 Convolution，不过 CNN 都叫好多年了，也就这样了，懒得改了。

3 什么是 Convolution？

那么更多问题又来了，到底什么是 Convolution 呢？为什么要计算 Convolution 呢？

一个很有意思的例子，一个 Professor 早上骑自行车锻炼身体的时候，突然灵感一现，开始介绍什么是 Convolution，我也终于理解了以前本科为什么要学 Step Response 处理这种现实并不单独常见的信号。

如果我们骑自行车经过一条小路，路上坑坑洼洼会有一些小石头：

那么当自行车经过这些石头的时候，挤压轮胎，轮胎就会变型。但自行车轮胎并不是瞬间变形，又瞬间恢复的：也就是说轮胎还没恢复，可能又轧到后面的石头，进一步变形，最终轮胎的形变，是一系列石头压力的共同作用。

$h(t)=2e^{-t}$ 。

$x(t)$ $y(t)$ ，这样我们研究 Step Response 后积分，理论上就可以计算系统对任何信号的响应。

这个自行车轧过小石头的例子，就像 Convolution 一个信号扫过另一个信号，计算两个信号叠加面积的过程。

$f(x)$ $g(x)$ $f \ast g(x)$ 。

f * g (t) = \int_{- \infty}^{\infty} f (τ) g (t - τ) d τ

4 为什么计算 Convolution 要翻转信号？

首先，我们简化一下上面的公式。

$-\infty$ $+\infty$ $t=0$ 开始施加一个信号，逐渐增加到某个值以后，信号强度就保持不变了。

$(-\infty, 0)$ 这段区间输入和输出都是 0，所以并不需要特意积分。

f * g (t) = \int_{0}^{\infty} f (τ) g (t - τ) d τ, for f, g \in [0, \infty)

$t$ $[0, t]$ $(t, +\infty)$ 并不会影响过去，这样就得到了最常见的 Convolution 积分形式：

f * g (t) = \int_{0}^{t} f (τ) g (t - τ) d τ, for f, g \in [0, \infty)

$f(\tau)g(t-\tau)$ $f(\tau)g(\tau)$ 呢？

$g(\tau)$ 翻转 $g(-\tau)$ $t$ $g(t-\tau)$ 呢？

上面这张图可能是很多学 Signal Processing 的人牢记的公式，但是随着时间推移，却忘了为什么要翻转和平移信号。

\begin{aligned} f * g (t) & = \int_{0}^{t} f (τ) g (t - τ) d τ, \\ = \int_{0}^{t} f (t - τ) g (τ) d τ, for f, g \in [0, \infty) \end{aligned}

$t$ $\tau$ $t$ $t-\tau$ $f(t-\tau)$ $g(\tau)$ $f(t-\tau)g(\tau)$ ，从而考虑历史影响的叠加。

总结

在一系列追根朔源的挖掘后，我终于理解为什么 CNN 把 Cross-Correlation 误当作了 Convolution，以及 Convolution 到底在计算什么，最后又是如何推导出经典的连续卷积公式：

f * g (t) = \int_{0}^{t} f (τ) g (t - τ) d τ, for f, g \in [0, \infty)

这就是科研和讲课的乐趣，在给学生讲课的同时，逐渐补充了以前可能没有注意到的理论细节，对科研的深入也有很大帮助。

CNN 并没有用 卷积 (Convolution)