CNN と全結合層を比較してみる

全結合層の問題点

全結合層の問題点は、データの形状が無視されてしまうこと。

MNIST の例

例えば、入力データが MNIST データセットのような画像である場合、データは縦・横・チャンネル方向の3次元の形状を持つ。それにもかかわらず、全結合層に入力するときは3次元のデータを1次元のデータにする必要がある。具体的には、1チャンネル、縦28ピクセル、横28ピクセルの形状を1列に並べた784個のデータとして全結合層に入力していた。

画像は3次元の形状（ほぼ2次元だが）であり、この形状には重要な空間的情報が含まれるはずである。空間的に近いピクセルは似たような値になったり、RBGの各チャンネル間にはそれぞれ密接な関連性があったり、距離の離れたピクセル同士はあまり関わりがなかったり。

畳み込み層

これを解決するのが 畳み込み層 (Convolution Layer)である。
全結合層では $n$ 次元ベクトルに対し $m$ 個のニューロンが存在しており、各ニューロンで $n$ 次元ベクトルの各要素に対する重みが存在している。すなわち、入力 $n$ に対し $m \times n$ の重みが存在する。

一方で、 CNN ではフィルターの $FN \times C \times FH \times FW$ 個の重みを $H \times W$ 個の位置で共有する。すなわち、入力 $C \times H \times W$ に対し、 $FN \times C \times FH \times FW$ の重みが存在する。

これを全結合層で実現すると、 $FN \times C \times H \times W$ の重みとなる。

$FH << H, \; FW << W$ から、CNN のパラメータ数は全結合層のパラメータ数よりもずっと少なくなる。

fig07_13.png (引用『ゼロから作るDeep Learning ー Pythonで学ぶディープラーニングの理論と実装』)

理論上は、 CNN によるパラメータ探索範囲は全結合層のパラメータ探索範囲の部分集合 になる。

すなわち、CNN の形状で最適な重みが見つかった場合、全結合層においてもそれは実現可能な重みとして存在する。ただ、CNN のフィルターを共有するという賢い仮定（逆に表現力を抑えるある種の制約のようなものとも言えそうなモノ）が導入されたことにより、より効率的にパラメータ探索ができるようになるというわけである。

画像という対象に対して、

局所的な特徴が重要
同じ特徴はどこにでも現れる

という事前知識を構造に組み込んだ、という見方ができる。
制約というより、賢い仮定を入れたことで効率よく学習できるようになったイメージを持つと良い。

$C$ について

フィルターが $C$ を持つのは、例えば Red の時と Green の時と Blue の時でフィルターを使い分けたいから。このため、 $C, FH, FW$ の3次元は持つことになる。

出力チャンネル、これは フィルターの出力結果をベクトルとして持ちたいから。これは全結合層でm次元ベクトルにするのと同様。

全結合層:
- 1つのニューロン = 1種類の特徴を検出
- m個のニューロン = m種類の特徴を検出
CNN:
- 1つのフィルター = 1種類の特徴を検出（例：縦エッジ） \
- K個のフィルター = K種類の特徴を検出（縦エッジ、横エッジ、斜めエッジ...）

全結合層の問題点

MNIST の例

畳み込み層

CCC について

$C$ について