【G検定知識】ResNetの改良版・Wide ResNetとDenseNet｜CO-WRITE ─ AIとデータサイエンス by GRI

G検定の出る各種CNNモデルの特徴を覚えるためには、各々が開発された背景を理解する事が重要となります。

CNNモデルの多くは、高い性能を達成するためにニューラルネットワークの層をますます深くしようとしています。その代表がResNetです。しかし、層を増やすことで、次のようなコストが伴います。

・勾配消失問題が起きやすくなる

・モデルのパラメータと計算量が増大し、計算リソースの不足が問題となる

深いネットワークの代表はResNetです。ResNetは勾配消失をなるべく抑えるためにスキップ接続を採用しています。後続で開発されたCNNモデル（Wide ResNetやDenseNet、EfficientNetなど）の設計は、ResNet以上の性能を維持しながら、勾配消失を更に抑え、同時にパラメータの数を減らすことを目指しています。

Wide ResNet

ResNetでは、ネットワークを非常に深い構造にすることで、表現力を向上させました。一方で、その後の研究により、性能向上は必ずしも深さだけに依存しないことが示されました。この観点から提案された手法が Wide ResNet です。スキップ結合（残差構造）というResNetの基本設計は保ったまま、ネットワークを過度に深くせず、その代わり各層の幅（チャネル数）を増やす点が特徴的です。

ResNetは非常に多層であるゆえに、勾配消失問題や学習時間の増大をひきおこす懸念が残っていました。これに対して、Wide ResNet は計算効率と性能のバランスを改善し、深さを減らしてより幅広い構造にした上で、画像分類タスクにおいて高い精度が得られることを示しました。

Wide ResNetの研究開発を契機に、モデルの性能の向上は単純な深さの追求だけでなく、深さと幅のトレードオフを考慮した構造設計によっても達成可能であることが明らかになりました。これは後続のCNNのアーキテクチャ設計において幅方向の拡張という選択肢を広く認識させるようになりました。

（補足）

ResNetの設計を見直し、「性能を上げるために深さのみ追求すべきではない」という考え方はWide ResNet とEfficientNet で共通です。一方で、Wide ResNet は深さに加えて幅を拡張していたのに対し、EfficientNetでは深さ、幅、入力解像度を 同時に統合的に調整する「複合スケーリング」 を採用しています。実際、EfficientNetの主要論文では、３つの要素のどれか１つのみ拡張するのは最適ではないという比較実験の結果が示されています。

DenseNet

DenseNet は、Wide ResNet と同様に ResNet の改良モデルです。

ResNet ではスキップ接続（Skip Connection）を採用しているのに対し、DenseNet では密結合（Dense Connection）が特徴的です。

・Skip Connection（ResNet）：ある層の入力を数層先の出力に加算する

・Dense Connection（DenseNet）：各層の出力をそれ以降のすべての層の入力として連結する

つまり、DenseNetの各層はそれ以前のすべての特徴を直接参照することができ、特徴が効率的に再利用されています。これによりResNetに比べて次のような改善点が期待できます。

・勾配が初期層まで伝播しやすくなるため、勾配消失問題が緩和されます。

・冗長な特徴学習を抑制できるため、比較的少ないパラメータ数でも高性能を実現可能です。

同時に、DenseNetはResNetと同程度、あるいはそれ以上に深い構造を達成しています。

Wide ResNetは深さを少し減らして代わりに幅を広げる（wide）こと、DenseNetは深さを目指しながら接続を密にする（dense)ことを設計思想としています。両方ともResNetにおける勾配消失問題を軽減しながらも高い性能を目指しています。

■なぜDenseNetはパラメータ数を抑えられたのか？

ポイントは「特徴の再利用」です。通常のCNNでは各層は主に直前層の出力のみを入力とします。そのため、同様の特徴を別層で再度学習してしまうことがあります。DenseNetではすべての前層の出力を連結して入力に使うため、既に抽出している特徴を再利用することができます。各層は少しずつ新しい特徴だけが追加され、各層はその「新しい情報」のみ学習すればよいので、無駄な計算が省かれます。これにより、ネットワークを深くしてもパラメータ数を抑えられるわけです。