【G検定知識】DeepLabとAtrous Convolution｜CO-WRITE ─ AIとデータサイエンス by GRI

セマンティックセグメンテーションにおいて従来のエンコーダ・デコーダ型モデルよりさら高精度を達成した手法の１つはDeepLabです。その最大の特徴は、通常の畳み込みの代わりに、Atrous Convolution（拡張畳み込み）を採用している点です。

Atrous Convolutionは、Dilated Convolutionとも呼ばれ、エンコーダで畳み込み演算に使うフィルターの要素の間に一定間隔で空白（Dilation）を挿入します（図１）。このような隙間の空いた歯抜けのフィルタを用いて畳み込み演算を行うことで画像に対して従来よりも「疎」な畳み込み演算を行うことになります。そうすると、一回の畳みでカバーできる画像の面積が増えます。プーリングを行わず、特徴マップの解像度を大きく低下させることなく、パラメータ数を増やさずに比較的広範囲の情報を利用した画素分類が可能になります。

SegNetやU-Netのようなエンコーダ・デコーダ型モデルは、画像を段階的に圧縮して特徴を抽出し、その後アップサンプリングによって空間解像度を回復することで、画素ごとの分類（セグメンテーション）を実現する手法です。これらのモデルのエンコーダで行われるプーリングや畳み込みによって特徴マップの解像度が一度低下してしまいます。そうすると、細かい構造の復元がアップサンプリング処理に依存することになります。上記の課題に対して、特徴マップの空間解像度を可能の限り保ちながら広い受容野を確保するという発想から提案されたのがDeepLabです。

（補足）U-Netではスキップ接続によって境界情報はかなり改善されているものの、依然としてエンコーダで一度特徴マップの解像度が下がる問題が残ります。そこで解像度を下げないのがDeepLabの設計思想です。

図１：(左)一般的な畳み込み層で用いられるフィルタの例　(右)Atrous Convolution に用いられる一定感アクで歯抜けを持つフィルタ

出典：『G検定　最強の合格問題集』

■DeepLabの発展版モデル

DeepLabの発展版DeepLab v2では、異なる拡張率（dilation rate）を持つAtrous Convolutionを並列に配置するASPP（Atrous Spatial Pyramid Pooling）を取り入れています。これにより、複数のスケールの特徴を同時に抽出・利用可能になり、物体の大きさが異なる場合でも柔軟に対応できるようになりました。

DeepLab v3+ではASSPとエンコーダ・デコーダ構造を組み合わせており、さらに精緻な境界解析を実現できました（図2）。さらに、Depthwise Separable Convolutionを採用することで処理速度と計算量の面でも改善を果たしました。

また、DeepLab のエンコーダでは特徴抽出層にResNet101を使用していたのに対し、DeepLab V3+ ではそれをセグメンテーション用に改良した Xception に変更したこともセグメンテーションの品質の向上に寄与しています。

図２：DeepLab v3+ではASSPとエンコーダ・デコーダ構造を組み合わせています。

出典：https://arxiv.org/abs/1802.02611

近年の物体認識では、高精度なセマンティック・セグメンテーションとともに、計算の速度やリアルタイム性が重視されています。DeepLab v3+ と並んで、別の記事で紹介するPSPNet がセマンティック・セグメンテーション用の標準的モデルとして普及しています。

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

【G検定知識】DeepLabとAtrous Convolution

■DeepLabの発展版モデル

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

■DeepLabの発展版モデル

東京都がChatGPTを業務に積極導入、ガイドライン発表

時系列を基本要素に分解する

自分の声をイケボにするための音響信号処理の基礎

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

状態空間モデルとカルマンフィルターの強みを数学的に理解しよう

写真の著作権を考えよう 〜絵の複製はNG・彫刻の複製はOK？〜

AIで生成したフェイクコンテンツに驚き・実は有益な使い方も多い

ほぼ1からタイトルロゴを作ろう

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

写真の著作権を考えよう　〜絵の複製はNG・彫刻の複製はOK？〜