【G検定知識】PSPNet　〜画像全体の文脈情報を用いた画像分類〜

セマンティック・セグメンテーションでは、物体の局所的な特徴だけでなく、画像全体の部脈情報（グローバルコンテキスト）が利用可能であることも重要です。この課題に対して提案されたのがPSPNet（Pyramid Scene Parsing Network）です。

PSPNetの主要な特徴は、エンコーダとデコーダの間に Pyramid Pooling Module(空間ピラミッドプーリング)を追加することで、特徴マップの局所的な情報と大域的な情報を同時に取得していることです。

具体的に、エンコーダーのCNNによって抽出された特徴マップに対して、対象領域のサイズを1×1、2×2、3×3、6×6などのように変更しながら、異なるスケールのプーリングを実施しています。そしてそれぞれの結果をアップサンプリングして統合します。

これにより、局所的な特徴と画像全体にわたる大域的な文脈情報を異なる解像度で拾うことができます。例えば、特定の画素の近辺だけでは判別が難しい場合でも、画像全体を考慮した正確なセマンティック・セグメンテーションを実現することができます。

ところで、ここでいう「画像全体の文脈情報（コンテキスト）」とは、特定の画素単体ではなく、その周囲の情報や画像全体との関連性を手がかりにして予測を行う情報、と言い換え得ることができます。

通常のCNNは、小さな領域の局所特徴、境界線、テクスチャなどを捉えるのが得意です。しかし、局所的な画素だけ見ると区別が難しいことがあります。例えば、「花壇」、「花屋さん」、「花柄の洋服」の局所パターンが似ています。この問題を解決するために、Pyramid Pooling Moduleでは、より大きな領域や画像全体といった複数スケールの情報を集め、シーン全体の状況（グローバル情報）を利用できるようにしているわけです。

（補足）テキスチャとは、ある領域における画素の細かいパターンや質感の繰り返しを指しています。

図1に PSPNet の模式図を示します。エンコーダには ResNet101 の特徴抽出層を使用しています。Pyramid Pooling Module (図の(c))では、エンコーダで抽出された特徴マップに対して、複数の解像度で最大プーリングを施します。結果として複数のスケールで特徴マップを生成し、画像の大域的な情報から局所的な情報まで広範囲の情報を入手します。続いて、デコーダで特徴マップに対してアップサンプリングを行い、シーン分割の結果を出力します。

図:Pyramid Pooling Module を採用した PSPNet の模式図

出典:[Zhao et al., 2017]

出典 URL https://ar5iv.labs.arxiv.org/html/1612.01105

この仕組みにより、シーン全体の意味関係を考慮した分類が可能となり、複雑な背景を含むシーン画像においても複数物体の分離と検出を高い解像度で行う能力を示します。実際、PSPNet には、PASCAL VOC 2012 や Cityscapes といったシーン分割の代表的なデータセットで一位を勝ち取っています。

シーン画像については：https://gri.jp/media/entry/33751

PSPNetとDeepLabは、広範囲の情報を画像分類に利用するという目的が共通しているが、その実現方法に違いがあります。DeepLabがAtrous Convolutionによって広い受容野を確保するアプローチを取ったのに対し、PSPNetは異なるスケールのプーリングを利用して文脈情報を統合するアプローチを採用している点に特徴があります。

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

【G検定知識】PSPNet　〜画像全体の文脈情報を用いた画像分類〜

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

【連載】記述的多変量解析 - 因子分析（斜交回転）

puppeteerを使ってJavascriptなサイトをクロールする

有用なダッシュボードを作るために意識すべきたった3つのポイント

ビンゴゲームで同じ数字が続けて出てしまうのはランダムと言えるのか？

Pythonで画像のテンプレートマッチングしてみる

MACでSteam版「VRCHAT」や「BEAT SABER」を楽しむためのメモ

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

BigQueryで日時情報を扱うときはそのデータ型に注意しなければならないのです……

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書