画像分類またはG検定に関心を持つ方にとって、セマンティック・セグメンテーションとインスタンス・セグメンテーションは耳馴染みのある概念だと思います。加えて、この2つの手法を統合した「パノプティック・セグメンテーション」も最近G検定の分野で聞くようになりました。確率は非常に高いとはいえないものの、G検定の試験で出題される可能性もあると思います。今回をきっかけに最先端の画像分類技術を知っておきましょう。
ちなみに、セマンティック・セグメンテーションとインスタンス・セグメンテーションの出力の違いに関しては、【G検定知識】Mask-RCNN〜マスクとインスタンスは何? をご参照ください。
セグメンテーション手法各種の特徴
セマンティック・セグメンテーションはシーン全体の領域構造を把握するのに用いられています。一方、インスタンス・セグメンテーションは同じ種類の物体を個別に識別する必要がある場面で利用されます。
パノプティック・セグメンテーションは、両手法を統合しており、領域理解と個別物体の識別を両方必要とする場合に利用されます。自動運転など、背景に関しても物体に関しても高度な環境理解が求められる分野で活躍します。
出力の具体例
自動運転や医療画像解析を具体例にとって理解を深めていきましょう。
セマンティック・セグメンテーションの場合、自動運転においては「道路がどこにあるのか?」や「車がどこにあるのか?」と物体の領域に着目します(個別の車や人を区別しない)。医療画像の例では、腫瘍が複数あってもそれらの領域を特定し、どの主要にも同じラベル(例:「tumor」)が付与されます。
インスタンス・セグメンテーションに関して、上記の「物体がどこにあるのか」に加え、物体間の区別が可能です。これはこのように、個々の物体の追跡や行動予測に重要な性質です。例えば、自動運転においては「車1と車2と車3がある」「車2と車3が互いに近距離にある(画像で重なって見える)」「車1は車3よりも現在高速に進んでいる」などの情報を認識することができます。医療画像においては、腫瘍ごとにサイズ、位置、テキスチャなどの情報を評価可能です。
パノプティック・セグメンテーションの場合、背景(”stuff”)はセマンティック・セグメンテーション、物体(”thing”)はインスタンス・セグメンテーションとして出力される点が興味深いです。つまり、画像内のすべての画素にカテゴリを予測し、さらにその中から必要な対象についてのみ個体ごとに識別します。このやり方で環境理解と物体追跡の両目的を果たします。
仕組みとして、「背景(stuff)」と「個体(thing)」というクラスの性質を事前に定義しておき、モデルがそれぞれ別の方法で出力を生成し、最終的に結果を統合します。自動運転の例でいうと、シーンの中に背景として扱うもの(道路、空など)は個体識別せず、個体として扱うもの(車、人など)は個体ごとに識別し、行動追跡などを行います。医療画像についても同様に、周囲の臓器や組織などの背景領域ははセマンティック・セグメンテーションの結果として、腫瘍などは個別識別し、インスタンス・セグメンテーションの結果を出力します。



