【G検定知識】Mask-RCNN〜マスクとインスタンスは何？｜CO-WRITE ─ AIとデータサイエンス by GRI

セマンティック・セグメンテーションでは画素単位で分類を行い、各画素のクラスラベルを予測しています。これに対して、インスタンス・セグメンテーションでは、同じクラスに属する物体であっても、それぞれを個別の「インスタンス」として識別し、区別して出力する点が大きな特徴です。

インスタンス・セグメンテーションでは、物体ごとに次の3つを同時に出力します。

一言で言うと次のとおりです。

具体例として、画像に犬が３匹とボールが２個存在している場合を考えましょう。

上記のように、インスタンス（上記のobject1,2,3,4,5）の単位になり、クラスは同じでもインスタンスIDが違います。そのIDに対応する物体ごとに別々のマスクが生成され、クラスラベルとマスクを同時に出力する点が特徴です。

マスクに関しては、画像と同じ大きさの配列において、以下のように表現されます。

つまり、マスクは物体の輪郭や形状を画素単位で表現する領域情報のことす。例えば画像に犬が２匹（dog1とdog2）が写っている場合、それぞれの犬にマスクが１つ生成され、その犬の形状に一致する領域だけが1となるマップが作られます。

入力画像　→　マスク

データ分析・AIの専門家集団 GRI

【G検定知識】Mask-RCNN〜マスクとインスタンスは何？