G検定

【G検定Tips】Vision Transformerを用いた最新の画像認識

画像認識というと、CNN(畳み込みニューラルネットワーク)をベースとするモデルを思い浮かぶでしょう。ここでは、Transformerを用いた全く新しい視点の最新の画像認識モデルを知っておきましょう。

自然言語処理分野では、Attention機構を中核とするTransformerが、単語の長距離の依存関係を学習するモデルとして高い性能を示してきました。この仕組みを画像認識に応用した派生版モデルが Vision Transformer ViT)です。CNNによる畳み込み演算を使用せずに高精度な画像認識が実現できることで注目されています。

 Transformer を自然言語処理に適用する場合は、単語を埋め込みベクトルに変換した系列データを入力とします。この考え方を画像に応用するために、Vision Transformer では、入力画像を小領域(パッチ)に分割し、各パッチを単語ベクトルと同様に系列データとして扱うようにしています。

Vision Transformer は、通常の Transformer のエンコーダの部分を使用します。各パッチを一次元ベクトルに変換してからエンコーダへ入力します。Self-Attention(自己注意機構)によって、パッチ間の関連性を学習します。これにより、畳み込み演算を用いずに画像特徴を学習することが可能になります。これにより、畳み込みを用いずに画像の特徴を学習することができます。

上記の仕組みにより、Vision Transformerは、画像特徴の捉え方において、CNNと大きく異なることがわかります。CNNでは、畳み込みフィルタを用いて空間的に隣接する画素同士の関係性を重視して特徴抽出を行うため、細かいエッジやテクスチャなどの局所的特徴を抽出することを得意としています。一方、Vision Transformerは、Self-Attentionによって画像全体にまたがる関係性を直接学習できる点が特徴です。そのため、離れた領域同士の依存関係や画像全体の文脈を柔軟に捉えることができます。

また、計算コストにおいても違いがあります。CNNは比較的小規模のデータセットでも学習できるのに対し、Vision Transformerは大規模データセットによる事前学習が重要になります。両者の比較では、CNNのほうが計算コストが低く、推論が高速でありVision TransformerはAttention計算に伴って計算量が増加しやすい傾向があります。しかしその分、十分に大きい画像データセットを用いた学習が可能である場合には、Vision Transformerの大域的な文脈理解能力により、画像認識においてCNNよりも高い性能を発揮するが報告されています。

上記で説明した、CNNとVision Transformerの違いは次の表のようにまとめることができます。

  Vision Transformer CNN
画像特徴の捉え方 離れた領域同士の関係や画像全体の大域的な文脈 空間的に近い画素同士の関係性や局所的パターンの認識
計算コスト ・大規模データセットによる事前学習が重要

・Attentionの計算により計算量が増加しやすい

・計算コストや必要とするデータ量が比較的少なく、推論が高速

 

このように、画像認識の分野では、CNNに加えてTransformerベースの手法も重要な位置を占めるようになっています。ただし、両者は対立するものではなく、相互補完の関係にあります。実際、畳み込みによる局所特徴抽出とAttentionによるグローバル文脈理解を組み合わせる設計も提案されています。

したがって、CNNの設計思想を理解することは、Vision Transformerを含む次世代の画像認識モデルを学ぶ上で重要な基盤となります。

yan
データ分析官・データサイエンス講座の講師 「G検定」の分野で講師と著者として活動しております。 著書には以下のものがあります。 ◯ディープラーニングG検定(ジェネラリスト)最強の合格テキスト[第2版] [徹底解説+良質問題+模試(PDF)] /  ◯ディープラーニングG検定(ジェネラリスト)最強の合格問題集[第2版] [究極の332問+模試2回(PDF)]
データ分析・AIの専門家集団 GRI