【G検定知識】 Multi-Head Attention｜CO-WRITE ─ AIとデータサイエンス by GRI

Attentionにおける重み計算の復習をしましょう。Attentionでは各単語を Query・Key・Value の3つのベクトルに変換し、QueryとKeyの類似度からAttentionの重みを計算することで、文章中のどの単語に注目すべきかを求めます。そして重みと各単語のValueの加重平均をとることで単語の文脈表現を作ることができます。

参考記事：【G検定知識】AttentionにおけるQuery・Key・Value

上記の仕組みは文章中の単語の間の関係を柔軟に捉えるために重要です。

ところが、１つのAttentionでは一種類の関係のみ評価することができます。これに対して、文章中の単語の関係は1種類だけではありません。ある単語を理解する際には、主語と述語の関係、目的語や修飾語との関係など複数の関係性を同時に考慮する必要があります。

そこで、Transformerで用いられているのは複数の「ヘッド（Head）」を並列に計算するMulti-Head Attention です。それぞれのヘッドは独立した重みを持ち、異なるQuery・Key・Valueを学習します。そのため、異なる視点から文章中の多様な関係性を同時に学習することができます。最終的には、全てのヘッドの出力を結合して統合することで、単一Attentionよりも豊富な文脈情報を含んだ単語表現が得られます。

この仕組みにより、Transformerは文章全体の関係を同時並列に計算できるため、長い文章の関係性も効率的に学習できるようになります。

ここで注意点が１つあります。Multi-Head Attentionは「Attentionの種類」ではなく「Attentionの計算法」です。TransformerではSelf-AttentionとSource-Target Attentionを利用しています。両タイプともにMulti-Head Attention で計算します。