【G検定知識】AttentionにおけるQuery・Key・Value｜CO-WRITE ─ AIとデータサイエンス by GRI

大規模自然言語処理モデル（LLM）の基盤技術であるTransformerは多数のAttentionで構成されています。

Attentionの重みの計算にはQuery（クエリ）・Key（キー）・Value（バリュー） という3種類のベクトルが関わっており、これらを用いて文脈を考慮した単語の表現が実現されています。その過程はやや複雑なので、ここではなるべく簡単かつ具体的にそれを解説することを目指します。

LLMや生成AIが浴びる注目もあり、Query・Key・ValueはG検定や専門書で出現する頻度は低くないと思うので、この機会にぜひ理解を深めてください。

Query・Key・Valueとは

TransformerにおけるAttentionでは、文章中の単語同士の関係（重み）を計算するために、各々の入力単語を Query（クエリ）・Key（キー）・Value（バリュー） という3つのベクトルに変換して処理を行っています。

直感的には、以下のように解釈することができます。

Query：入力データの中で検索したいもの
Key：どのような情報をもっているのか
Value: 実際に抽出された情報

Attentionでは、まず特定の単語のQueryと、文章中の各単語のKeyとのベクトル類似度を計算します。この類似度がAttentionの重みとして採用されます。つまり、単語Aを理解するために、ほかの単語B、単語C、単語D、…にどれだけ注目すべきかを表しています。QueryとKeyのベクトルが似ているほど、Attentionの重みが大きい

次に、上記で得られた重みを各単語のValueに掛け合わせ、加重平均を計算します。その結果は、周囲の単語の情報を取り込んだ「文脈」を反映した新しい単語の情報となります。

KeyとValueは各単語に関する１つセットの辞書型データです。

文脈を考慮した単語表現の計算

AttentionではQuery・Key・Valueを用いることで、文章中の単語同士の関係を柔軟に捉え、文脈を考慮した単語表現を生成することができます。

具体的に、ある単語の文脈表現を作るために他の単語のValueベクトルを重み付きで足し合わせています。つまり、各単語に対応する埋め込みベクトルの加重平均をとります。

ここで例として、「洋菓子」という単語の概念を表現したいケースを考えます。簡単のために「ケーキ」、「を」「食べる」の３つの単語との関係性のみ考慮するとします。

文脈ベクトルは以下のように、Valueと重みを掛けたものを全て足し合わせることで計算されます。

0.60 × Value(ケーキ)+ 0.05 × Value(を)+ 0.35 × Value(食べる)

各々のValueに対応する重み（0.60、0,05、0.35）はQuery と Key の内積で得られています。ちなみに、重みはsoftmax関数によって確率分布として正規化されるため、すべての重みの合計 = 1となります。

上記の加重平均によって周囲の単語の情報を取り込んだ単語表現（文脈表現）が得られます。

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

【G検定知識】AttentionにおけるQuery・Key・Value

Query・Key・Valueとは

文脈を考慮した単語表現の計算

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

Query・Key・Valueとは

文脈を考慮した単語表現の計算

Tableau Prep Builder 〜データ全体を俯瞰しながら前処理〜

機械学習より前の手法を知る 〜今更聞けないアソシエーション分析

クラウド型AI —— 知の可能性を解き放つサービスと未来への展望

使えるダッシュボードを作るために何が必要か

データサイエンティストが商圏分析に郵便番号を推挙する3つの理由

注目のDS検定（データサイエンティスト検定）を大解説!!!

【Vimeo】収録済み動画で疑似ライブ配信するためのメモ

【LLoco】オープンデータをLLocoと結合して可視化する〜郵便番号結合編〜

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

機械学習より前の手法を知る〜今更聞けないアソシエーション分析