DS検定

G検定・最強の合格テキストの読者Q&A(機械翻訳とAttention機構)

拙著の「G検定 最強の合格テキスト」(通称「緑本」)について、読者様からご質問をいただきました。G検定、AI、ディープラーニングについて勉強されている方の参考になると思いまして、Q&Aの記事にまとめることにいたしました。

「G検定 合格の最強テキスト」に寄せられたご質問

匿名で質問を頂いたのは、2022年8月の中旬です。その次のG検定は2022年の11月開催予定なので、お早めに勉強されているかと推測します。

【問い合わせ内容】
CHAPTER4.9.2(P260)「Attentionを取り入れた機械翻訳」の記述に関する質問
2つのRNNで構成されたエンコーダ・デコーダモデル(seq2seq)をAttentionによって「橋渡し」し、入力文と出力文の単語間の関係性を算出するAttention機構を「特にSource-Target  Attentionと呼ばれます」と解説されている点に関する質問です。

①他の教材やYouTube、メディアにおいて、Source-Target  Attentionはトランスフォーマーのデコーダ側で実装され、Queryはデコーダから、Key-Valueのペアはエンコーダから情報を受け取り、QueryとKey-Valueペアを用いて出力をマッピングしながら翻訳に反映されると解説されてますが、2つのRNNで構成されたseq2seqでも、「Source-Target  Attention」と呼ぶことがあるのでしょうか?

②トランスフォーマーのSource-Target  Attentionも、seq2seqと同じくエンコーダ・デコーダ構造の下でAttentionされてますから、細かな計算手法はさておき、外形的、構造的な面を捉えてSource-Target  Attentionと呼んでおられるのでしょうか?

著者の返信

自然言語処理について実践的なアプローチからよく勉強されている質問者の方と思われます。おそらく参照している文献の1つはこれに近いでしょう。

https://qiita.com/ps010/items/0bb2931b666fa602d0fc

質問①で述べられていることは、従来のseq2seqモデルの後に採用された最新のGNMT(2017年頃)のことにあたります。その際にはTransformer を取り入れています。離れた位置にある単語同士の関係性も捉えやすくし、長文翻訳の精度を向上させるために、Transformerではエンコーダとデコーダに(RNNを使わず)Attention(Self-Attention)を採用しています。そして入力と出力の橋渡しにSource-Target Attentionを使っています。

質問者様が拙著から引用されている部分は、Transformer を取り入れる前のGNMT(Google Neural Machine Translation) などで採用されているニューラル機械翻訳モデルのことです。はい、この時も「Source-Target  Attention」と呼ばれると思います。なぜなら Source と Target を橋渡ししているからです。これは②の質問にもつながりますが、おっしゃるように、構造上/機能上から名前が来ていると思います。

入力系列(source)と出力系列(target)の間で単語間の関連性を算出する機能を果たすために使われるAttention機構は特にSource-Target Attentionと呼ばれ、その特徴は、自己のAttentionではなく、翻訳元の文と翻訳後の文のAttention(重み)を計算していることです。

少し古い論文ですが、はじめて、Attentionがseq2seqに取り入れられたときのモデルについてです。この論文では “source-side” などの表現を使っています。

https://arxiv.org/abs/1508.04025

個人的な見解ですが、「Source-Target Attention」は何かの固有名詞というよりも、やはり 入力系列(source)と出力系列(target)の間で単語の関係性に関する重みを算出するために使われます。

執筆担当者:ヤン ジャクリン (分析官・講師)

yan
データ分析官・データサイエンス講座の講師