年々開発されている自然言語処理モデルの性能を客観的に評価し、モデル間で比較するために、ベンチマーク(評価基準)が用いられます。ここでいうベンチマークとは、言語モデルに出す「テスト」、あるいはそれに使われる、公開されているデータセットを指します。
汎用型の言語モデルは多用多種のタスクに適用可能なので、単一のタスクではなく、一定範囲に及ぶ複数のタスクをモデルに実行させ、その結果に基づく総合的な評価が必要です。
テストの結果からモデルの弱点を特定し、改善のための方向性が示されます。また、新しいモデルが既存モデルを超えてどんどん進歩していくと、より難しいベンチマークが提案され、その難しいベンチマークを解決できるように、開発者によりモデルの改善が行われ……というサイクルにより技術が進歩していきます。
ベンチマークとしてよく使用される言語タスクの代表例として、以下の表にいくつかの例を挙げます。
言語タスクの種類 | 概要 |
機械翻訳 (Machine Translation) | Source Languageの入力文をTarget Languageに翻訳して出力する |
感情分析(Sentiment Analysis) | ・テキストからポジティブまたはネガティブな感情を特定する(「ネガポジ判定」とも呼ばれる)
・(用途例)レビューの感情分析、SNS、マーケティング、 施策に役に立つ |
文章の要約(Summarization)
|
・与えられた文書やテキストの主要なポイントを抽出し、それを短い要約にまとめる
・(用途例)記事の内容からタイトルの自動生成、原文の意味を忠実に保持しつつ簡潔にする |
テキスト分類 (Text Classification) | ・文章を一つまたは複数のカテゴリに分類し、検索可能にする
・(用途例)スパムメールの振り分け、ウェブニュース記事のカテゴリ化やレコメンド |
固有表現抽出(NER; Named Entity Recognition) | ・文章から、人名、組織名、地名、日時表現、金銭表現などの固有表現を特定する
・(用途例)プライバシー保護のために、データから人個人情報にあたる文字列を識別しその情報を適切に処理する |
質問応答 (Question Answering) | ・特定の質問に対する正確な答えを出力する
選択問題や,文章から問題文の答えを抜き出す機械読解 (Reading Comprehension),対話形式の質問応答などがある ・(用途例)チャット型サービスなど |
意味的類似度(Semantic Similarity) | 2つの文が同じ意味かどうかを判定する |
自然言語推論(Natural Language Inference, NLI) | 2つの文の間の論理的な関係を推論する、2つの文の内容に矛盾があるのか、一方が他方を含意するのかなどを判定する
モデルが文の内容を理解し、それらの間の複雑な関係性を捉える能力を評価するのに有用 |
GLUE(General language Understanding Evaluation)は、代表的な言語タスクのベンチマークの1つです。新しい言語モデルを論文で発表する際には、「GLUEスコア」を掲載することが暗黙の了解になるくらいです。2022年には日本語版のJGLUEも開発されています。
以下の公式サイトや論文を読むと理解が深まります。
公式
論文:[1804.07461] GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
GLUEは9つの公開されている言語理解タスクから構成されています。広それぞれに対する性能を評価し、それらの総合値によってモデルの「一般的な性能」が表現されます。その中には、「意味類似度の判断」、「ネガポジ判定」、「質問応答」など、上の表に含まれるタスクと共通のものが多いです。
GLUEのタスクに使われるデータセットの例としていくつか挙げておきます。
- CoLA(The Corpus of Linguistic Acceptability) : 文が英語文法として正しいかどうか(言語学的許容性)を判定。二値文分類に該当。データは23の書籍や雑誌記事を元にしています。
- SST-2(The Stanford Sentiment Treebank) : 映画レビューの感情解析(文章分類)QNLI (Question Natural Language Inference):質問とその答えのペアが与えられ、答えが質問から論理的に導かれるかどうかを判断する(テキスト分類)
- MRPC(Microsoft Research Paraphrase Corpus) : オンラインニュースからの2つの文のペアが同じ意味かどうかを判定。(意味的類似度のための文章分類)
- SQuAD(Stanford Question Answering Dataset): ウィキペディアから質問の答えとなるテキストを見つける(質問応答)
GLUEのタスクに使われているデータセットは以下で入手できます。
ところで、言語モデルの急速な発達により、本来のGLUEではやや物足りない場合が出てきているくらいです。今はさらに難易度の高いSuperGLUEが導入されはじめています。WiC (Words in Context)やROPES (Reasoning Over Paragraph Effects in Situations)など、脈に基づいた理解や、文の間の論理的な関係を推論するなど、より高度な言語理解能力を必要とするタスクが追加されています。