自然言語モデルによる様々なタスクを評価するベンチマーク

年々開発されている自然言語処理モデルの性能を客観的に評価し、モデル間で比較するために、ベンチマーク（評価基準）が用いられます。ここでいうベンチマークとは、言語モデルに出す「テスト」、あるいはそれに使われる、公開されているデータセットを指します。

汎用型の言語モデルは多用多種のタスクに適用可能なので、単一のタスクではなく、一定範囲に及ぶ複数のタスクをモデルに実行させ、その結果に基づく総合的な評価が必要です。

テストの結果からモデルの弱点を特定し、改善のための方向性が示されます。また、新しいモデルが既存モデルを超えてどんどん進歩していくと、より難しいベンチマークが提案され、その難しいベンチマークを解決できるように、開発者によりモデルの改善が行われ……というサイクルにより技術が進歩していきます。

ベンチマークとしてよく使用される言語タスクの代表例として、以下の表にいくつかの例を挙げます。

言語タスクの種類	概要
機械翻訳 (Machine Translation)	Source Languageの入力文をTarget Languageに翻訳して出力する
感情分析(Sentiment Analysis)	・テキストからポジティブまたはネガティブな感情を特定する（「ネガポジ判定」とも呼ばれる）・（用途例）レビューの感情分析、SNS、マーケティング、　施策に役に立つ
文章の要約（Summarization）	・与えられた文書やテキストの主要なポイントを抽出し、それを短い要約にまとめる・（用途例）記事の内容からタイトルの自動生成、原文の意味を忠実に保持しつつ簡潔にする
テキスト分類 (Text Classification)	・文章を一つまたは複数のカテゴリに分類し、検索可能にする・（用途例）スパムメールの振り分け、ウェブニュース記事のカテゴリ化やレコメンド
固有表現抽出（NER; Named Entity Recognition）	・文章から、人名、組織名、地名、日時表現、金銭表現などの固有表現を特定する・（用途例）プライバシー保護のために、データから人個人情報にあたる文字列を識別しその情報を適切に処理する
質問応答 (Question Answering)	・特定の質問に対する正確な答えを出力する選択問題や，文章から問題文の答えを抜き出す機械読解 (Reading Comprehension)，対話形式の質問応答などがある・（用途例）チャット型サービスなど
意味的類似度（Semantic Similarity）	２つの文が同じ意味かどうかを判定する
自然言語推論（Natural Language Inference, NLI）	2つの文の間の論理的な関係を推論する、2つの文の内容に矛盾があるのか、一方が他方を含意するのかなどを判定するモデルが文の内容を理解し、それらの間の複雑な関係性を捉える能力を評価するのに有用

GLUE（General language Understanding Evaluation）は、代表的な言語タスクのベンチマークの1つです。新しい言語モデルを論文で発表する際には、「GLUEスコア」を掲載することが暗黙の了解になるくらいです。2022年には日本語版のJGLUEも開発されています。

以下の公式サイトや論文を読むと理解が深まります。

公式

GLUE Benchmark

The General Language Understanding Evaluation (GLUE) benchmark is a collection of resources for training, evaluating, and analyzing natural language understanding systems

gluebenchmark.com

外部サイト

https://gluebenchmark.com

論文：[1804.07461] GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

GLUEは9つの公開されている言語理解タスクから構成されています。広それぞれに対する性能を評価し、それらの総合値によってモデルの「一般的な性能」が表現されます。その中には、「意味類似度の判断」、「ネガポジ判定」、「質問応答」など、上の表に含まれるタスクと共通のものが多いです。

GLUEのタスクに使われるデータセットの例としていくつか挙げておきます。

CoLA（The Corpus of Linguistic Acceptability） : 文が英語文法として正しいかどうか（言語学的許容性）を判定。二値文分類に該当。データは23の書籍や雑誌記事を元にしています。
SST-2（The Stanford Sentiment Treebank） : 映画レビューの感情解析（文章分類）QNLI (Question Natural Language Inference)：質問とその答えのペアが与えられ、答えが質問から論理的に導かれるかどうかを判断する（テキスト分類）
MRPC（Microsoft Research Paraphrase Corpus） : オンラインニュースからの2つの文のペアが同じ意味かどうかを判定。（意味的類似度のための文章分類）
SQuAD（Stanford Question Answering Dataset）: ウィキペディアから質問の答えとなるテキストを見つける（質問応答）

GLUEのタスクに使われているデータセットは以下で入手できます。

GLUE Benchmark

The General Language Understanding Evaluation (GLUE) benchmark is a collection of resources for training, evaluating, and analyzing natural language understanding systems

gluebenchmark.com

外部サイト

https://gluebenchmark.com/tasks

ところで、言語モデルの急速な発達により、本来のGLUEではやや物足りない場合が出てきているくらいです。今はさらに難易度の高いSuperGLUEが導入されはじめています。WiC (Words in Context)やROPES (Reasoning Over Paragraph Effects in Situations)など、脈に基づいた理解や、文の間の論理的な関係を推論するなど、より高度な言語理解能力を必要とするタスクが追加されています。

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

自然言語モデルによる様々なタスクを評価するベンチマーク

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

Google My Maps で地図中の領域を緯度経度情報として取得する

CVPR2024で最高精度を達成した複数カメラ間人物追跡の技術特徴

Tableau Tips (積み上げ折れ線グラフ・メジャーバリューごとの色付け・シートの交換)

BigQueryで日時情報を扱うときはそのデータ型に注意しなければならないのです……

見落とされがちなデータ分析の作法「データの確認からはじめる」

Tableauの折れ線グラフの欠損値を線で繋げない方法

【体験記】データサイエンス数学ストラテジスト資格検定

音声データの解析における特徴量

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書