GLUE：AIによる自然言語理解の性能を評価｜CO-WRITE ─ AIとデータサイエンス by GRI

この記事では、英語圏における自然言語処理の標準ベンチマークであるGLUEについて解説します。

※本記事のトピックはG検定やDS検定を受験される方に有利ですので、是非ご活用ください。

GLUEとは
GLUEに含まれるタスクとデータセット
GLUE以外の代表的な言語理解タスク

GLUEとは

GLUE（General language Understanding Evaluation）は、自然言語処理モデルによる言語理解タスクの精度を評価するためのベンチマーク（評価基準）です。

今では、GLUEは英語圏の自然言語処理におけるデファクトスタンダードとなっており、新しいAI言語モデルを論文で発表する際には、「GLUEスコア」を掲載することが暗黙の了解になりつつあります。現在は日本語版も開発中とのことです。

GLUEでは、「2文の類似度の判断」や「ネガポジ判定」など、指定された複数の自然言語処理タスクのそれぞれに対する性能を評価し、それらの評価の総合値によってモデルの性能が表現されます。

GLUEの経緯

GLUEは2019年、BERTやGPTなどのマルチタスク自然言語処理モデルのパフォーマンスを評価する方法として開発されました。

一般公開されているデータセットに基いた自然言語理解(NLU; Natural Language Understanding)のタスクのコレクションです。従来のデータセットなどを組み合わせてベンチマークが作られており、これをテストデータとして用いて言語能力のスコアを算出します。

「GLUEタスク」の「データセット」は以下で入手できます。

https://gluebenchmark.com/tasks

例えば、文が英語文法として正しいかどうかを判定するタスクCoLAのデータセットは、23の書籍や雑誌記事を元にしています。

ところで、NLPモデルの急速な発達により、本来のGLUEではやや物足りない場合が出てきているくらいです。今はさらに難易度の高いSuperGLUEが導入されはじめています。

公式サイトや下記の論文を読むと深く理解することができます。

公式：https://gluebenchmark.com/

論文：　[1804.07461] GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

https://arxiv.org/abs/1804.07461

GLUEに含まれるタスクとデータセット

GLUEに含まれる言語理解のタスクのセットは以下となります。

・CoLA（The Corpus of Linguistic Acceptability） : 文が英語文法として正しいかどうか（言語学的許容性）を判定。二値文分類に該当。
・SST-2（The Stanford Sentiment Treebank） : 映画レビューの感情解析（ポジティブ、ネガティブ）を判定。二値文分類に該当。
・MRPC（Microsoft Research Paraphrase Corpus） : オンラインニュースからの2つの文のペアが同じ意味かどうかを判定。意味的類似性のための二項分類
・STS-B（Semantic Textual Similarity Benchmark） : ニュースの見出しやその他のリソースから文のペアの意味的な類似性スコアを5段階で評価
・QQP（Quora Question Pairs） : Quoraで出された2つの質問が意味的に同等かどうかを判定する。
・MNLI-m / MNLI-mm（MultiNLI Matched/MultiNLI Mismatched） : 2つの文の含意関係（含意/矛盾/中立）を判定。
・SQuAD（Stanford Question Answering Dataset）: ウィキペディアから質問の答えとなるテキストを見つける
・QNLI （Question NLI）: 質問と文（question、sentence）ペアの文は、質問に対する正しい回答を含んでいるかどうかを判定。 SQuADの二値分類版
・RTE（Recognizing Textual Entailment） : 2つの文の含意関係（含意、含意でない）を判定。MNLIと似ている含意タスクではあるが、トレーニングデータは少ない
・WNLI （Winograd NLI）: 代名詞が置換された文が元の文に含まれているかどうかを判定。

（参考）　https://gluebenchmark.com/tasks

GLUE以外の代表的な言語理解タスク

自然言語処理によって解決できるタスクは様々あります。GLUEに含まれていない重要な言語タスクも含めて、以下にいくつかの例を挙げます。

固有表現抽出（NER; Named Entity Recognition）
- ある文章から、人名や組織名などの固有表現を機械的に抽出する
- 用途例としては、プライバシー保護のためのデータ処理の際に、データから人の名前を抽出してその情報を削除する
文章の要約
- 用途例：記事の内容からタイトルの自動生成
機械翻訳
文章分類
- ある文章がどんな項目に関する内容なのかを分類し、検索可能にするようなタスク
- スパムメールの振り分け、ウェブニュース記事のカテゴリ化やレコメンド
感情分析
- レビューの感情分析、SNS、マーケティング➡︎　施策に役に立つ
質問応答（チャットボットなど）

執筆担当：ヤン　ジャクリン　（分析官・講師）

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

GLUE：AIによる自然言語理解の性能を評価

GLUEとは

GLUEの経緯

GLUEに含まれるタスクとデータセット

GLUE以外の代表的な言語理解タスク

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

GLUEとは

GLUEの経緯

GLUEに含まれるタスクとデータセット

GLUE以外の代表的な言語理解タスク

身の回りの自然言語理解（NLU; Natural Language Understanding）タスク

住居費から見る地域差を考える

【G検定知識】CNN軽量化を数学的に理解

音楽と映像の融合について

VSCodeとpytestでPythonコードをテスト&デバッグする

合格者と不合格者を選別する良いテストの問題を設計することは良いAIモデルを設計することと等価だと思った

AIに関する法律・倫理をなぜ学ぶ？

【最新海外AI技術の解説】説明可能AI#1・特徴量の相関関係を考慮できるモデル非依存型解釈手法

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書