G検定

GLUE:AIによる自然言語理解の性能を評価

この記事では、英語圏における自然言語処理の標準ベンチマークであるGLUEについて解説します。

※本記事のトピックはG検定やDS検定を受験される方に有利ですので、是非ご活用ください。

GLUEとは

GLUE(General language Understanding Evaluation)は、自然言語処理モデルによる言語理解タスクの精度を評価するためのベンチマーク(評価基準)です。

今では、GLUEは英語圏の自然言語処理におけるデファクトスタンダードとなっており、新しいAI言語モデルを論文で発表する際には、「GLUEスコア」を掲載することが暗黙の了解になりつつあります。現在は日本語版も開発中とのことです。

GLUEでは、「2文の類似度の判断」や「ネガポジ判定」など、指定された複数の自然言語処理タスクのそれぞれに対する性能を評価し、それらの評価の総合値によってモデルの性能が表現されます。

GLUEの経緯

GLUEは2019年、BERTやGPTなどのマルチタスク自然言語処理モデルのパフォーマンスを評価する方法として開発されました。

一般公開されているデータセットに基いた自然言語理解(NLU; Natural Language Understanding)のタスクのコレクションです。従来のデータセットなどを組み合わせてベンチマークが作られており、これをテストデータとして用いて言語能力のスコアを算出します。

「GLUEタスク」の「データセット」は以下で入手できます。

https://gluebenchmark.com/tasks

例えば、文が英語文法として正しいかどうかを判定するタスクCoLAのデータセットは、23の書籍や雑誌記事を元にしています。

ところで、NLPモデルの急速な発達により、本来のGLUEではやや物足りない場合が出てきているくらいです。今はさらに難易度の高いSuperGLUEが導入されはじめています。

 

公式サイトや下記の論文を読むと深く理解することができます。

公式:https://gluebenchmark.com/

論文: [1804.07461] GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

https://arxiv.org/abs/1804.07461

GLUEに含まれるタスクとデータセット

GLUEに含まれる言語理解のタスクのセットは以下となります。

・CoLA(The Corpus of Linguistic Acceptability) : 文が英語文法として正しいかどうか(言語学的許容性)を判定。二値文分類に該当。
・SST-2(The Stanford Sentiment Treebank) : 映画レビューの感情解析(ポジティブ、ネガティブ)を判定。二値文分類に該当。
・MRPC(Microsoft Research Paraphrase Corpus) : オンラインニュースからの2つの文のペアが同じ意味かどうかを判定。意味的類似性のための二項分類
・STS-B(Semantic Textual Similarity Benchmark) : ニュースの見出しやその他のリソースから文のペアの意味的な類似性スコアを5段階で評価
・QQP(Quora Question Pairs) : Quoraで出された2つの質問が意味的に同等かどうかを判定する。
・MNLI-m / MNLI-mm(MultiNLI Matched/MultiNLI Mismatched) : 2つの文の含意関係(含意/矛盾/中立)を判定。
・SQuAD(Stanford Question Answering Dataset): ウィキペディアから質問の答えとなるテキストを見つける
・QNLI (Question NLI): 質問と文(question、sentence)ペアの文は、質問に対する正しい回答を含んでいるかどうかを判定。 SQuADの二値分類版
・RTE(Recognizing Textual Entailment) : 2つの文の含意関係(含意、含意でない)を判定。MNLIと似ている含意タスクではあるが、トレーニングデータは少ない
・WNLI (Winograd NLI): 代名詞が置換された文が元の文に含まれているかどうかを判定。

(参考) https://gluebenchmark.com/tasks

 

GLUE以外の代表的な言語理解タスク

自然言語処理によって解決できるタスクは様々あります。GLUEに含まれていない重要な言語タスクも含めて、以下にいくつかの例を挙げます。

  • 固有表現抽出(NER; Named Entity Recognition)
    • ある文章から、人名や組織名などの固有表現を機械的に抽出する
    • 用途例としては、プライバシー保護のためのデータ処理の際に、データから人の名前を抽出してその情報を削除する
  • 文章の要約
    • 用途例:記事の内容からタイトルの自動生成
  • 機械翻訳
  • 文章分類
    • ある文章がどんな項目に関する内容なのかを分類し、検索可能にするようなタスク
    • スパムメールの振り分け、ウェブニュース記事のカテゴリ化やレコメンド
  • 感情分析
    • レビューの感情分析、SNS、マーケティング➡︎ 施策に役に立つ
  • 質問応答(チャットボットなど)

 

執筆担当:ヤン ジャクリン (分析官・講師)

yan
データ分析官・データサイエンス講座の講師