G検定

【最新海外AI技術の解説】言語生成モデルが引き起こす政治的バイアスの危険(前編)

この記事では、2021年に開催されたAAAI(米国人工知能学会)の全体の様子を伝え、およびその最優秀論文の1つを解説します。今回選んだ論文は、自然言語モデルによって生成された文章における政治的バイアスをテーマとしています。AIの社会応用に伴うリスクが注目されている今、かなりホットな話題といえるでしょう。

OVERVIEW:  2021年のAAAI

AAAI(AAAI Conference on Artificial Intelligence; 米国人工知能学会)は、最も著名な人工知能の国際学会です。機械学習、ディープラーニングをはじめとする人工知能の技術が幅広く議論されています。

第35回目の「AAAI-21」はオンラインで開催されました。 合計9034個の論文がサブミットされ、うち1692個の論文がアクセプトされました。2021年のアクセプト率は21%となり、2020年の20.6%を少し上回りました。

国別の論文アクセプト率と最優秀論文

国別の割合を見ると、下図のように、サブミット数、アクセプト数ともに中国が第1位、米国が第2位に入りました。1位と2位の差は2倍近くあります。日本からは27の論文がアクセプトされ、12位に入りました。

出典:「AAAI 2021 Best Papers AnnouncedSynced
https://syncedreview.com/2021/02/04/aaai-2021-best-papers-announced/

AAAI-21では3つの論文がBest Paper Awards(最優秀論文賞)に選出されました。その1つ(Mitigating Political Bias in Language Models Through Reinforced Calibration)を本記事と続編で解説します。

参考となる外部リンク

※Accepted Paperリスト:https://aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

※論文の審査基準・状況の参考:https://syncedreview.com/2020/12/03/aaai-2021-announces-paper-totals-amazingly-high-technical-level/

最優秀論文を解説:今大注目の文章生成モデルにおける深刻な課題

今回解説するAAAIの最優秀論文は、以下です。本記事は前編です。前編では論文の概要と研究の背景やモチベーションを伝えます。

Mitigating Political Bias in Language Models Through Reinforced Calibration

筆者和訳:強化学習を用いた、言語モデルにおける政治的バイアスの軽減

論文リンク:https://arxiv.org/pdf/2104.14795.pdf

著者:Ruibo Liu, Chenyan Jia,  Jason Wei, Guangxuan Xu, Lili Wang,  Soroush Vosoughi

大規模自然言語モデルの最先端技術や応用に伴う課題など、論文の理解を助ける背景知識に関しては、以前執筆しました以下の記事シリーズをご参照ください。

 

本論文の概要

本論文の研究では、大規模言語モデルGPT-2によって生成された文章における政治的バイアスを減らす手法を提案しています。

近年、AIが社会に及ぼす影響を法律・倫理の観点から議論されることが多くなっています。GPT-2を含む大規模な自然言語モデルは、その訓練データによって政治的バイアス(political bias)が引き起こすことが知られています。

大規模言語モデルの訓練データを収集する際に、なるべく多様性を持たせるような工夫がされているものの、一部のセンシティブな属性(例えば、宗教、人種、政治、性別)は予測結果の公平性に影響を及ぼす可能性が残ります。これは実世界での応用において深刻な問題をもたらすため、文章生成の仕組みからでバイアスを排除し、公平性を担保することが喫緊な課題です。

本論文の研究では具体的に以下の貢献を果たしています。

  • 文章生成における「政治的バイアス」とはどういう現象なのかを定義
  • 政治的バイアスを定量化し、測定する指標を考案
  • 強化学習(reinforcement learning; RL)を用いて、文章生成プロセスの中で政治的バイアスを軽減するためのフレームワークを開発
  • 提案した手法と指標を用いて、政治的バイアスを軽減できたことを実証

強化学習を用いたバイアス除去システムでは、バイアスのない文章生成を誘導するように最適化されます。言語モデルの訓練データを使わず、(通常長時間を要するような)モデルの再訓練も必要としません。よって、最小限の変更でGPT-2以外の文章生成モデルに適用できます。

実証実験において、もとの文章生成の性能や生成された文章の解読性に影響なく、政治的バイアスを軽減することに成功したことが確認できました。同じことは人間による直感的な評価でも合意が取れています。

文章生成におけるバイアスの考え方

最先端の言語モデルは人間が書いたものに限りなく近い文章を生成できる一方、生成された文章がデータまたはアルゴリズムに起因するバイアスを受けることがあります。一般的に、AIによる文章生成では、”prompt”(書き出し文)にトリガーされて、文章が生成されます。Promptへの依存性が非常に強いのがポイントです。これを具体例で見ていきましょう。

例:”I’m from Massachusetts. I will vote” というpromptから開始する場合を考えます。

“Massachusetts”(マサチューセッツ州)のように人口形態、位置情報、トピックを表す属性は、生成された文章に顕著な影響を与えていることが調べでわかりました。この例のMassachusettsは米国の中で、民主党(リベラル派; blue)の色が最も強い州の1つです。このワードを含むpromptを用いると、高い確率でリベラル派に偏った文章が生成されます。例えば、以下のような生成シナリオがあり得ます。

本研究では、政治的バイアスに特に敏感な3つの属性 {ジェンダー、位置、トピック}を軸に、GPT-2によるバイアスを解明しようとします。同じフレームワークは容易に他の種類の属性とバイアスに使い回せます。

各属性(attribute)に該当するオプション(option)とキーワード(keyword)の候補を集めました。粒度は、Attribute → option → keyword となっています。例えば、”male” は属性”gender”に対するoption 、”blue state” は属性”location”に対するoption、”Massachusetts” は”blue state” に対するkeywordです。本研究では、2016年の大統領選挙結果に基づいて、各州をblue stateまたはred stateにキーワードとしてアサインしています。

下表は3種の属性に対するoptionやkeywordの例です。

直接的なバイアスと間接的なバイアス

本研究では、直接的バイアスと間接的バイアスの2種の政治的バイアスを定義し、調査しています。

  1. Indirect Bias ; 間接的バイアス

属性{ジェンダー、位置、トピック}を表すワードが入っているprompt文によって生成された文章におけるバイアス

  1. Direct Bias; 直接的バイアス

Indirect bias の要因に加えて、直接な「イデオロジー・トリガー」を含むprompt文によって生成された文章におけるバイアス。直接的トリガーの例としては、”democrat”(民主党)や”republican”(共和党)が挙げられます。

実験では、属性を表すワードを含むprompt文(間接)、もしくは政治的な言葉を含むprompt文(直接)をトリガー役として用意しています。下表には学習済みのGPT-2モデルによって生成されたサンプルが4つ示されています。どれも政治的バイアスを示しています。直接的バイアスに関しては、L(liberal)またはC(conservative)を明確に表す言葉を含んでいます。(※学習済み = 既存品; 自分たちで再チューニングせずに転移学習用のモデルパラメータを使う)

下表は、論文から抽出された、一般的な学習済みGPT-2における間接的バイアスと直接的バイアスの例です。

出典:「Mitigating Political Bias in Language Models Through Reinforced Calibration
https://arxiv.org/pdf/2104.14795.pdf

例えば “marijuana”を含むprompt文として生成された文書は、“I believe it should be legal and not regulated”となり、違法薬物を擁護する傾向(リベラル派の立場)にあります。保守派(共和党)の直接トリガー表現を含んだ場合でも、リベラル派(民主党)の文章が生成される可能性があることが興味深いです。

本記事の続編では、以下を記述します。

  • バイアスを表す指標の計算法
  • バイアス除去のための強化学習フレームワーク
  • 実証実験とその結果
  • 筆者のコメント
個人情報に関する情報を整理① 2022/4/1に個人情報保護法が改正されたので、個人情報にまつわる情報を色々収集してみました。 個人情報保護に関する前提  まず...

それでは、本日はここまで読んでいただき、ありがとうございました。

担当者:ヤンジャクリン(分析官・講師)

 

yan
データ分析官・データサイエンス講座の講師