DS検定

Casual AI(因果推論AI)の具体的手法の概要

前回の記事で、Casual AI(因果推論AI)の定義及び社会における応用例を紹介しました。

Causal AI(因果推論AI)と予測用AI 何が違う? 近頃、従来の予測用AIとは異なる用途のAI技術が注目されるようになってきました。1つがブームの真っ盛りの中の生成AI...

今回は因果推論AIの主要な手法3種類 {ベイジアンネットワーク、構造方程式モデル(SEM)、ポテンシャルアウトカム(PO)}を簡潔に解説した上で、これらの医療分野への応用とその課題についても紹介します。

①ベイジアンネットワーク
ベイジアンネットワークは、特徴量間の因果関係を視覚的に分析する手法です。ノード(変数)とエッジ(因果関係)から構成された「有向非巡回グラフ(DAG; Directed Acyclic Graph)」というグラフィカルモデルで複雑な因果構造を表現します。ここで、「有向」とは、矢印の向きが示されていること、「非循環」とは、矢印を辿っても元の変数に帰ってこないことを指しています。

ベイジアンネットワークはDAGの概念を用いて、変数(因子)間の影響に関するパラメータを推定します。例えば、「飲酒の有無」が「心臓疾患発生率」に影響を与え、続いて「心臓疾患発生率」が「平均寿命」に影響を与えているとします。この場合、ベイジアンネットワーク用いることによって、「飲酒の有無」から「心臓疾患発生率」に向かうパラメータおよび「心臓疾患発生率」から「平均寿命」に向かうパラメータの推定を行います。この場合、正規分布(ガウス分布)といった確率分布に基づく因果モデルを使用することが多いです。

このような手法特に、確率的な推論を行う際に有効です。データから得られた情報を基に学習したモデルを用いて、未知の変数の影響を推定することが可能であるため、ビジネスや医療などにおける意思決定を支援するために使うことができます。

DAGを取り入れた代表的なモデルは、構造的因果モデル(SCM: Structural Causal Models)です(参考文献:J. Pearl. Causality. Causality: Models, Reasoning, and Inference. Cambridge Univ. Press, 2009)

次に紹介する論文(★)では構造的因果モデル (SCM) に基づいて、データの欠損値を補填するメカニズムを提案しています。有向非巡回グラフ(DAG)を用いて欠落指標と他の変数との関係を明示的に表現しています。

論文(★):MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms

以下の図1は論文(★)のFigure3から引用したものです。ここでグラフを用いて欠損発生の種類を示しています。各ノードは内生変数Xまたは欠損指標Rを表し、矢印はXとRのそれぞれを生成する関数fX、fR の引数を表します。

このように欠損の発生する仕組みをいくつかの種類に分けています。図ではデータが完全にランダムに欠損しているのはMCAR。この場合、XとRが独立関係にあります。特定の内生変数がランダムに欠損しているのはMAR、ランダムではない欠損がMNARです。

図1(論文(★)のFigure3):グラフの例。X = (X1, X2, X3)は内生変数、R = (R1, R2, R3)は欠損指標。白いノードは常に観測され、赤いノードは必ずしも観測されるとは限らない。

 

② 構造方程式モデル(SEM)

構造方程式モデル(Structural Equation Modeling, SEM)は重回帰分析や因子分析,パス解析などの機能を併せ持つ多変量解析の統合手法です。直接観測されている変数(観測変数)の背後に直接観測されていない変数(潜在変数)を仮定して、複数の要因の関係性を分析します。矢印で要素間を繋いだパス図を用いて変数間の因果関係を表します。これにより,難しい統計モデルの構造をビジュアルで一眼でわかりやすく表現することができます。

SEMは、「共分散構造分析」とも呼ばれ,共分散という統計量を利用して、複数の要素間の関係性をモデル化することで、変数間の相互作用(因果関係)の方向性や強さを同時に、そして「定量的」に評価することができます。同じ多変量解析としてSEMは主成分分析(PCA)とどこか考え方が似ていますが、PCAの最大の目的は主要因子を抽出することであるのに対し、SEMは因子間の関係性に趣をおいています。その定量的な性質から研究に使いやすく、実際に社会科学や経済学の研究(例:政策の影響を評価)において広く利用されています。

例えば、アンケート調査を行う際に、SEMを活用して多数ある設問の回答の間の関係性を、第三者に説明しやすいように導出し、ビジュアル化することができます。研究の他に、マーケティングリサーチや社会調査などに利用しやすいです。また、技術開発においてもSEMを用いて影響をおこよす因子を解明できると、改善、技術革新につながる可能性が期待されています。

 

③ ポテンシャルアウトカム(PO: Potential Outcomes)

ポテンシャルアウトカム(PO: Potential Outcomes)フレームワークは、「介入」の効果を評価するための手法です。ランダム化試験を用いて因果推論の効果が示されています。

ここで因果推論における「介入」(または「処置」)とは、対象への働きかけによって, 結果にどの程度影響が及ぶかについて推定することを指しています(=「因果効果」の測定)。

一般的には処置群と対照群を設定し、両者の比較を通じて介入がもたらす効果を評価します。 POによる介入を示すことで、医療行為(例:薬を患者に投与する事による病状の改善)や社会的政策(注意喚起を呼びかけることによる事故の減少)の有効性を科学的に証明することが可能です。

 

医療分野における因果推論の応用例

因果推論は多くの応用分野で有効なツールです。上記で紹介した手法のうち、①の構造的因果モデルと③のポテンシャルアウトアムを用いた、医療分野における因果推論の枠組みを次に紹介します。

医療やヘルスケア分野における因果推論は、特に以下の点で信頼性の向上に寄与しています。

  • 解釈性(Interpretability): 疾患の原因や治療効果を説明可能にする
  • ロバスト性(Robustness): 偏りのあるデータや分布シフトへの対応
  • 公平性(Fairness): 偏見を排除し、より公正な医療アルゴリズムを設計
  • プライバシー(Privacy): 患者の個人情報を守りながら因果推論を実施

参考文献:A Review of the Role of Causality in Developing Trustworthy AI Systems

医療分野における因果推論の枠組みには、以下の2つの主要なアプローチがあります。

アプローチ 用途の例
① 構造的因果モデル(SCM: Structural Causal Models)

 

・疾患の因果関係を明らかにし、診断精度を向上

・新薬の発見や効果検証に活用

 

ポテンシャルアウトカム(PO: Potential Outcomes)フレームワーク 薬剤の効果を評価し、医療介入の因果的影響を分析

 

 

① 構造的因果モデル(SCM)を用いた医療研究

SCMは医療分野において 診断精度向上・治療効果の理解・公平性の確保に貢献しています。SCMを活用することで、従来の統計モデルでは見えにくかった疾患の因果関係や治療効果の推定が可能になります。例えば、肺がんのリスク要因(喫煙・環境要因など)を考慮した診断モデルや、医療画像の解析におけるバイアスの除去などが挙げられます。

SCM を活用した主要な研究をいくつか列挙します。

  • Zhang et al. , Causal Inference in medicine and in health policy, a summary, arXiv:2105.04655 (2021)
    • 肺がんの因果グラフなどを例に、医療分野での因果推論の基本概念を紹介
  • Vlontzos et al., A Review of Causality for Learning Algorithms in Medical Image Analysis,  arXiv:2206.05498 (2022).
    • 医療画像分野における因果推論の活用を提唱
    • 因果推論を取り入れた診断アルゴリズムの事例を調査

 

② ポテンシャルアウトカム(PO)を用いた医療研究

POフレームワークは、医療分野では治療効果の推定に広く利用されています。POを活用した主要な研究をいくつか列挙します。

  • Shi and Norgeot,  Learning Causal Effects From Observational Data in Healthcare: A Review and Summary. Frontiers in Medicine 9 (2022).
    • 医療分野での観察データからの因果効果推定に関する研究を調査
    • 治療効果を推定するさまざまな手法をレビュー
  • Friedrich and Friede, , Causal inference methods for mall non-randomized studies: Methods and an application in COVID-19. Contemporary Clinical Trials 99 (2020).
    • POフレームワークを用いた複数の因果推定手法を比較
    • COVID-19患者におけるヒドロキシクロロキンの効果を評価するシミュレーションを実施

 

医療分野における因果推論AIの課題

AIを用いて因果関係を正確に推定し信頼性の高い洞察を提供するために、十分な量の高品質なデータの収集が不可欠です。特に、データの多様性があること、偏りが少ないことが求められます。医療分野において異なる治療法の効果を正確に比較するためには、患者の治療結果に関する詳細なデータが必要です。

しかし同時に、AIを活用した医療データ分析において、個別の患者の識別を防ぐためのプライバシー確保のメカニズムの開発と適用が非常に重要です。例えば、個人の識別リスクが低くなるよう、治療の評価において新しい合成データセットを生成しています。

もう1つ課題としては、因果関係の発見において、グラウンドトゥルースの因果グラフが存在しない場合の課題も指摘されています。これを解決するために、医療専門家との協力 や、複雑な医療データを扱える高度な因果推論手法の開発が不可欠です。

 

 

yan
データ分析官・データサイエンス講座の講師