数学

【DS検定の最強情報集】相関関係と因果関係と交絡因子

相関関係と因果関係は違う

相関関係とは

相関関係について知識を持っている方が多いかと思います。相関関係の定義は至って単純です。

変数Aと変数Bの間に相関関係があるということは、一言で言うと、

変数Aが増加した際、変数Bもほぼ同じ割合で増加または減少する傾向にある

つまり、変数同士の大きさに関連性があるのが相関関係です。相関関係の特徴の1つは「出来事の起こる順番は関係がない」ことです。

図1には、左から正の相関、無相関、負の相関を示す散布図が表示されています。

図1:左から正の相関、無相関、負の相関を示す散布図

 

ここではもう1種類の変数の間の関係について解説します。

それは因果関係です。

この説明をする前に1つ強調させてください。

相関関係と因果関係は同じではありません!

 

因果関係とは

事象Aと事象Bの間に因果関係があるとは、以下のことです。

事象A(原因)が起きたことによって事象B(結果)が変化する …①

あるいは

事象B(原因)が起きたことによって事象A(結果)が変化する …②

つまり、因果関係とは「原因と結果の関係」であり、事象A(B)が起きることは事象B(A)に正または負の影響を及ぼしています。

以下は、因果関係が”考えられる”現象です。
(注)ただし本当に因果関係があるのか、それとも見かけ上の因果関係なのは、かなり綿密に調べないとわかりません。

  • スタッフを増やした(事象A)ので、仕事にかかる時間が短くなった(事象B)
  • 週末にセールを開催した(事象A)ので、いつもより2倍程度のお客さんが来店した(事象B)
  • 広告を出稿した(事象A)ので、自社のECサイトの訪問者数が増えた(事象B)

これらの例からでも想像できるように、因果関係を見つけ出すことは、収益アップに直結するなど、ビジネスにおいて重要そうですね。

 

因果関係の特徴

(特徴1)2つの事象の間に直接な関係がある

(特徴2)出来事の起こる順番がある

相関関係の場合、出来事の起こる順番には関係がないです、一方で、因果関係には方向性があります。上記の①と②の一方向のみ成り立ち、逆が成り立たないことがあります。

例えば、「気温が上がったので、かき氷の売り上げが上がった」において「気温上昇」が「かき氷の売上上昇」をもたらしていることは容易に想像できます。しかし、「かき氷の売り上げが上がったので、気温が上がった」はあり得ませんね。

 

相関関係と因果関係の区別

擬似相関と交絡因子

過去の「1日の最低気温」と「食料店の1日の鍋の素の売上額」を記録したデータがあるとします。横軸に「最低気温」、縦軸に「鍋の素の売上額」をとって、散布図としてプロットすると、図2のようになったとします。気温が低いほど鍋の素の売り上げが高くなる傾向が見られます。

冬が近づいており、最低気温が低くなったことを原因に、結果として鍋を食べる機会が増え、鍋の素の売り上げが上がるのは、不思議ではない流れです。よって、この場合「1日の最低気温」(事象A)と「食料店の1日の鍋の素の売上額」(事象B)が因果関係で結ばれている可能性は否定できません。

一方で、図2の散布図において、気温と売り上げの間に負の相関関係も見えます。図1の負の相関の図と同様なパターンです。

では、上記で挙げた例は本当に因果関係があるのか、それとも因果関係はなく相関関係のみあるのでしょうか?
これを調べることは一般的には簡単ではありません。

 

図2:気温を横軸に、鍋の素の売上を縦軸にプロットした散布図

 

もう1つ具体例をあげます。

「気温のデータ」、「ビールの売り上げのデータ」、「アイスの売り上げのデータ」の3種類を散布図で可視化したところ、以下の2つのパターンが読み取れました。

  • 気温が上がるとビールの売り上げが上がる
  • 気温が上がるとアイスの売り上げが上がる

今度は、「ビールの売り上げ」と「アイスの売り上げ」の2種のデータを散布図にし、一方が増えるともう一方が増える傾向が見えました。さらに、相関係数を計算したところ、両者に強い相関関係があると言えそうです。

しかし、 「ビールの売り上げ上昇が原因となって、アイスの売り上げを上昇させている」とは言えず、直感的にもおかしいとほとんどの人が思うはずです。

この例も、 相関関係があるものの、因果関係はあるとは言えないことに帰着します。一見、因果関係があるように見える2つの出来事でも、本当は、ただの相関関係でしかないことがあります。この場合、それぞれの事象は全く関係ない他の要因に影響されていることがあります。

「気温が高い」という共通の因子が「アイスの売り上げ」と「ビールの売り上げ」の両方に同じ方向の影響を及ぼしており、その結果、「アイスの売り上げ」と「ビールの売り上げ」の間に見かけ上の関係性ができているのです。

この場合、「ビールの売り上げ」と「アイスの売り上げ」は擬似相関の関係にあると言われており、「気温」がその交絡因子(Confounding factor)と呼ばれます。交絡要因とは、2項目に影響を与えて相関係数を高くするような第3の要因のことです。交絡因子は、2つの変数のそれぞれと因果関係がなり立ちます。

 

週末にセールを開催したことによって、(お得に買い物をするチャンスなので)たくさんお客さんが来た、は理解できるけど、お客さんがたくさん来たから、セールをこの瞬間から実施、はそう多くはないですね(デパートの服のタイムセールはそうかもしれない?)。

 

因果関係があれば、必ず相関関係がある(しかし、逆は成り立たない)

そもそも、2つの変数の間に因果関係がある場合、その2つの変数の間には相関関係が必ずと言っていいほどあると思ってください。これは、因果関係からその相関関係が生まれるからです。

しかし、逆は成り立ちません。相関関係を調べ、相関係数を計算することで、2つの変数が一緒に変動している程度を定量化することができます。しかし、この場合必ずしも1つの変数が他の変数の原因となるためデータが一緒に変動しているわけではありません。

因果関係が本質(データの性質)であり、相関関係はただの「見かけ上の現象」です。

データをプロットして正または負の傾きの直線関係がそれなりに見られれば、相関関係がありそうと言っても、多くの場合は間違っていません。

一方で、因果関係はデータを用いて調べることがとても難しいです。難しいけれど、いや、難しいからこそ、データ分析業務の多くは2つの事象の間の因果関係を証明することを目的としています。セール実施と来店数または売上の間に本物の原因と結果の関係性が成り立つことがあわかればビジネスに有利な分析結果になります。

 

因果関係の特定は、現実の世界では完璧に行うことができない

実世界のデータには、様々な要因や交絡因子が絡み合っています。変数間のすべての可能な関係をマッピングするために必要なデータを満遍なく確保することは困難です。

しかし、その中のいくつかの異なる変数間のメカニズムを分離して調査することができます。実際、因果関係を指示する「根拠」を見つけるための実験的や統計的な手法が考案されています。たとえば、対照実験やランダム化実験では、2つのグループを対応させ、一方のグループのみにランダムに介入を適用することで、もう一方の変化を観察します(ここでは詳細を省略します)。

適切に計画された実験からデータセットが得られたのであれば、正の相関は因果関係の有効な証拠を集めることができます。

ビジネスの世界において、統計学的な手法に精通していなくても、データの裏にある背景、2つの要素以外がデータに影響を与えていないかを考えることが大切となります。他に、因果関係と思われるデータを見つけた時には、参考にした資料やデータの他に、同じことを述べているデータがないかを探すことも良いでしょう。

都合の良いデータを見れば因果関係がある、と考えたくなります。しかし、相関関係と因果関係はデータ上では同様のものとして表示され、擬似相関はビジネスのデータの誤解釈につながりやすいのです。まずは何が原因となっているのか、その他に何か影響を与えているものはないのか考えることが、因果関係を正しく判断する鍵となります。

 

数値の予測だけが目的であれば、因果関係がなくてもいい

目的が値を予測するだけであれば、説明変数と目的変数の間に実は因果関係がなくてもいいのです。

「アイスクリームの売り上げ金額」と「扇風機の販売台数」の間には因果関係があるとは思えないけれど、強い相関関係がある可能性が高いです。数値だけを考えた場合、片方の変数の値がわかれば、もう片方の変数の値を予測することが可能です。

 

<まとめ>

  • 相関関係

2つの変数のうち、一方が変化すれば他方も変化するような関係。出来事の起こる順序は関係ない、お互いに影響があるとは限らないことが特徴である。

  • 因果関係

ある事象が原因となって別の事実を引き起こしているような関係。時間順序と直接的な関係性が特徴である。

  • 「2変数の相関係数が高いこと」と「因果関係があること」は全く別。一見、原因と結果に見えるようなことであっても、因果関係があるとは限らない。

 

執筆担当:ヤン ジャクリン (分析官・講師)

 

yan
データ分析官・データサイエンス講座の講師