DS検定

データ分析になぜ統計学が必要か Part1

この記事では、統計学が身近な存在であること、そして、データサイエンティストにとって統計学が不可欠であることを伝えます。

統計学は昔から存在していた研究分野です。なのに、近年ますます脚光を浴びるようになり、その背景にはデータサイエンスの存在が大きいです。2010年以降、ビッグデータ、機械学習、人工知能(AI)などの発展に伴い、これらを活用するためには統計学の知識が必須であるためです。

そして、統計学を理解し、正しくデータ分析ができる人材の需要も高まりました。統計学を学びたいという方が増えていることを教育家としても実感します。

欧米では「データサイエンティスト」が非常に人気な職業です。米国の企業口コミサービスGlassdoorが発表した“the 50 Best Jobs in America for 2019”では、データサイエンティストが2016年から連続第1位です。また、米国の経済誌『Forbes』ではここ数年「最も役に立つ修士の学位」のランキングにおいて、統計学は常にトップを占領しています。

そもそも統計学とは?

ここではまず、「統計学とは何か?」、「統計学で何ができるのか」について理解を深めていきましょう。

 統計学はとても広く利用されている学問分野です。統計学は他の分野(例えば、データサイエンス、生物や物理などの自然科学)の中でも活用されています。

実際、統計学は私たちにとってかなり身近な存在です。気づかなくても、あらゆる場所で使われています。例えば、以下について考えるときに、「あ、今は統計学を使っているのだ」を考えたりしますか?

  • 全国模試の偏差値
  • 天気予報
  • 桜の開花予報
  • 選挙速報

そうです。どれにも統計学が使われています。

では、統計学とはどのような学問でしょうか。

「統計学」の定義はさまざまです。利用する場面によってその解釈が異なるからです。

統計学の対象である「統計」とは一般的に、データの特徴を数値で捉えたもの、「データ」とは「何らかの目的のために取得されたまとまった数値や符号や文字の集合体」として解釈しましょう。

一言でいうならば、統計学とは、統計に関する研究を行う学問であり、データの本質を理解し、規則性を見いだすことによって、データから価値ある情報を引き出すことを目指すと解釈できます。これを実現するためのアプローチの違いによって、統計学は複数の分野に分類されます。

ビジネスでの使用を考える際に、統計学は「課題の発見と解決、意思決定にとって重要な学問」と考えられています。これを理解するために2つの例を見ていきます。

例1

ある商品を継続して製造しつづけるかどうかを決めたいとします。利用者に、「これからも使いたいかどうか」というアンケート調査を行った場合を考えてみましょう。

「回答者5,000人のうち、3500人が使い続けたい」とすると、計算上は「商品の継続希望者は7割である」という結果になります。しかし、本当にこの「結果」から「結論」を出してよいのでしょうか。

この「7割」という数字が信頼できるものであるかどうかという点については、統計的な考察に基づいて、慎重に検討すべきです。

そもそも回答者である調査対象者の選び方についても統計的な考察が必要です。なぜなら、サンプル抽出や調査の手法がなんらかのバイアスを生み出す場合、調査結果の意味がだいぶ薄れてしまう、あるいは、間違った施策まで打ち出してしまうリスクがあります。

別の例を見ていきましょう。

例2

テレビの番組や広告では、グラフなどの集計されたデータを提示しながら情報を発信します。仮に「20名の患者の観察結果により、新規開発された薬は効果があることが示されました」と聞いたとします。この時、視聴者には以下のような疑問が浮かぶはずです。

  • 20個のサンプルは信頼性のある結論を導き出すために十分な量なのか?
  • 患者からどのようにデータを収集したのか?
  • どのような指標を持って薬の効果の有無を判断しているのか?

これらのような疑問に答えることや発信された情報について判断することは統計学を必要とします。

上記例のように、データ分析の結果は計算した数値にすぎません。それより大切なのは、「数値に至るまでのプロセス」です。ここに統計学が必須です。

統計学と数学の違いについてよく聞かれます。これはやや複雑な議論ですが、あえて簡単にいうと、数学は、計算手法を用いて数値を出力するのに対して、統計学は、(データの中の)数値やどのように生成されたのか、どの理論に沿って処理されたのかまで考察します

上記例において、数学で学んだ「確率」を利用して、実際に起こった現象の確かさや正しさ、不確実性について考え、合理的な判断や意思決定を行うのが統計学なのです。

データサイエンティストには統計学が必須?

データサイエンティストにとって欠かせないのが「統計学」の知識とそれをデータに応用するスキルです。以下では、統計学の有用性をデータサイエンスの観点から詳細を話していきます。

日常の中で、膨大な量のデータが自然現象あるいは人間の活動によって高速に生成され、扱われています。例えば、ECでショッピングをする際に、ユーザー登録情報、購入履歴、ウェブサイトの閲覧履歴、アプリの利用履歴などがデータとして発生します。

データサイエンティストは、これらのデータからビジネスにとって価値のある情報(インサイト)、パターン、傾向を引き出すことを目指します。

データから知見を導くことができれば、顧客の獲得、商品開発、在庫管理、経営課題の発見または解決など、多角的な施策に貢献できます。そのためには、データを分析する能力とその分析結果を論理的に解釈する能力が重要です。

さらに、データには必ず不確定性、誤差、ばらつきが伴います。ばらつきのある大量なデータをただ眺めても、そこから知見を得ることは困難です。データのボリュームを確認する、傾向や分布を観察する、平均や分散などデータを特徴付ける指標を算出する、特異点の有無を確認する、カテゴリーに分ける、などを実行してはじめて「使える情報」を引き出すことができます。データの活用はこのような「ばらつきのあるデータに多角的な処理を施す」ところからはじまります。

統計学は、上記のようなデータ分析に欠かせない要素(ばらつきのあるデータを分析し、分析結果を解釈すること)を行うための大切な手段です。そして、先述の通り、統計学は分析のプロセスを大切にするため、統計学を用いるとデータ分析のプロセス解釈がしやすくなります。

データ分析の観点から、統計学が活躍する例として、以下のようなことが挙げられます。

  • データの性質を客観的に表現することで、データの性質、規則性、パターンを見いだす
  • 全部調べきれない母集団から標本を抽出して調べることで、元の母集団の性質を推定する
  • 2つの現象(集団)が互いにどのように関係しているかを調ベる
  • 物事が正しいかどうかを一定の確率をもって判断する

統計学を用いたデータ分析の手法が数多く使われています。次回の記事(Part2)では、「統計分析」とは何か、具体的な統計分析の手法や事例を紹介して行きます。

 

執筆担当

ヤン ジャクリン

 

yan
データ分析官・データサイエンス講座の講師