本記事では、『データサイエンティスト検定™ リテラシーレベル』(略称:DS検定™★)の出題内容のうち、「数学・統計学」に関して受験者様の悩みにお答えしたいと思います。
執筆者は、講師としてDS検定に関する教育コンテンツを提供させていただいています、現在DS検定の教科書を執筆中です。
同じDi-Liteに入る G検定(ジェネラリスト検定)の「緑本」も刊行させていただいており、おかげさまで2024年1月に第2版を世の中に送り出すことができました。
DS検定には数学と統計学が出る?
「データサイエンティスト検定には、数学がどれくらい出題されるのか」というご質問をよくいただきます。
まず結論から、「数学と統計学の能力が不可欠となる問題は、受験者が予想以上に出ると思ってください」とお答えします。
DS検定には三大分野(データサイエンス、データエンジニアリング、ビジネス)があり、「数学・統計学」という分野はありませんね。
DS検定は直接的な数学の試験ではないにしても、データやデータ処理のメカニズムを理解するために「線形代数」「微分・ 積分」「統計学」に関する基礎的な理解は不可欠です。
実は「データサイエンス」の分野の中からは、以下のような問題が出題されることが少なくありません。
- データが与えられ、数学と統計学を駆使してそのデータに何らかの処理を実施して、データの性質に関する質問に答える
- 純粋な数学または統計学の問題を解く
①の方は、どちらかというと、データ処理やデータの扱い方に重点をおいていて、しかし、数学・統計学を操れないと、要求されている数値の処理ができないというイメージです。①と②では6:4の出題割合の印象を感じます(明確な統計をとった訳では無いのでご了承ください)。
では、どのようなレベルが出るのでしょうか。
純粋な数学と統計学の問題に関しては、基礎的なスキルとして高校の数学3Cまでのスキルがほとんどです。例えば、微分積分はたまに出ますが、これは高校の数学2Bまでの内容であり、行列やベクトルはは高校の数学2Bまたは3Cに入ります。他に高校数学の確率や組み合わせの問題もよく出題されます。統計学に関しては、簡単な統計処理であれば、中学/高校数学の範囲内でできる処理のことが多いです。一方、仮説検定などは大学初年度で勉強する内容と思われます。
以下、「数学・統計学」を「数理統計学」と呼ぶことがあります。
DS検定の数学・統計学への有効な対策
上記で挙げたような問題をほとんど解けないとなると、DS 検定の合格確率にかなり大きく響くと思っています。しかし別の視点から考えると、これらの問題は、DS検定の他の分野に比べて、問題のパターンが比較的に明らかで普遍性があり、範囲と形式が限定されているように感じます。そういう意味では、落としてはもったいない、確実に点を狙いたい部分です。出題傾向を把握し、しっかり対策すれば点数を取りやすく、合格への貢献度が高いと思います。
ただでさえ、演習が不足しがちな「数理・統計学」なので、弊社で出している教材では、データサイエンス分野の一領域として扱うのではなく、数理統計学の章を新設し、数理統計学に徹底的に対策できる題材をご用意しています。
データサイエンティスト検定 最強の合格講座
GRIの教材では、以下の項目を特に重点を置いて、重点解説と演習の繰り返しでお伝えしております。
- 統計学の基礎
- 記述統計学と推測統計学
- 基礎統計量とその使い分け(平均値、中央値、最頻値)
- データの広がりを示す指標(分散、標準偏差)
- 母集団から標本の無作為抽出(非復元/復元、層別抽出法、多段抽出法)
- 確率と組み合わせ
- 統計的仮説検定
- 母数と推定量、統計的推定
- 推定統計量の偏り、自由度、不偏分散
- 点推定と区間推定
- 例題で学ぶ仮説と検定(帰無仮説、対立仮説)
- 確率分布と検定統計量(Z分布、正規分布、t分布)
- 有意水準、信頼区間、P値
- 第1種の過誤、第2種の過誤
- 二変数間の関係性
- 共分散、相関係数
- 相関と因果関係の違い、擬似相関、交絡因子
また、純粋な数学の問題(ベクトル・行列の計算、偏微分など)は練習問題と模擬試験で対策をしていただいています。
執筆中の教科書から例題を1問抜粋いたします。
【例題】
標本調査に基づいて、全社員に対する推定を行った場合、点推定として、最も適切な選択肢を1つ選べ。
- 「社員の1週間で趣味に使う時間は最小で2時間、最大で18時間」
- 「社員の1週間で趣味に使う時間はほとんどの場合5時間を超えている」
- 「社員の1週間で趣味に使う時間の平均はおおよそ9時間であろう」
- 「社員の1週間で趣味に使う時間の平均は95%の確率で7時間と12時間の間にある」
公式シラバスの数学・統計学の出題項目を見ると、思わずめまいを起こすくらい数多くあると思われます。でも、大丈夫です。これらが全て一回の試験に出る訳ではありません。限られた問題数(90問)にそんなにたくさん入りきれません。あくまでも執筆者の解釈ですが、数学に限らず、このシラバスの意義は「これが試験に出るぞ!」ということだけではなく、「データサイエンス人材に必要と思われる知識」を提示することです。正直なところ、我々いわゆるデータサイエンティストでさえ、このシラバス項目の中で忘れているものや今すぐに解けと言われたら正しくできないものもなくはありません。
話を試験対策の方に戻しましょう。数学が元から苦手とされる方や、これまで数学をあまり必要としていなかった文系出身の方にとって、短時間で数学の能力を劇的にアップするのは難しいでしょう。
DS 検定の対策を1、2ヶ月でしようとする際に、高校数学の教科書数冊を端から端まで基礎から勉強することは現実的とは言いがたいです。試験対策や日常的な数学力の活用の観点からすると、数学の理論を根本から理解しようとしなくても大丈夫です。
ではどうしたらいいかというと、試験に合格するのがまず第一目的としている受験生は、まずは頻出の問題や「対策をすれば確実に点数を取れそう」なタイプの問題から演習を重ねていけばいいと思います。最初は苦戦しても、解いていくうちに解法のパターンに気がつき慣れてきます。
弊社の教材では、試験に対応した実践的な数学の使い方を伝えるために、例題とその解説の形式で学習を進めていきます。ぜひ手を動かして繰り返し解いてみましょう。
DS検定の合格が第一目標であれば、まずは弊社の教材に限らず、DS検定に特化した講座・対策本などを使って演習を徹底的に行えば、DS検定に出る数学・統計学の傾向をつかむことができ、十分な試験対策になります。
そして、勉強していく中で特定の分野の数学の理解が足りていないと思ったら、その都度別の数学に特化した参考書で補えばよいのです。
DS検定の対策の側で数学をもう少し補助的に勉強したい方に、以下の教材の併用をおすすめします。これらは豊富な解説がつく数学の演習の教材であり、DS検定の出題と大きく重なります。
これらの教材は具体的に以下の 4 つの学習分野から構成されます。
- データサイエンスを支える計算能力と数学的理論の理解
- 機械学習・深層学習の数学的理論の理解
- アルゴリズム・プログラミングに必要な数学リテラシー
- ビジネスにおいて数学技能を活用する能力
データサイエンス数学ストラテジスト[中級] 最強の合格問題集
中高レベルの数学・統計学、およびビジネスのための数学関連知識を演習形式で学びます。
データサイエンス数学ストラテジスト[上級] 最強の合格問題集
データサイエンスの基盤となる数学(確率統計・ 微分、積分、線形代数・三角関数、図形問題など)、 さらに実践的な数学(様々な機械学習の手法・ア ルゴリズム、プログラミングなど)を演習形式で 学びます。