DS検定

データサイエンティスト検定の攻略法大解説(2024年最新版)

DX推進が広がる中で、企業に蓄積されたデータを活用するニーズが増えるとともに、データを活用できる人材の需要は飛躍的に高まっています。別の側面から見ると、不足しがちなデータ人材の育成が緊急課題ではないでしょうか。

現在はデータサイエンス人材としてのキャリアアップの絶好な機会となります。しかし、企業側にとってデータを活用できる人材を見極める術は限られており、人材側にとって情報科学などの専門的な学科を卒業していない限り、志願先にスキルをアピールしづらいです。こうした課題の解決に向けて、データの解釈、処理、活用などに関する幅広いデータリテラシーを評価する「データサイエンティスト検定(DS検定)」が注目されています。

DS検定は、2024年中にシラバス(出題要項)が大きく変わることが知られています。そもそもこれまでの試験の問題も非公開となる中、さらに出題傾向が変化するとなると、不安を感じる受験者も少なくないかと思います。この記事では、最新の状況に沿ってDS検定の試験概要、資格取得のメリット、各出題分野の詳細などを解説します。

そして、後続の記事ではDS検定の難易度、「2024年にDS検定の出題傾向がどのように変わるのか」、そして、受験者の視点から「出題に伴う変化にどのように対応していけばよいのか」を含むおすすめの勉強方法を解説していきます。

DS検定の受験を検討中の方、まずは試験の概要を知りたい方は、ぜひ両方の記事を最後まで読んでみてください。

改めて、DS検定とは

『データサイエンティスト検定™ リテラシーレベル』(略称:DS検定®★、以下DS検定 )とは、一般社団法人データサイエンティスト協会(以下、DS協会)が実施する資格試験です。データサイエンティスト(アシスタント・レベル)に必要な基礎的な知識と実務能力を有していることを証明することが目的です。データサイエンティストを目指す人達とそれを必要とする産業界を結びつける1つの指針となることを目指しています。

DS協会の公式サイト

ここで、「データサイエンティスト」とは簡単にいうと、事業においてデータ活用を実行したり支援したりする人材を指しています。

2021年4月に発足したデジタルリテラシー協議会は、「全てのビジネスパーソンが共通して身につけるべきデジタルリテラシー範囲」として、「Di-Lite(ディーライト)」と定義しました。「Di-Lite」は2022年1月現在、「ITソフトウェア領域」、「数理・データサイエンス領域」、「AI・ディープラーニング領域」の3領域として定義されています。「数理・データサイエンス領域」に関して、データサイエンティスト協会が提供するDS検定の取得が推奨されています。

Di-Liteの参考

DS協会のスキルチェックリストのうち、★1レベルの範囲を中心に、「アシスタント・データサイエンティスト」に必要なスキルが定義されています。これらを、「データサイエンス力」「データエンジニアリング力」「ビジネス力」という3つの領域に分類しています(下図)。実際、データサイエンティストには、データ分析のスキルだけではなく、データ活用の環境を整備するために必要なインフラやソフトウェア、そしてデータを利用してビジネスを進めるための実践的な知識まで幅広い知識が求められます。つまり、DS検定を習得することで、ビジネスの中でデータサイエンスを活用するための、実践的な知識を身につけることができます。

出典

 

以下はスキルレベルを定義した表です。現時点、試験が行われているのは★1つの「見習いレベル」のみです。「見習いレベル」とはいえ、企業の中で働く新人データサイエンティストで、データ分析プロジェクトの中で与えられた役割をきちんと果たせることが期待される実務的なレベルです。

出典

 

DS検定の試験の概要

DS検定は2021年9月に第1回目が実施され、それ以来、データサイエンス人材育成の需要が高まるとともに、受験を検討する人が増えてきています。ここ数年は年に2回試験(春と秋)が実施されており、合格率は50%前後、合格ラインは80%前後です。

出題される問題は、大きく分けて「データサイエンス」、「データエンジニアリング」、「ビジネス」の分野に分かれています。より細かくいうと、数学や統計学、データ加工とデータ分析に関する実用的な知識、人工知能、データ活用に必要な法律の知識など、広範囲に及びます。これらの多くは、数値を読み解く力や、効率的な計算力、その結果から結論づける力が試されるのが特徴です。

問題が選択肢式になっているとはいえ、知識の暗記で解ける問題は少なく、知識の応用と計算力が試される問題が多いです。

DS検定の試験概要は以下にまとめられています。

試験概要
  • 問題数 90問程度
  • 試験時間:90分
  • 出題形式:選択式問題(4択)
  • 受験環境:全国の試験会場・CBT形式・持ち込み不可
出題範囲 ①DS協会のスキルチェックリストの3カテゴリ「データサイエンス力」「データエンジニアリング力」「ビジネス力」のの★1(見習いレベル)相当

②「数理・データサイエンス・AI教育(リテラシーレベル)におけるモデルカリキュラム」

受験料
  • 一般: 10,000円(税抜)
  • 学生:5,000円(税抜)
試験日程 通常年に2回(春・秋)

(参考)

  • 第1回:2021/9/11~9/30
  • 第2回:2022/6/10~6/30
  • 第3回:2022/11/15~12/5
  • 第4回:2023/6/3~6/25
  • 第5回:2023/11/11~12/3
  • 第6回:2024/3/9~3/31

 

DS検定の出題範囲

DS検定の出題範囲は、以下の2つのカリキュラムを統合したものです。

①DS協会のスキルチェックリストの3カテゴリ「データサイエンス力」「データエンジニアリング力」「ビジネス力」の★1(見習いレベル)相当

② 数理・データサイエンス・AI教育(リテラシーレベル)におけるモデルカリキュラム

出題範囲であるスキルチェックリストは随時更新されています。第6回の試験(2024年3月)までは、2021年に公開したスキルチェックリストver.4が適用されています。(※現在非公開)
2023年10月には、スキルチェックリストver.5が公開され、第7回の試験(時期未定)より適用されると発表されています。

出題範囲を把握し満遍なく、計画的に学習を進めることが重要です。データサイエンスの技術が常に進化していく中で、今後も出題内容も少しずつ変動する可能性があります。最新の動向に追いつきながらも、時代とともに変わらないデータサイエンスの基礎をしっかり身につけていただきたいです。

 

■DS検定の取得がおすすめな人

時折、「資格に合格しても、実務に役立たない」という声を聞くことがあります。DS検定などの資格試験に合格しても、即に一人前のデータサイエンティストとして独り立ちできるわけではありません。ただし、全ての物事には「はじまり」というものがあるのではないでしょうか。

基礎データリテラシーを身につけたい方、業務でデータを活用してデータ人材を目指したい方にとってはDS検定は適しており、DS検定に合格することは大切なスタート地点です。それは、キャリアを選択する幅を広げてくれる存在です。

DS検定は、データサイエンティストに必要な基礎的な知識と技能を幅広くカバーしています。そのため、DS検定の合格を目指して勉強することによって、自ずと幅広い知識を体系的に習得することができるようになります。しっかりと土台を作ることで、DS検定の先にある実践的なタスク(Python、実務データ処理、機械学習の実装、画像認識など)をスムーズに行えるようになるでしょう。また、社内・社外で、身に付けた知識を引き出して周囲を説得し、アイデアを提案しやすくなるでしょう。

 

先述の通り、デジタルリテラシー協議会はDS検定の学習範囲を、「すべてのビジネスパーソンが身につけるべきデジタルリテラシー」(Di-Lite)の1つとして定義しています。DS検定は、「データサイエンティストを目指すビジネスパーソン」に特におすすめの資格です。DS検定では、データサイエンスに関する技術的な知識だけでなく、データを活用したビジネス課題を解決する力も重視されます。実際のビジネスシーンに沿った問題も出題されるため、実務に活用できるスキルも習得できます。実際、「リスキリング」や「学び直し」の一環としてデータサイエンスの学習に励むビジネスパーソンが増えています。

次のような方にもおすすめの検定といえます。

  • データサイエンスの初学者で、体系的に学びたい方
  • データサイエンティストとしてのキャリアアップを目指すエンジニア
  • データサイエンスに興味があり、これからデータ活用に関する仕事に就きたい学生

これらの方にとって、DS検定の資格を取得すると、データサイエンスに関する入門レベルの知識を有する証明になります。データサイエンティストの求人市場は競争が激しく、DS検定の取得は他の候補者との差別化につながり、就職や転職やキャリアアップの際に強みとなります。

 

DS検定で求められる知識分野の詳細

DS協会では、データサイエンティストに必要とされる職能を以下の3つの領域に分類しています。

  • データサイエンス力
  • データエンジニアリング力
  • ビジネス力

それぞれの分野について、「(★1)」のスキルレベルに該当する具体的な項目について解説していきます。

参考:データサイエンティスト検定 リテラシーレベル

データサイエンス力

「データサイエンス」は、DS検定の中の最も出題範囲が広い分野です。データ分析や機械学習の基本概念、データの形式、データ加工、さらに画像分類、音声認識、時系列分析や自然言語処理など機械学習が応用される各領域に関しても基本事項を身につける必要があります。

詳細な項目として以下が挙げられます(一例のみ)。

  • データ確認とデータ理解、データの尺度、データのバイアス、データ可視化
  • 機械学習の基本概念、人工知能やディープラーニングとの関連
  • モデルの学習と予測の仕組み、モデルの構築と運用の流れ
  • 機械学習の各分野(教師あり学習、教師なし学習、半教師あり学習、回帰と分類)
  • データクレンジング、データ加工、特徴量エンジニアリング
  • 機械学習・データ分析の代表的な手法(線形回帰、ロジスティック回帰、決定木、SVM、アンサンブル学習、K-means、ニューラルネットワーク、アソシエーション分析など)
  • 学習済みモデルの評価、精度指標、ROC曲線、AUC、モデルのチューニング、ハイパーパラメータ
  • 画像・動画データ、音声データの保存形式、処理と解析、画像認識、音声認識
  • 自然言語処理(形態素解析、構文解析、意味解析、大規模言語モデルなど)
  • 時系列データの性質、時系列分析モデル
  • 生成AI(スキルチェックリストの新項目)
  • モデルの予測結果の解釈、局所的説明と大域的説明

 

以下の例題は、データ加工の知識を具体的なケースに応用させる問題です。

【例題】

複数のグループで構成されるイベントへの満足度アンケートの結果として、「参加者 ID」 「参加日付」「過去の同系列のイベント参加回数」「参加したグループ名称」「評価点数」「年 齢」からなるデータが得られた。このデータを分析する前に、どの項目をダミー変数に変換 すべきか。もっとも適切な選択肢を1つ選べ。

1.過去の同系列のイベント参加回数    2.参加日付

3. 参加したグループ名称         4.上記全て

 

統計学・数学

データから価値のある情報を得るためには、数学や統計学に対する理解が必要不可欠です。公式HP上掲載の試験範囲では、統計学と数学は、「データサイエンス」分野に含まれています。しかし、文系出身の方など、数学と統計学に対する抵抗を感じている受験者が多いことから、「数学・統計学」は「データサイエンス」の他の項目とは独立して、あたかも別の分野として対策するのがよいと感じます。そのため、執筆者が提供するDS検定の教材や書籍では、「数学・統計学」に特化した別の章を設けて、真剣に向き合っていただいています。

DS検定の試験では、純粋な数学または統計学の問題のほかに、上で述べた他のデータサイエンス分野の問題を解くための数学・統計学を要求されるものも多いです。したがって、「数学・統計学」に苦手意識を持つ方は時間を取ってしっかりと勉強する必要があります

統計学は、以下のような項目が出題されやすいです(一例のみ)。

  • 記述統計学と推測統計学
  • 基礎統計量(平均、分散など)
  • 母集団と標本抽出、統計的推定、仮説検定
  • 二変数間の関係性(共分散、相関係数、因果関係)
  • 高校レベルの微分・積分、線形代数の基礎

 

【例題】

統計学の一分野である記述統計学の特徴として、最も適切な選択肢を 1 つ選べ。
1.データの全量を調べるのが難しい時に便利に使える

2.データの特徴や傾向を直感的に捉えるのに使われる

3.確率の考え方を土台にしている

4.一部のデータを用いて集団全体の性質を推測する

 

データエンジニアリング力

ここでは、データを収集、処理、保管、運用するための技術、データ活用を支える環境づくり、システム開発、ITセキュリティなどをカバーします。

詳細な項目として以下が挙げられます(一例のみ)。

  • データ収集・データ抽出、データ構造、ウェブクローリング、スクレイピング
  • データの保管、ストレージ、データストア、データベース
  • テーブル定義、リレーショナルデータベース(RDB)、ER図、テーブルの正規化
  • SQL、noSQL、ソート処理、結合処理、前処理、マッピング処理、サンプリング処理、集計処理
  • データ基盤、クラウド、サーバー、通信技術、分散技術、データ転送、バックアップ、データ処理
  • セキュリティ上の注意点(機密性、完全性、可用性)、攻撃と防御、アクセス制御、デジタル署名、秘密鍵/公開鍵暗号方式、ハッシュ関数

 

試験の中で、リレーショナルデータベース(RDB)を操作する言語であるSQL(Structured Query Language)を用いて、実際にデータを操作する文法など、かなり具体的に問われることに驚く方が多いです。

【例題】

MySQL におけるデータの管理について、最も不適切な選択肢を 1 つ選べ。
1.テーブルを作成する時点でカラムごとにデータ型を指定する必要がある

2.文字列のデータのうち、固定長の文字列は VARCHAR 型と呼ばれる

3.真か偽かを示すデータ型は Boolean と呼ばれる

4.TIMESTAMP は日付と時間を示すデータ型

 

ビジネス力

ここでは、データから得られる知見をビジネスに応用するための知識を問われます。また、データ分析プロジェクトの進め方、契約の種別、データやAI技術に関する倫理や法律の注意事項もカバーしています。

詳細な項目として以下が挙げられます(一例のみ)。

  • ビジネス課題の抽出や解決力、ビジネスマインド、 ビジネスモデル、プレイヤー
  • 一次情報、二次情報、MECE、スコーピング
  • KPI、KGI、仮説の立案と検証、ドキュメンテーション、説明能力
  • 請負契約と準委任契約、PoC、アジャイル開発、ウォータフォール開発
  • 個人情報保護、公平性と透明性、説明責任、AI倫理、国内外のガイドライン

 

【例題】

AI システム開発の様式について、最も適切な選択肢を1つ選べ。

1.全体を設計してから開発を行うため、アジャイル開発を行うことに決めた。

2.短期間でプロトタイプを納品する必要があったため、アジャイル開発を行うことに決

めた。

3.最初から成果物の仕様と要件が明確に決まっているので、アジャイル開発を行うこと

に決めた。

4.機能単位ごとに開発をし、頻繁にテストを行う必要があるため、ウォーターフォール開発を行うことに決めた。

 

 

いかがでしたか?この記事を通じて、DS検定の試験科目とそれぞれの科目で求められる知識やスキルを伝えてきました。DS検定の受験を検討されている方が、具体的なイメージを持てるようになったことを願っています。

後続の記事では、DS検定の難易度、他の資格試験との差別化、スキルチェックリストver.5の登場に伴う対策、おすすめの勉強法について話をする予定です。それでは、次回またお会いしましょう。

 

 

 

 

yan
データ分析官・データサイエンス講座の講師