データサイエンス

データ基盤を構築する前に整理・検討しておきたいコト

昨今のデータ基盤構築ブーム(?)に伴い、弊社でもさまざまな業種のクライアント様に対してデータ基盤構築をサポートさせていただく機会が増えてきました。本記事ではデータ基盤構築作業を比較的スムーズに進め、データ活用文化を促進させるために、事前に整理・検討しておきたいポイントを簡潔にご共有します!

事前に整理・検討しておきたいコト

収集対象データ一覧の作成

データ基盤を用いて達成したいコト・ビジョンをもとに、どのデータを優先的に取得するか、関係者間で共通認識をもつために収集対象データの一覧を作成します。データ名だけを記載するのではなくソースシステムやシステム管理者、レコード数などデータに関する諸情報も明記しておくのがbetterです。

利用するサービス・ツールの選定

何のためにどのサービス・ツールを利用するかを整理します。例えばDWHですと、BigQueryやSnowflakeなどが選択肢に入ってきます。また、データ収集・整形のためのELT/ETLツールに関しては弊社の場合、Matillionというツールをご提案させていただくケースが多いです。

アーキテクチャ図の作成

「どのシステムからどのデータを収集するか?」や「収集したデータをどう管理・活用するか?」といったデータ基盤の全体像を関係者間で把握しやすくするために、アーキテクチャ図を作成します。

データフロー図の作成

どのシステムからどのデータをどうやって収集するかを表したデータフロー図を作成します。この図や収集対象データ一覧をもとにデータエンジニアがデータ収集に関する設定を進めていきます。

リージョン・ゾーンの選定

Google CloudやAWSなどのPaaSを用いる場合、DWHやストレージ等のリソースに対してリージョンやゾーンを指定する必要があります。ここではクライアント個々のニーズに沿って選定することが重要になります。
例)レイテンシを重要視される場合は東京リージョンが有力候補

各種階層構造と命名規則の検討

将来、新しい事業やデータ等が入ってくることを想定しながら、それに耐えうる階層構造と命名規則を考える必要があります。

データ基盤上での個人データの取り扱い方針

データ基盤上に個人データが入ってくる場合、特定のユーザー以外は個人情報を閲覧できないようにするために各サービスでどのような管理になるか、あらかじめ検討しておきます。

各種リソースへのアクセス制御

各ユーザーに対して必要最低限の権限を付与するためにはどのように管理するのが好ましいか検討します。

バックアップの方針

バックアップ対象のデータを選定した上で、適切な管理方法を検討します。

フェーズごとの人的体制の検討

初期・中期・成熟期といったような各フェーズごとにどんな役割の人がどれくらい必要になるかあらかじめ検討し、これをもとに採用・育成の方針を立てていきます。

サービスレベルの定義

簡単にデータにアクセスできる利便性と整備されたデータが使える安心感があるデータ基盤をユーザーに提供するためにサービスの品質水準を定義します。例えば「AM4時までに前日の購買ログの集計が完了している」というサービスレベルを設定した場合には、ある期間の内、サービスレベルを満たした日数をカウントし、品質の保持に役立てます。

メタデータの管理方針

データに対する調査コストを削減するためにはメタデータ(≒データの説明書)が必要になります。構築前の段階ではそのメタデータをどのようなサービス・ツールを利用してどう管理していくかあらかじめ検討しておくのがbetterです。

さいごに

データ基盤は構築するだけではビジネス上の価値は生まれず、適切な運用・活用があって初めてその価値を発揮します。弊社では価値を発揮するところまでを見据えた上でデータ基盤の構築をサポートさせていただいております。ご興味をお持ちの方がいらっしゃいましたらお気軽にお問い合わせくださいm(__)m

mochizuki
データサイエンティスト。筋トレ、温泉、時々スキー。