データサイエンス

はじめてのデータ活用プロジェクトでのモデル作りのタスク

データ活用プロジェクトでAIモデルを短期間で構築するタスクを、どのように規定すべきか?この観点が、新入社員や転職してきた人は、抜けていることが多いです。プロとして研究やデータサイエンス業務を続けるには、モデル構築の計画立案スキルは身に付けなければいけない技術になります。

はじめてのAI活用の難しさ

慣れている人にとっては、モデル構築のタスクは当たり前のものですが、不慣れな人にとっては暗中模索の作業です。よって、全く計画を立てられないということになります。モデルを作るために何をすれば良いか分からず、計画を立てられない。計画のないプロジェクトに上司は「Yes」と言えない。仮に上司も不慣れであれば、どのように仕事を進めるべきか、上手くアドバイスすることが難しい。これが、AI活用の難しさの第一歩です。

プロジェクトの開始と目標設定

はじめてのモデル構築の目標を、自信がないためか、「XXモデルを構築すること」としたくなるかもしれません。これは、ビジネスマンとしてNGです。新しいプロジェクトで「何かの作業をする」という目標は、成果として測定できないためマネージャはOKを出しません。とは言え、XX予測モデルを構築し「利益率を5%向上させる」という目標は、はじめてモデル構築する人にとっては、根拠のない無意味な目標で、単なる願望です。また、目標の期間設定をしないため、非常に危険です。AIモデルの精度はデータの特性に大きく依存するため、やってみなければ分からないケースが多く、精度が判明するまで時間がかかることもあります。ただし、この事実を頼りにするあまり、無計画では、ダラダラと長期間のPoC(実証実験)を行った末、モデルはできたが結局は使いものにならないことが分かった、という結果に陥ることもあります。作業している本人は真面目な努力を積み重ねたので、努力を認めて欲しいかもしれないですが、「使い物にならないモデルかの判別を最小期間で行う努力をしたか?」という観点ではゼロ点と評価されます。

はじめてのモデル構築のプロジェクトでは、例えば目標を「1か月先、あるいは2か月先にモデルが使い物になる可能性があるかの判定基準を提供する」とするのが無難です。期間設定は、データの準備の時間に応じて変動することが多いです。最悪、可能性さえ分からないこともありますが、それ以上、その人に、そのタスクを任せるのは辞める決断をできます。

初期目標を達成するためのチェックリスト

初期モデルで検証をするためには、モデルに関して下記の次元にてデータの切り口を明確化する必要があります

  • ユーザ: 例えば、新規会員なのか、優良顧客なのか?
  • 商品次元: ユーザの使っている対象商品やサービス
  • 地域次元: 対象地域、購入ルート、ECなど
  • 時間次元: データ参照期間、ターゲット期間

上記の次元にて、ターゲットと特徴量の関係を明確にし、精度検証の方法を確立します

これら初期モデルを作るためには、データ分析を行い、なぜそのモデルにすべきかの理由(予測モデル構築の目的の明確化)を明らかにする必要があります。目的の典型例は、新たな顧客創造、ユーザの顧客満足向上、効果的な施策立案による利益拡大、業務自動化による省力化や高速化などが挙げられます。データ分析を実施して最大成果の範囲が見えてきますが、多くの場合、事後的に目的が明確化されることも多いです。

モデルを作成するためのタスクは下記の通りですが、まとめて考えることが多く、プロジェクトの進行と共に各タスクを詳細化して、先行タスクからやり直すことを繰り返します。

  • データ収集: 必要データの洗い出しとデータソースの特定、データ抽出方法の確定
  • データ整形: 整形ツールの選定、データクレンジング、フィルタ条件、結合条件
  • モデル作成: 機械学習であれば一枚表の作成、機械学習モデルの訓練実施
  • モデル検証: モデルは意味のあるものか?精度の検証、重要特徴量の確認

スプリントの作成

PoC実験をする際も、アジャイル開発手法のスプリント管理は有用です。1~2か月先のモデル作成までの目標、そこにたどり着くまでの1~2週間単位の目標、直近の目標を達成するためのタスクに分解を行います。スプリントを1~2週間の単位で設定し、各自が割り当てられたタスクを報告し、適宜微修正しながらプロジェクトを進行させます。時間は不可逆なので、間違えたら時間ロスが大きい不確かな要素を、できるだけ早期に分析により解決します。この不確かな要素の選定が、最も重要なスキルになり、経験と共に身に付けるべき内容です。

モデル作成の流れとその後

初期モデルを納得できるレベルと検証できたら、モデルの運用へと流れます。モデル運用自体が、大きめのテーマなので別記事にて後述しますが、こちらは、より高頻度のサイクルで実行していきます。

f:id:gri-blog:20200906160858j:plain

古幡征史