データサイエンス

ビジネスデータとAI技術(機械学習)の相性の良さ ~前半~

適切な問いとは

AI技術を上手に利用するための最重要ポイントは適切な問いを作ることです。

現状のAIが返答に困る質問は、このようなものです。Hey Siri,

・優良顧客になりそうな見込み客を教えて?

・どうしたら優良顧客を増やせるの?

先ほどのAIが困る質問に手を加え、良い精度を実証できている手法があります。それは「機械学習」を用いた手法で、以下のような付帯事項を付けます。

・大量の顧客リスト(属性、過去の行動、趣味、嗜好のデータ)と
優良顧客の条件を教える

この付帯条件と共に機械学習を活用する手順を紹介します。
解きたい問いを下記に設定

・優良顧客の態度変容の予測

この問いに答える機械学習モデルを構築するために、図1(訓練データの例)のような表形式の顧客リストを訓練データとして用意します。訓練データは顧客IDごとの例題と回答の組み合わせのようなもので、例題は顧客IDごとに優良顧客を見分けられそうな特徴量データ(顧客ごとの属性、過去の行動、趣味、嗜好など)で構成され、その回答は正解データ(それぞれの顧客が態度変容したか否かの2種類を示す優良顧客フラグ)で表現されます。

訓練により、特徴量を与えられたらどのように回答を提示する関係性(法則)をモデル化します。この態度変容を予測する機械学習モデルを使うと、図2(推論データの例)のように新しい特徴量データがあれば優良顧客の態度変容予測(推論)を得ることができます。

 

f:id:gri-blog:20200222155525j:plain
図1(訓練データの例)
 
f:id:gri-blog:20200222160147j:plain
図2(推論データの例)

このような機械学習モデルがビジネスの実践現場に使えるようになってきたのは様々な要因が絡み合っています。ここでは、6つの理由と共に説明をしていきます。

1.未来の事象の予測
第1点目として、機械学習は過去のデータを利用して未来の事象に焦点を当てていることです。従来のマーケティング現場でのデータ活用の代表例であるRFM分析やデシル分析は、優良顧客の特定やセグメント分けによる顧客の特徴を明らかにできます。ただし、顧客は製品やサービスの購入体験済みなので、全て過去の話に閉じています。つまり、これからの顧客行動が分からない物足りなさがあります。

一方、機械学習モデルでは正解データと特徴量に時間差を付けることにより、将来の予測をモデル化できます。学習済みの機械学習モデルは、顧客の購入体験状況に応じた未来の予期を表現したものとなります。

f:id:gri-blog:20200222164034j:plain
図3(未来の予期)

 

2. 高速化による顧客理解の多角化

第2点目は、超高速に高精度で学習できる機械学習アルゴリズムが開発されたことが挙げられます。特徴量と正解データの関係性を学習する方法は、いくらでも存在しており、高精度な予測モデルを構築するには、最近までは計算時間がとてもかかるものでした。例えば高性能サーバで夜間バッチでも学習が終わらないようなことは、よくありました。

高速に処理ができるということは、多くの種類の特徴量を機械学習モデルに使えることを意味します。より多くの特徴量を使えば、顧客の特徴を多角的に検討できるので、より立体的に顧客を理解できることになり、より良い施策立案できる可能性が広がります。

3. ETLツールによる前処理の現場への浸透

第3点目は、機械学習用のデータを準備しやすくなった点が挙げられます。企業と顧客の接点は大幅に増え、顧客IDと共にCRM、EC、コールセンター、SCM、基幹システム、位置情報収集システムなどにログとして保存されるようになりました。これらのログを組み合わせるだけでなく、政府の提供しているパブリック・データや気象データなどを付与することも一般的になってきました。これらのログをまとめて扱うのは、SQLなどでデータを取り出し、Java、RやPythonなどで前処理のためのプログラムをエンジニア素養のある人が書くのが主流でした。これらは機械学習プロジェクトの消費時間の80%と呼ばれており、ビジネスのドメイン知識を有していないエンジニアには、ビジネスの背景をデータから理解する時間も多く費やす必要があります。

最近では、データの前処理が得意なETLツール(図4)が広まり、現場の施策立案担当者が特徴量の準備を簡単にできるようになりました。例えば、AlteryxやTableau Prepなどを使うとGUIの操作で、多様なソースシステム(サイトアクセス解析ツール、CRMシステム、クラウドサービス、RDBMS、業務システム、NoSQL、Hadoop)からデータを取得し、データの整形処理ができます。これらのツール活用で大幅な時間短縮が見込まれます。よって、今まで何年もビジネスをやってきて、こんな短時間で多角的に顧客の特徴を理解できるとは思わなかったという感想が出てきます。

f:id:gri-blog:20200222170754j:plain
図4(ETLツールの位置付け)

後半に続く