統計学

機械学習より前の手法を知る 〜今更聞けないアソシエーション分析

機械学習より前に重宝されていたデータマイニングの手法

データサイエンスは単一の学問分野というよりも、複数の学問領域を組み合わせた複合的な分野です。そして、データ分析の手法は、AI・機械学習、従来から長く使用されてきた統計分析、可視化分析など、多岐に渡ります。

インターネットが普及した2000年以降はAI・機械学習の技術が発達し、ここ数年はさらに大きな躍進である生成AI が世界中から注目を浴びています。しかし、現在でも、AI・機械学習が普及する前のデータ分析手法が重宝されています。例えば、長く研究されてきた統計学に基づいた「データマイニング」の手法はマーケティングといったビジネスの場面で今もよく使われています。

今回の記事では、データマイニングのうちの「アソシエーション分析」を取り上げます。改めてこれを解説する理由の1つは、「データサイエンティスト検定(DS検定)」と関連します。執筆者が講座や書籍などで関わっているDS検定の試験では、「最先端の機械学習技術の陰に隠れてしまっている、忘れられそうな古き良きな手法」も出題されています。ある意味では、自動化が主役を占める最先端の技術よりも、従来の手法の方が、データ活用の基本の考え方を身につけるための土台となるので、DS検定のこのような姿勢がとても良いと感じております。

「アソシエーション分析」はそのようなDS検定のシラバスの主要トピックの1つです。名前を知っている方も多いと思いますが、いざ説明してと言われると、なかなかスムーズに出ないこともありますね。

アソシエーション分析は機械学習とは異なる統計分析(あるいは「データマイニング」)の手法の一種です。

アソシエーション分析の目的とアプローチ

アソシエーション分析の目的とアプローチを、機械学習との違いを通じて見ていきたいと思います。使用される技術においていくつかの重要な違いがあります。

目的・用途の違い

アソシエーション分析 データセット内の項目間の関係性やパターン、共起する項目などを発見することに焦点を当てています。
機械学習 大量なデータから自動的に汎用的なパターンを学習し、新しいデータに対して予測や分類を行うためのモデルを構築することが目的です。

アソシエーション分析は、小売業での市場分析でよく利用されます。例えば、ECサイトまたは店舗で、顧客が特定の商品を購入した場合、同時に同じ買い物カゴでどのような商品を購入する傾向があるかを分析します。

同じ売り上げ分析においても、機械学習の場合は、顧客の過去の購買履歴から、彼らが将来どの商品を購入する可能性が高いかを予測するモデルを構築します。

アプローチ(方法論)の違い

アソシエーション分析 特定のアルゴリズム(Apriori, FP-Growthなど)を用いてアソシエーションルール(例:「商品Aを購入する顧客は商品Bも購入する傾向がある」)を生成します。あるいは、シンプルに信頼度、支持度、リフト値などの指標を計算します。

トランザクションデータ(顧客が購入したアイテムのリスト)を扱うことが多いです。

生成されたルールは比較的解釈しやすく、ビジネスの意思決定に直接役立てることができます。

機械学習 教師あり学習(予測や分類)や教師なし学習(クラスタリングや次元削減)といった手法を用いて、データからパターンを学習し、新しいデータに対する予測や判断を行います。

幅広いデータ(数値、カテゴリー、テキスト、画像など)をモデルの特徴量とします。

モデルの複雑さによっては、結果の解釈が難しい場合があります(特に深層学習モデルなど)。

 

アソシエーション分析の詳細

アソシエーション分析は、事象や項目の間の関連性を見出すために使用される分析手法です。簡単にいうと、以下のような傾向やパターンです。

  • 「条件Aの時に、事象Bが起こる可能性が大きい」
  • 「事象Aが発生すると別の事象Bが一緒に発生しやすい」

これらをアソシエーション・ルールと呼びます。

企業や小売店が、顧客の購買行動(POSデータ、ECサイトの購買データや訪問履歴など)に関するデータを収集・分析します。勘に任せるのではなく、データに裏付けられた施策やマーケティング戦略を立てることができ、それによって売り上げの向上が期待できます。

  • 店舗やオンラインショップにおいて、レイアウトや商品の陳列の改善
  • ECサイトの構造や動線、併せて表示するコンテンツの工夫
  • 商品のレコメンドの精度改善
  • クーポン、チラシその他の販促ツール

さらに、データを活用したマーケティング戦略はその後の効果測定も行いやすいため、ビジネスの改善を継続しやすいです。

アソシエーション分析の具体例

簡単な具体例を見ていきましょう。

【例1】

あるインド料理のレストランにおける注文の履歴に基づいて、アソシエーション分析を行なった結果から、「辛口のカレーを注文するお客さんは、高い確率でラッシー(ヨーグルトとフルーツなどをブレンドしたインドの甘い飲み物)も注文する」という傾向が見えたとします。

この場合、事象Aと事象Bをそれぞれ以下のように定義すると、「事象Aが発生すると事象Bが発生する可能性が大きい」というアソシエーションルールをデータから抽出できたことになります。

  • 事象A:辛口のカレーを注文する
  • 事象B:ラッシーを注文する

このアソシエーションルールをどのように売り上げの向上に活用すればいいのでしょうか。このレストランのメニューの同じページに、辛口カレーとラッシーを掲載したり、辛口カレーとラッシーのお得なセットを用意したりすることが考えられます。

先程のインド料理の例は、カレーとラッシーの関連性は比較的わかりやすいのですが、明確ではない、気づきにくい関連性を抽出できた時にアソシエーション分析の価値がさらに目立ちます。

【例2】

次に、顧客に推薦する商品やサービスの情報を提供するレコメンド機能(レコメンデーション)のケースを考えてみましょう。

「商品Aを購入したお客様は、こちら商品Bも一緒にお買い上げいただいています」「こちらの商品もご一緒にいかがですか?」「あなたにおすすめの動画はこちら」といった表記を目にすることがあるかと思います。

アソシエーション分析によって商品同士の繋がりや顧客がどのような商品の組み合わせで購入する傾向にあるかを抽出できれば、レコメンド機能の精度向上、オンライン販売の売上向上が期待できます。

例えば、条件と事象をそれぞれ以下のように定義すると、「ある条件のもとで、この事象が発生する可能性が大きい」というアソシエーションルールを抽出できたことになります。

  • 条件:佐藤さんが商品Aを購入した
  • 事象:佐藤さんは1ヶ月以内に商品Bも購入する

しかも、一見すると関連性が見当たらないような商品同士でも、アソシエーション分析を試してみると、実はこれまで見えていなかった隠れ傾向を可視化できて、これまでとは異なる方向性から改善を図れることもあります。

商品の他に、ECサイトの訪問数に分析にも適用可能です。サイト訪問者が同時に見る商品ページの組み合わせを分析し、その結果を関連ページとして優先的にサイト表示する仕組みを構築することも、購入数の増加を狙う作戦になり得ます。

(補足)ある商品を販売する際に、他の商品を一緒にすすめるというクロスセルの他に、アップセールも行うことができます。アップセルとは「よりグレードの高い商品を買ってもらうことで、売上アップを図る手法」です。「この商品を購入する層の顧客は、このグレードの商品を購入する可能性が高い」などが判明すれば、アップセルによってこれまでよりもワンランク上の商品を提案しやすくなります。

「おみつとビール」の例をご存知でしょうか

アソシエーション分析の有名な例として、「おむつとビール」があります。アメリカのドラッグストアで収集した膨大な購買情報をもとにデータマイニングを行った結果、「おむつとビールが同時に買われる傾向にある」というルールが見つかりました。これはおむつとビールの棚を近づければ売上アップにつながる可能性を示してくれます。

一見、赤ちゃん用品と大人の嗜好品は全く無関係に思われるが、このように直感では思いつきにくい「価値のある情報(インサイト)」をデータから見つけることがデータマイニングの効果です。

実際、上記のルールは、金曜日の17~19時に来店する30~40代の男性を対象とします。このことから「この地域に住む30~40代の男性は赤ちゃんがいる人が多く、かつビールが好きで習慣的に飲む傾向にある」と解釈ができます。あるいは、「17~19時という時間帯が目立つのは、仕事を終えた後、帰宅前に買い物に来ている可能性が高い」とも推測できます。ここで一種の仮説を立てていることになります。

アソシエーション分析と類似した分析手法

アソシエーション分析と同様に、マーケティングで用いられるデータ分析手法として、「バスケット分析」と「ABC分析」が挙げられます。

バスケット分析とは

バスケット分析とは、「ある商品と併せて購入される可能性が高い商品はどれか?」を導くことに特化した分析手法といえます。つまり、顧客の買い物かご(ショッピングバスケット)の中身を調べます。バスケット分析はアソシエーション分析の一部と考えることができます。バスケット分析の場合、「商品購入」を対象として指定するのが特徴です。一方で、アソシエーション分析は「商品購入」だけでなく「ウエブサイト訪問」など様々な顧客の行動履歴が対象事象になり得えます。

ABC分析とは

ABC分析とは、商品を、売上が高い順に棒グラフとして並べて、その棒グラフの上で各商品の売上構成比を示す折れ線グラフを重ねます。商品を総売り上げを占める割合が大きい順から、Aランク、Bランク、Cランク、と分けます。

通常、「Aランク」は売上構成比の大半を占めている「特によく売れていて」商品(典型的に売上の70%程度)とします。「Bランク」を、定番商品など一定の売上がある商品(典型的に売上の25%程度)とし、「Cランク」をあまり売れていない商品(典型的に売上の5%程度)とします。

ABC分析の結果に基づいて、「売上を大きく占める商品」あるいは「現在売上が低く力をもっと入れるべき商品」を特定することができ、それによって販促の戦略、製造と在庫の管理を見直すことができます。例えば、重要なAランクの商品は定期的な仕入れが必要です。Bランクの商品をAランクに上げるための戦略を練ることがあります。そして、Cランクの商品は利益率が低く管理コストが高い場合に廃盤を検討する可能性も出てきます。

 

いかがでしたか?
使い道を容易に想像できる、わかりやすい従来の分析手法の大切さをわかっていただけたでしょうか。

後続の記事では、アソシエーション分析で使用される重要な指標について解説します。
執筆者:ヤン ジャクリン (GRI分析官、picture academy講師)

yan
データ分析官・データサイエンス講座の講師