データサイエンス

エクセルで出来るデータ分析の基本とは? – 『一億人のための統計解析』

データ分析のプロセスがわかりやすく書かれているので、誰でもある程度の分析にチャレンジできる内容。EXCELしか使えない人、統計を知らない人の最初の一冊にはオススメできる。しかし、重回帰分析程度しか紹介されていないので、もう少し知りたい人はすぐに次の本に移ったほうが良い。

第1章 統計解析で課題を解決するためのフレームワーク

・解析の正しい進め方 価値ある分析を行うための3つのポイント
  • アウトカム・解析単位・説明変数を決めれば解析の方針が自然と決まる。
  • 総当たりだと10,000通り見るので非効率。仮説だと1しか見ないので外れがち。
  • アウトカムから見ると筋のよさそうな10~100個を見るだけでいい。
・利益に直結するものを決める アウトカム
  • 得られたデータのうち、利益に直結する指標がアウトカム。
  • 売り上げやコストは、アウトカムの有力な候補。
  • アウトカムを最初に設定することで、関連性を検討する候補を減らせる。
・着目すべき分析対象を決める 解析単位
  • 解析単位はアウトカムに影響を与える「違い」を導き出す単位。
  • アウトカムをいくつかの解析単位に分解してみる。
  • 顧客やスタッフ、支店、期間などが解析単位の候補。
  • 解析単位には少なくとも数十のデータが必要。
  • 施策が打ちやすく説明変数が豊富な解析単位が望ましい。
・違いを生み出す「特徴」を洗い出す 説明変数
  • 解析単位の特徴、属性が説明変数。
  • アウトカムと説明変数の関係が当たり前すぎるときは、「割合に直す」。
・解析手法は自動的に決まる 質的なデータと量的なデータ
  • アウトカム、説明変数がそれぞれ質的なデータなのか量的なデータなのか考える。
  • アウトカム、説明変数の組み合わせに応じて、適切な解析手法を選ぶ。

第2章 仕事で使う統計解析【初級編】

Case1:和食レストランチェーンの売り上げを増やすには?
  • 今回のアウトカムは「過去3ヶ月間の夜間帯総利用金額」
  • 解析単位は「顧客」、説明変数は「アウトカム以外の全ての項目」
  • ここの説明変数とアウトカムの関係性を調べるために「クロス集計」「t検定」「回帰分析」という手法を使う。
・分析1:顧客の性別や家族構成は売り上げに影響するか?
  • ピボットテーブルを使い男女の利用金額の”平均”をクロス集計。
  • 集計した結果が確かなのかを「t検定」で「p値」を求め判断する。
・分析2:来店回数と利用金額の間にはどんな関係があるか?
  • 量的なデータ同士の関係性を見るためには散布図を使う。
  • 近似曲線を描くことで説明変数とアウトカムの関係を推定できる。
  • 回帰係数がどのくらい信用できるかは、「p値」で確認。
  • 当たり前のことを分析しない。
・分析3:重回帰分析を行うためのダミー変数を準備する。
  • IF関数を使い、質的な説明変数のダミー変数を作る。
  • ダミー変数に対して回帰分析を行う。
  • 3カテゴリ以上ある説明変数には、基準カテゴリを設けてダミー変数化。
・分析4:売り上げに影響を与えている複数の要因を洗い出す。
  • 重回帰分析を行うことで、単回帰分析よりも正確に説明変数とアウトカムの関係を推定できる。
・報告:売り上げを向上させるためにどんな手を打つべきか?
  • 施策をうった店舗と通常店舗の売り上げを比較する。

第3章 仕事で使う統計解析【実践編】

Case2:事務機器販売の営業戦略を立てる。
  • アウトカムは「売り上げ」、解析単位は「スタッフ」
  • 売り上げのよいスタッフとそうでないスタッフの違いを明らかにする。
  • スタッフを特徴付けるためのデータを社内で集める。
  • データをスタッフ単位で集計しなおす。
・分析1:受注単位になっている売り上げ利益を、スタッフ単位で集計しなおす。
  • ピボットテーブルを使ってスタッフ単位に表を集計しなおす。
  • 「いくら」ではなく、「どれだけの割合」と考えれば特徴が見えてくることもある。
  • 複数のピボットテーブルを使った場合、解析単位となる項目にズレがないかをIF関数とフィルターを組み合わせることで効率的にチェックできる。
・分析2:売り上げ、採用時試験、ストレスチェックのデータを結合する。
  • VLOOKUP関数を活用し、データをひとつの表にまとめる。
  • 重回帰分析をするためには、他の説明変数の値から完全に予測される説明変数が存在してはいけない。そうした組があった場合はいくつかの説明変数を除外する。
・分析3売り上げに影響するスタッフごとの特徴を明らかにする。
  • Excelの重回帰分析ツールで一度に解析できる説明変数は15個まで。
  • 「p値」が0.15未満の説明変数を除外し、候補を使い切るまで重回帰分析を繰り返す。
・報告:成果を挙げているのはどんなスタッフか?
Case3:情シスの手助けなしで顧客行動の分析を行う
  • 今回の解析単位は「ユーザー」、アウトカムは「売り上げ」
  • アウトカムや説明変数として十分なデータが存在しないときは、外部のデータの入手方法を考える。また、複数データの紐付け方法を検討する。
分析1:ページ種別ごとのアクセス回数を重回帰分析にかける。
  • 合計アクセス回数は他の説明変数から完全に予測できるので除外する。
・報告:どんな行動を取るユーザーの売り上げが大きいのか?
  • 関連性が見えなかったという情報も、大きな手がかりになりうる。
Case4:画像処理機器の販売台数を予測する。
    • アウトカムは「出荷台数」、解析単位は「月」

「1ヶ月前の出荷台数」という説明変数を用意する。

分析1:月ごとの特徴と過去の出荷台数を説明変数にする。
  • 1~12月までのダミー変数を用意する。
  • 1ヶ月前~12ヶ月前の出荷台数を、行をずらしてコピーする。
  • 全ての説明変数が揃わない行は削除しておく。
  • 「普通」の月はどれかを、ピボットテーブルで見つける。
分析2:月ごとのダミー変数と出荷台数で重回帰分析を行う。
  • 月ごとのダミー、過去の出荷台数から、変数選択法にしたがって15個以内にする。
分析3:将来の出荷台数を予測する。
  • すでに存在する実測値と予測値を比較することで、予測モデルの精度を事前に検証する。
・報告:どのくらいの在庫バッファを用意すれば、機会損失のリスクを抑えられるのか?

第4章 仕事で使う統計解析【上級編】

・進化した活用術1:データ結合を効率化する。
  • Power Queryを使って選択範囲をデータベースとして扱えるようにする。
    データベース同士の結合などの処理を簡単な操作で行える。
・進化した活用術2:データマイニング機能を使った重回帰分析
  • 説明変数が15個までという制約がなくなる。
    互いに影響しあう説明変数の組み合わせを考慮しなくてもよくなる。
・進化した活用術3:質的なアウトカムの分析を行うナイーブベイズ分析
  • 主要な影響元の分析によって、アウトカムが質的なデータの場合の分析が行える。
  • ダミー変数化などを行い、あらかじめ質的なアウトカムを用意しておく。
  • 見るべきカテゴリごとの割合の集計表を絞り込む上でナイーブベイズ分類は便利。
・進化した活用術4:アウトカムに影響を与えているパターンを分析する
  • どのような説明変数を用いてクラスターを作れば分析に使えるかを検討する。
  • クラスターの数を3~7個に絞り込む。
  • 各クラスターが表している特徴を解釈する。
・進化した活用術5:時系列分析をスピーディに行う
  • データマイニング機能の予測ツールを使うと、簡単に時系列予測が行える。
  • 実際の業務では重回帰分析を使った手法も両方検討したほうがよい。
・進化した活用術6:分析結果のビジュアライゼーション
  • Power Viewでは、解析単位やアウトカムを切り替えてスピーディな分析が可能。
  • アニメーションなどを活用した効果的なプレゼンテーションを行える。

レビュー(amazon.co.jpより抜粋)

好意的なレビュー
  • 初心者の方が、難しい言葉などに心を折られることなく、基礎を学び、実務で困らない程度まで統計作業ができるようになる本
  • 統計はわかりませんが、データはいじります。そして、これはそんな私でもそれなりの結果と理解が得る事が出来ました。
  • ビジネスでExcelを活用した統計処理のとても心強いバイブルになる一冊。図解も多いので説明も直感的で分かりやすく、かつ、初歩的過ぎず、実践で活用出来る内容でとても良いと思います。
批判的なレビュー
  • 一見わかりやすいが、専門知識を持ってよむと「それ違うんじゃないの?」と言いたくなる記述が目立つ。
  • 本書を手を動かしながら通読したとしても統計学を理解したとはいえないと思われる.説明が足りない部分としては,たとえば,単回帰分析と重回帰分析の違いや使い分け方についての記述が少ないと感じた。
  • 本書ではウォーミングアップ程度に雰囲気を掴んで,別の本に行くのがよい。