データサイエンス

【連載】記述的多変量解析 – 9つの分析手法を解説

header

1.概論

はじめに

まず「多変量解析」とはなんでしょうか。ここでは、多変量(複数の変数)を同時に扱う、単変量(一つの変数)の解析を繰り返すのではなく、複数の変数を同時に分析すること、としておきます。では「記述的」とは何でしょうか。以下で言う「記述」的手法を指す(「予測」的手法を含まない)としておきます。これから何回かにわたり、「記述的多変量解析」について紹介していきます。

予測と記述

ここで言う予測とは、別の表現をすると「おわりの言葉」(状況をつかんだうえで、予測する)です。単純には、予測したい変数が具体的に1つあり、この1つの変数を予測するために複数の変数を(同時に)使う場合の分析です。例えば、重回帰分析や数量化Ⅰ類、コンジョイント分析(実験計画法と分散分析)、少し変数変換などありますがロジスティック重回帰分析もこの類に含まれるでしょう 。判別分析あるいは数量化Ⅱ類、さらには正準相関分析も通常はここに含まれるでしょう。

一方で記述とは、別の表現をすると「はじめの言葉」(予測する前に、状況をつかむ)です。単純には、現状の把握をしたい場合の分析です。例えば、主成分分析や対応分析(コレスポンデンスアナリシス)、古典的な多次元尺度構成法(主座標分析など)、INDSCAL(インドスカル)モデルのような現代的MDS(エムディーエス/多次元尺度構成法)、クラスター分析(階層的方法(ward法(ウォード法))(非階層的方法(k-means法(ケーミーンズ法))、(探索的)因子分析(直交回転/斜交回転)などが含まれます。

恐らく、検証(確認)的因子分析やSEM(セム、共分散構造分析)は予測に入るのでしょう。またAIDあるいは決定木は、基本的には2変量の分析の繰り返しで、複数の変数を同時に分析するのとはやや違いますが、逆方向(葉から幹に向かうのではなくて、幹から葉に向かう/ばらばらのモノを一つにまとめていくのではなくて、全体(ひとつ)を順次2つないし複数に分けることを繰り返していく)の階層的クラスター分析であり、記述的手法の一つとも考えられます。

本連載では、「記述」的手法のうち、筆者になじみのある手法を紹介していきます。

予定

以下の9つの手法を中心に扱っていきます。

  • 主成分分析
  • (探索的)因子分析(直行回転)
  • (探索的)因子分析(斜交回転)
  • 対応分析(コレスポンデンスアナリシス)
  • クラスター分析(階層的)
  • クラスター分析(非階層的)
  • 現代的MDS(INDSCAL)
  • 決定木(逆方向の階層的クラスター分析)
  • テキストマイニング(形態素解析と対応分析)

この連載では計算の実行方法(ソフトウェアの扱い)ではなく、計算の中身(何をやっているのか)について紹介していく予定です。各手法について幅広く紹介することよりも、典型的なパターンに限定して「要するに(典型的には)何を計算しているのか」という点に絞って解説していきます。

参考文献

本連載で記述的な多変量解析の諸手法に触れていくのですが(予測的手法は触れません)、それだけでは多変量解析を理解するには内容的に不十分です 。以下に、極端に難解なものを避けて、代表的な本を僅かですが紹介しておきます。必要に応じて手に取ってみると良いと思います。

◆朝野煕彦(2000)入門多変量解析の実際,第2版.講談社.
多変量解析について、数学的ではないが、(必ずしも新しくないが)イメージで概観する本。

◆永田靖・棟近雅彦(2001)多変量解析入門.サイエンス社.
多変量解析について、イメージではないが、(やや冗長だが)数学的に概観する本。

◆マイケル・J.A.ベリー,ゴードン・S.リノフ(著),江原 淳,上野 勉,河野 順一,佐藤 栄作,朝稲 努(訳)(2005)データマイニング手法,2訂版.海文堂出版.(3訂版が2014年に出ていますが、「探索的知識発見編」と「予測・スコアリング編」に分冊されています)
「データマイニング」を概観する本(比較的「新しい」手法は含まれないかもしれません)。

◆片平秀貴(1987)マーケティング・サイエンス.東京大学出版.
「マーケティング・サイエンス」を概観する本(やや「予測的」手法に偏るかも知れません)。

◆岡太彬訓・今泉忠(1994)パソコン多次元尺度構成法.共立出版.

本連載で予測的手法は扱いませんが、下記の本は予測的手法のみを扱っています。

◆中山厚穂・長沢伸也(2009)Excelソルバー多変量解析―因果関係分析・予測手法編.日科技連.
要正誤表参照(http://www.juse-p.co.jp/n_download_8.html)。

なお「記述的多変量解析」というタイトルの本もありますが(大隅ほか、1994年)、これは、対応分析、多重対応分析に限定した内容です。

著者について

出口慎二(でぐちしんじ)
1972年生まれ。1997年、統計分析サービスを行う会社に入社。調査データの入力・集計から多変量解析による分析、関連するプログラミング業務などに携わる。退社後、2001年以降、個人でデータ分析事業を行なう。

2003〜2004年、IRJ(インターネットリサーチ研究会)にて会員社合同の実験調査プロジェクトの統括ディレクターを務める。
2004年、『自分でできるネットリサーチ』を3人共著で上梓。
2005年〜2007年、インフォプラント(現、マクロミル(2007年9月〜2010年7月はヤフー・バリュー・インサイト))に在籍してRQI(ResearchQualityInstitute)を設立し主任研究員を務める。
2005年〜2007年度、サーベイ・メソドロジー研究会(日本行動計量学会の研究部会のひとつ)に参加、インターネットリサーチを含むデータ収集法の研究に携わる。

現在は現場におけるデータ分析業務に重きを置いています。