統計学

代表値の話

こんにちは。新米分析官のA.K.です! 今回は統計学の基本である代表値についての話をしようと思います。簡単だからこそ理解しているつもりになりやすい代表値ですが、実は本質をつかみ切れていないことが多いです。今回はなぜ代表値が重要なのか、代表値が分かると何が良いのか、を重点的にご紹介していこうと思います。

目次

  • 代表値とは?
  • データの真ん中を表す代表値
  • データのばらつきを表す代表値
  • まとめ

代表値とは?

そもそも代表値とは何でしょうか?Wikipediaで調べてみると、以下のように定義されているみたいです。

要約統計(ようやくとうけい、英: summary statistic)あるいは、記述統計(英: descriptive statistic)とは、標本の分布の特徴を定量的に記述し要約する統計学上の値であり、統計量の一種である。基本統計(英: basic statistic)または代表値(英: representative value)とも呼ばれることもある。

要約統計量 -Wikipediaより

代表値とは、正しくは「要約統計」と呼ばれるみたいですね。「標本の分布の特徴を定量的に記述し要約する統計学上の値」という定義があるみたいです。つまり「集めてきたデータが全体として、どのような特徴を持っているかを説明する値」が代表値の性質になります。ただ、この説明だとあまりピンとこないと思うので、より具体例に掘り下げて説明していこうと思います。

代表値で最も一般的な値としては、”平均値”があります。平均値は集めてきたデータの真ん中あたりの値がどのくらいになるかを説明する値になります。他にも、平均値と組み合わせて、”標準誤差”を使用することがあります。標準誤差はデータがどのくらいばらけているかを表す値になります。そのため、平均値±標準誤差の値は集めてきたデータの真ん中あたりの値がどのくらい幅を持っているかを説明する値になります。

このように代表値を用いることで、集めてきたデータがどんな特徴を持っているか、ざっくりと把握できます。ビッグデータを扱おうと思った場合、一見してデータの特徴を理解することは人間の脳では非常に難しいです。また、一つ一つデータを見ていけば特徴を見つけ出すことはできるかもしれませんが、それではあまりに時間がかかり過ぎてしまいます。そんな時にデータから代表値を算出することで、短時間でデータの特徴をうまくつかめるわけです。

ここまでで、データを理解する上で代表値が重要であることは伝わったかと思います。次は、それぞれの代表値が表すものと強み・弱みを掘り下げていきたいと思います。

データの真ん中を表す代表値

「平均値・中央値・最頻値」はすべて、データの真ん中らへんの値がどのくらいかを示す代表値です。ただ、当たり前ですがそれぞれ異なった性質を持っています。

平均値

平均値は、データの和をデータ数で割った値です。個々の値を平らにした場合にどのくらいの値になるかを見積もることができます。ただし、弱点として外れ値や特異値の影響を強く受けてしまいます。例えば、年収がそれぞれ100万円、200万円、200万円、300万円の4人がいた場合、4人の平均年収は200万円です。そこへ、年収1億円の人がやってきたとしたら、5人の平均年収は2700万円になります。4人だった時は庶民的な集団だったにもかかわらず、5人になった途端にセレブな集団に早変わりしてしまいます。

中央値

中央値は、データを小さい方から数えたときに中央にくる値です。データ全体の中で、真ん中の値を知ることができます。平均値と比較して、中央値は外れ値や特異値の影響が表れにくいです。先ほどの例で考えてみると、4人の年収の中央値は200万円です。後から年収1億円の人が加わっても4人の年収の中央値は200万円となるため、5人は庶民的な集団として判断できます。(年収1億円の人を庶民集団とするには違和感があるかもしれませんが、今回は集団としての特徴を捉えることを目的としているため、全体として”庶民的な集団”と判断しています。)

最頻値

最頻値は、データの中で最も出現頻度が高い値のことを指します。データ全体の中で、最も起こりやすい値を知ることができます。最頻値は必ずしもデータの真ん中を表すとは限りませんが、データを追加で集めていった場合に、どのくらいの値に偏りやすいかを理解できます。先ほどの例で考えてみると、4人の年収の最頻値は200万円です。後から年収1億円の人が加わっても、5人の年収の最頻値は200万円です。次に6人目が来る場合、確率的には年収200万円周辺の可能性が高いです。(今回の例ではデータ数が少ないため最頻値は変動しやすいですが、データ数が増えるほど最頻値の信頼度は高くなります。)

「平均値・中央値・最頻値」の関係性

「平均値・中央値・最頻値」について個別に説明してきましたが、実は3つの値の大小関係からデータの分布を把握できます。

  1. 平均値 = 中央値 = 最頻値の場合 → データは正規分布に従う
  2. 平均値 < 中央値 < 最頻値の場合 → データは左に裾を引く分布になる
  3. 平均値 > 中央値 > 最頻値の場合 → データは右に裾を引く分布になる

データの分布を理解しておくことは非常に重要です。例えば、給料UPを目指して平均年収が1000万円の職業に転職しても使用しているデータが右に裾を引いている分布だった場合、実際に自分がもらえる年収は最頻値の300万円前後だった……みたいなことが起きてしまいます。データから何かを判断したい場合には、とりあえず平均値・中央値・最頻値を見て、データがどんな分布をしているのか調べるようにしましょう。

データのばらつきを表す代表値

「標準偏差や四分位範囲」はデータがどの程度ばらついているかを表す代表値です。

標準偏差

標準偏差は、各データと平均値の差分を二乗した値を平均して平方根を取った値になります。導出方法を聞くと「よくわからない値だなー」と感じてしまうかもしれませんが、簡単に言えば、平均値と各データの距離の平均です。つまり、平均値からの離れ具合が大きいとデータはばらつきが大きく、平均値からの離れ具合が小さいとデータのばらつきが小さいことを表しています。

標準偏差はデータのばらつきを表す値ですが、最大の特徴は正規分布のデータの場合「平均値±(2×標準偏差)」の範囲にデータの95%が含まれることです。(非正規分布の場合、75%以上が含まれる)
つまり、「平均値±(2×標準偏差)」の範囲から、大体の値が収まる範囲を予測可能になります。(ただし、データ数が少ない場合精度は非常に低くなります。統計学的にはデータ数が30以上あると良いとされています。)

四分位範囲

四分位範囲は、各データを小さい方から数えていって1/4位置と3/4位置にいる値の差になります。四分位範囲からは上位75%から下位25%の範囲を知ることができます。また、四分位範囲は中央値と同様に、外れ値や特異値の影響を受けづらい特徴があります。そのため、一般に「上位75%の値+(1.5×四分位範囲)、下位25%の値ー(1.5×四分位範囲)」より外側にある値を外れ値として定義することが多いです。中央値と四分位範囲を表した図の代表として箱ひげ図がありますが、箱ひげ図を用いることで、データの分布を把握できます。

まとめ

いかがでしたでしょうか。今回は代表値とデータの分布を絡めながら話をしました。ビッグデータを扱う上で、何から始めればよいかわからないという人はまずデータの分布を理解することから始めてみると良いと思います。今回は取り扱いませんでしたが、最大値・最小値なども重要な値なので、そのあたりも忘れずにチェックしてみてください。

A.K.
新米分析官。趣味は、釣り・サウナ。