DS検定

棒グラフとヒストグラムの違いを説明できますか?

先日は、↓のブログにて、Excelを用いてヒストグラムを作成する方法を2通り紹介しました。

ヤン講師ブログ:Excelでヒストグラム作成

この時、次の2つの方法をデモストレーションしました。

①FREQUENCY関数で作成した度数分布表からグラフを挿入する方法
②Excelの分析ツールにあるグラフ機能を使う方法

前者①の方は、FREQUENCY関数を用いて、各データ区間の頻度(度数)を計算し、「データ区間」と「頻度」の2つの列を選択し、グラフ機能から「棒グラフ」を選択しました。理由は、②で紹介したExcelのアドイン分析ツールを使わない場合、ヒストグラムを選ぶと横軸のビンがデフォルトに出され、調整がしにくいからです。ということで棒グラフにし、その後、棒と棒の間隔をグッと縮めることでヒストグラムのようにしましたね。

さて、この記事で考えたいのは、そもそも、「棒グラフとヒストグラムはどう違うのか?」です。

棒グラフとヒストグラムは似ていますが、データが示す意味は全く異なります。単純に棒がくっついている、離れている、だけではないです。本質はデータの解釈にあります。

棒グラフとヒストグラムの違い

棒グラフから見ること

棒グラフは、一本一本が独立しているデータです。それらの独立なデータ(群)を比較するために棒グラフを使います。たとえば、地域別の人口、支店ごとの売上集計、商品ごとの人気度合いをカテゴリごとに並べて可視化すると、比較しやすくて便利です。

棒グラフ 例1:商品ごとの購買額

 

棒グラフ 例2: カテゴリ、サブカテゴリごとの売上額

 

ヒストグラムから見ること

ヒストグラムは、全データの分布や内訳を見るために使います。そのため、それぞれの区間の内訳は棒状であっても、棒の間隔を無くし、ある種の連続性をもたらしています。ヒストグラムからデータの分布を解釈することで、様々な判断や対策の助けになります。例えば、ある街のビジネスホテル一泊あたりの宿泊料金のヒストグラムから、この街に宿泊するのか、隣の街にするのか、といった視点での判断材料となります。

ヒストグラム 例1:ある会社の年収分布

 

軸に対する制限にも違いが

もう1つの重要な違いがあります。
棒グラフには順番や軸に対する決まりがありません。そもそも「カテゴリ」とは順序に意味のない「名義尺度」なので、カテゴリの順番に関係なく、棒が高い(数値が大きい)順番から並べ替えることが自由にできます。
これに対して、ヒストグラムは、必ず横軸を階級、縦軸を度数にする必要があります。また、階級(横軸)を連続した順番で並べる必要があります。これこそが分布に連続性をもたらしています。

今後「棒グラフとヒストグラムはどう違うのか?」と質問された時に、本質を押さえながら答えることができるといいですね。

担当: ヤン ジャクリン(分析官・講師)

yan
データ分析官・データサイエンス講座の講師