Tableau

【Tableau】外れ値を考慮したヒストグラムの描き方

こんにちは!
分析官の望月です。

突然ですが、ヒストグラムを描く時に外れ値の影響で主要部がつぶれてしまうといったような経験をしたことはありませんか?

このような場合には外れ値を集計対象外にしたり、○○以上というような感じでグルーピングしてからヒストグラムを描くことが多いかと思います。

Tableauではデフォルトの機能であるビンを用いて簡単にヒストグラムを作成することができますが、上限を設定→それ以上の値は○○以上という風にまとめておく機能はありません。

本記事ではTableauでの外れ値を考慮したヒストグラムの描き方をご紹介します。

復習:デフォルトのビンを利用したヒストグラム

今回はダミーの店舗別売上データを利用して説明していきます。
下図の通り店舗(shop_id)ごとに売上情報(sales)が入っているデータになります。

データペイン(シート左側)の[sales]→”作成”→”ビン…”からビンを作成することができます。

“ビンの編集”画面からビン幅を設定することができます。デフォルトではTableauが提案してくる値が入りますがパラメータを用意してビン幅を制御することも可能です。

ビン幅を50,000にしたヒストグラムがこちらです。

1,000,000と1,300,000あたりに外れ値が存在していることが分かります。

外れ値を考慮したヒストグラム

まず初めにパラメータで設定したビン幅をもとにどのビンに該当するか判定する計算式[sales(bin)]を作成します。

例えば[sales]が264,931で、パラメータで設定したビン幅が50,000の場合、[sales(bin)]は”INT(264931/50000)*50000 = 250000″となります。

次に[sales(bin)]からさらに上限を考慮した計算式[sales(bin_upper)]を作成します。

パラメータで設定した上限(今回は700,000としました)を下回っていれば[sales(bin)]を返し、それ以外であれば700,000を返します。

この計算式を用いたヒストグラムがこちらです。

外れ値がすべて”700,000″のビンにはいっていることが分かります。
外れ値を考慮したヒストグラム

さいごに

今回ご紹介した方法はパラメータと連動してビン幅と上限を設定できるため柔軟性は高くなりますが、

  • 自動的に隙間なく棒を描くことができない(手動での設定は可能)
  • ヘッダーだけでは外れ値をまとめたことがわかりづらい

といったようなデメリットも存在するので実際に使う際は十分注意してください!

mochizuki
データサイエンティスト。筋トレ、スーパー銭湯、時々スノボ。