データサイエンス

”なんとなく”データ分析をして失敗した話

こんにちは、ひよっこデータ分析官のyokochanです!

最近少しずつ分析ができるようになってきたと思っていたのですが、実はなんとなくやっていて基本的なことができていませんでした。

その反省の意を込めて、「何ができていなかったか?」をまとめていきます。

①まず、何を伝えたいのか?

本当に本当にこれが一番大事です。

当たり前だと思うかもしれませんが、私はこれができていなかったです。

なぜ「何を伝えたいか?」が抜け落ちてしまうのかを考えると理由はいくつかあります。

  • 言われたことを作業としてやっている
  • 作りたい見た目が先行している
  • なんとなくやってもそれっぽいものができあがる

特に、最後に挙げた「なんとなくやってもそれっぽいものができあがる」はかなり大きな要因だと思います。

それっぽいものができると自分は分析ができる!と勘違いして意気揚々と成果物を見せるのですが、

「で?何が言いたいの?」

と言われて、「あ、、、」となり、何も言えないという状況に陥ってしまいます。

なので、データに触れ合う前にまずは何を伝えるか?を考え、その後それを伝えるためにどのようなダッシュボードを作ればよいか?、そしてそのためにどんなデータの加工が必要か?という順番で考えていくべきです。

②プライマリーキーは何か?

何を伝えたいか?を決めてようやくデータの加工に入ります。

ここもなんとなくでやってしまうと後で苦労することになります。

なんとなくでやりがちなことの一つとしてプライマリーキーを考えることです。

すなわちどの列を見ればデータが一意に定まるか?を意識するということです。

これはデータを見るときに一番に見るべきところですが、私はこれもできていませんでした。

見ていたつもりではいたのですが、多少データを見るのも慣れてきていたので「この列とこの列を組み合わせたら一意になりそう」くらいの感覚で先に進んでしまっていました。

その結果、プライマリーキーだと思っていたものが実はそうではなかったので、行が重複して数字が合わなくなる、みたいなことになりました。

これが起きてしまう要因としては、

  • 複数のテーブルを結合させている
  • 不要な列を削除している

などがあります。

データを最初に見るとき、データを加工しているとき、データを加工し終わったとき、すべてで常にプライマリーキーは意識しておくべきです。

③データの型は何か?

データの型も超基本的かつ重要なポイントです。

これは上の2つに比べると失敗したときのダメージは少ないのですが、なんとなくでやってはいけません。

数値なのか文字列なのかはもちろんですが、数値の場合、ディメンションの役割をしているのかメジャーの役割をしているのかもしっかりと見るべきです。

例えば、〇〇IDや性別を「1:男、2:女」のように表している列は数字の集計をしても特に意味を持たないのでディメンションの役割をしています。

データの型がずれてしまう要因は、

  • Tableauなど分析ツール上で読み込む際に自動でデータの型が決まる

というのが主な原因になります。

便利な機能ではありますが、頼りすぎるとよくないので、しっかり自分の目でデータの型を確認しましょう。

まとめ

上記のことはデータ分析をする上では本当に当たり前のことです。

ですが、慣れてきてなんとなくでデータ分析しているとすぐに忘れてしまいます。

データと恋人には真摯に向き合いましょう笑

yokochan
データ基盤構築やデータ可視化をやっています。 夏は沖縄の海、冬は北海道の山、年がら年中ももクロのライブ会場。