Tableau Prepつかっていますか?
以前も同じようなこと書いたのですが、時に便利さ故に簡単なミスでごそっとデータを削ってしまったりする場合もあるので、一挙手一投足に緊張感が必要なツールではありますが、Prepを使っていなかった頃の作業は思い出せないぐらいにすばらしいツールだと思っています。
さて、本日はそんなTableau Prepで作業をする際、データ処理前後の「何かおかしいとこはないか」を見つける、をテーマのTipsをお送りいたします。
「何かおかしいとこはないか」とは
データを整理したりクリーニングしたいする際に「何かおかしいとこはないか」のチェックは非常に重要です。先に述べた通りうっかりやらかすことが大いにあるためです。ちょっとの労力で「何かおかしいとこはないか」を発見できるポイント、それは以下のことと考えてます。
- ともかく「数があっているか」
便利な機能や関数を含めたテクニックを扱い色々データ処理を駆使した結果、データは出力されても「完成したものがあっていなければ」言わずもがなですがまったく意味はありません。この点は基本の基本なのですが、作業/作成の方法論に集中するあまりいまいちチェックの重要性が伝わっていない、やっていないことが多い気がしています。
では具体的に「数があっているか」のポイント解説します。
「数があっているか」で確認するポイント
- ユニークな値はあっているか
- 前後の数はあっているか
- 意図せずデータ増幅していないか
ユニークな値はあっているか
ユニークと聞いていたカラムが何らかの事情でユニークになっていないってのがたまにあります。ここを見ておくか見ないで作業を進めていくなか、後半よくわからない事象が発生して見つけるのに苦労します。それどうやって見分けているか。簡単です、「そのカラム見ればよい」だけです。
非ユニークなデータは左のように2,4が2レコードずつあるよっていうのがぱっと見でわかります。ユニークな場合は凸凹がありません。一目瞭然です。
データを取り込んだ際おまじないのようにユニークと言われているカラムは必ず見ましょう。また、そのようなデータだった場合は、元データをどうすべきか、この後の作業にどのように影響(特にこのカラムが後の処理での結合キーとなりえるか)するかを先によく検討してから作業に入るべきです。
そして最後の工程でも「途中で何かやらかしていないか」必ず見ましょう。
見たらわかるので見るだけです。
前後の数はあっているか
あるグループだけにフラグ建てなどの処理をしてまたユニオンさせるなど、前後の数が変動しない処理のデータ数を見ない人もいるようです。これも怖い。
これも簡単ですね、見るだけでよいです。よくあるパターンは2つにグループに分けた際に条件が漏れていてどちらのグループにも含まれない項目が意図せず発生している場合です。処理内容は多々ありますが、こちらも見るだけで終わるので見ましょう。
意図せずデータ増幅していないか
このケースはちょっと難しいですが、とかく結合において結合区があっているかのみ注目していて「結合結果サマリーを見ていない」という場合があります。ここほんと重要です。
一見ちょっとよくわからないと見落としがちですが、どのような結合が行われたかが表示される重要な情報で、簡単に怪しいかもと見分ける着目点はあります。
青とオレンジはそれぞれ結合データの状態、緑が結合結果です。
左の図のように100レコードに7レコード結合すれば、結合区やデータが正しい場合に100レコード以下になることが大半です。(ちなみにこの結果、100レコードと7レコードは7レコードだけ結合して残り93レコードは結合しなかったけど、全部で100レコード出力したよって感じです)
一方、右の図のように100レコードのデータに7レコード結合したが114レコードになっているのは「感覚的に何かおかしい」と思えるはずです。
とかく結合において、前のデータより合計数がオーバーしている場合は「意図せずデータが増幅している」可能性があるので、要チェックです。
今回のTips、処理内容のチェックをするうえで、処理以外にやらかしていないか見る点なので、皆さんのチェックポイントの参考になれば幸いです。