DATA-SCIENCE
クラウドネイティブなELTツールMatillionで多テーブルの結合処理
クラウドを前提にしたELTツールのMatillionを使うと、意外な驚きに出くわします
多くのETLツールは、BigQueryをデータソースとして前処理を行うと、一度BQよりデータをツール側に取り出して処理を行います。これは、BQの力を最大限に活かせず、処理は、できるだけBQ側のリソースで行えるツールが欲しくなります。Matillionは、そんなことを手軽にできるツールです。
1つのコンポーネントで多テーブルの結合処理
多数のテーブルの結合処理が1つのコンポーネントだけで、なかなか面白い感じで記述できるので紹介します。
オレンジの3つがBigQueryの3つのテーブルで、赤枠で囲まれたJoinコンポーネント1つで、この3つのテーブルの結合処理を記述できます。よくあるETLツールは、1つのJoinコンポーネントで2つのテーブルを結合する記述です。たくさんのテーブルの結合をまとめて記述できれば、データフローを直感的に記述できます。
今までのツールだと、プロのマエショリストが多段の結合処理をする場合、どの順番で結合するかを考えるのが腕の見せ所でしたが、Matillionだと、これらの処理はMatillionが適当にSQL文にしてBQに投げてくれます。
より詳しい解説については公式のYouTube動画を、ご覧ください。
この記事をシェアする