Matillion

MatillionのTransformation jobでよく使うコンポーネント5選

こんにちは。yokochanです。

Matillionにはコンポーネントが多数用意されていますが、ここだけ抑えておけばTransformation jobは使える!というコンポーネントを5つ紹介します。

まあ、Matillionは比較的わかりやすいUIだと思ってるので、なんとなく触っていたら使えるようになってるとは思います。

今回紹介するのは以下の5つです。

  • Calculator
  • Aggregate
  • Filter
  • Rename
  • Join

また、今回使用しているDWHはSnowflakeです。

Calculator

計算式から新しいカラムを作成できます。関数も多数用意されています。

おそらくTransformation jobで一番よく使うコンポーネントです。

設定項目

Name コンポーネント名を入力
Include Input Column Yesを選択した場合、作成したカラムがそのまま自動で列に追加される。Noの場合は手動で追加するカラムを選択する。
Calculations 計算式を作成し、カラムを追加(以下画像参照)

公式ドキュメントはこちら

Aggregate

特定のカラムで集計をするためのコンポーネントです。集計するキーになるカラムとどの列をどのように集計するか設定します。

設定項目

Name コンポーネント名を入力
Groupings 集計するキーとなるカラムを選択(以下画像参照)
Aggregations どの列をどのように集計するかを設定(以下画像参照)
Grouping Type グループ化の種類を選択

Grouping Typeが少しわかりにくいですが、私はシンプルな「Group By」しか使ったことありません。。

公式ドキュメントはこちら

Filter

条件を満たす行のみを残すコンポーネントです。

フローの中で使うのはもちろんですが、検算をするときなどにもよく使います。

設定項目

Name コンポーネント名を入力
Filter Conditions フィルターに使うカラムと条件を設定
複数設定することが可能(以下画像参照)
Combine Conditions ANDかORを選択
複数フィルターを設定している場合、AND条件かOR条件か

公式ドキュメントはこちら

Rename

カラム名を変更できるコンポーネントです。

表向きはカラム名変更ですが、実は必要なカラムだけを残すときによく使います。

カラム名変更よりも必要なカラムを残す処理に使う場面の方が実際多い気がします。

設定項目

Name コンポーネント名を入力
Column Mapping 既存のカラムと新しいカラム名を設定
このときに不要なカラムを外せば必要なカラムだけが残る(以下画像参照)
Include Input Columns Yesの場合、一意に決められた入力カラムが出力に含まれる
デフォルトではNoになっている

Include Input Columnsはやや理解しにくいですが、よっぽどのことがない限りデフォルトから変えなくていいと思います。

公式ドキュメントはこちら

Join

テーブル同士を結合するコンポーネントです。

複数のテーブルを結合して新しいテーブルを作るというのはデータ加工の基本ですのでTransformation jobではほぼ毎回登場します。

設定項目

Name コンポーネント名を入力
Main Table 結合の基準となるテーブルを選択
Main Table Alias メインテーブルの別名を設定
Join Expressionsの接頭辞に使用
Joins 結合するテーブルと結合方法(Inner,Left,Right,Full)を設定(以下画像参照)
Join Expressions 結合キーを設定(以下画像参照)
Output Columns 最終的に返されるカラムを設定
この際に名前の変更も可能(以下画像参照)

公式ドキュメントはこちら

 

もちろん今回紹介したコンポーネント以外にも便利なものはいくつもあるので、また記事にしたいと思います。

それでは皆様よきELTライフを~

yokochan
データ基盤構築やデータ可視化をやっています。 夏は沖縄の海、冬は北海道の山、年がら年中ももクロのライブ会場。