データサイエンス

Airbyteを試してみた

Open SourceのETL(今のところExtract Transform LoadのうちExtractとLoadメインみたい)ツール、Airbyteを試してみました。TechCrunchでは、オープンソースのデータパイプラインプラットフォームとして紹介されていました。

airbyte.io

jp.techcrunch.com

用意されているSourceとDestinationを組み合わせて、スケジュールを実行の設定ができます。差分更新ができるコネクターが限られていたりはしますが、シンプルに散在しているデータをBigQueryってときとかは使えるかもしれません。

GCPで試してみようということで、インストールはこちらの公式ページの手順に忠実にやりました。要はDockerで一発ってことですね。

On GCP (Compute Engine) – Airbyte Documentation

アクセスしたところ。
f:id:gri-blog:20210225172432p:plain

Sourceを作成する。
f:id:gri-blog:20210225172510p:plain

試しに総務省HPの都道府県コードのExcelにしてみる。
f:id:gri-blog:20210225172611p:plain

DestinationはBigQueryにしてみる。いまはマニュアル実行を選んでいるが、5分毎に実行とかを選択できます。Launchを押すと、
f:id:gri-blog:20210225172816p:plain

エラーになったっぽい。何やら一時テーブルは入った形跡。
f:id:gri-blog:20210225173056p:plain

わかった。BigQueryは、日本語カラム名はダメってことですね。
f:id:gri-blog:20210225173231p:plain

試しに、ヘッダーを変えてみると、
f:id:gri-blog:20210225173418p:plain

入ったみたい!
f:id:gri-blog:20210225173433p:plain

データを集めたいけど、有償のツールを導入するほどではなく、コーディングも嫌だよっていう私みたいな人は試してみるといいかもです。