Open SourceのETL(今のところExtract Transform LoadのうちExtractとLoadメインみたい)ツール、Airbyteを試してみました。TechCrunchでは、オープンソースのデータパイプラインプラットフォームとして紹介されていました。
用意されているSourceとDestinationを組み合わせて、スケジュールを実行の設定ができます。差分更新ができるコネクターが限られていたりはしますが、シンプルに散在しているデータをBigQueryってときとかは使えるかもしれません。
GCPで試してみようということで、インストールはこちらの公式ページの手順に忠実にやりました。要はDockerで一発ってことですね。
On GCP (Compute Engine) – Airbyte Documentation
アクセスしたところ。
Sourceを作成する。
試しに総務省HPの都道府県コードのExcelにしてみる。
DestinationはBigQueryにしてみる。いまはマニュアル実行を選んでいるが、5分毎に実行とかを選択できます。Launchを押すと、
エラーになったっぽい。何やら一時テーブルは入った形跡。
わかった。BigQueryは、日本語カラム名はダメってことですね。
試しに、ヘッダーを変えてみると、
入ったみたい!
データを集めたいけど、有償のツールを導入するほどではなく、コーディングも嫌だよっていう私みたいな人は試してみるといいかもです。