DataFrameをBigQueryに格納する｜CO-WRITE ─ AIとデータサイエンス by GRI

pythonを使ってpandasデータフレームをBigQueryに格納する手法について紹介します。

pythonとBigQueryを連携させる手法はいくつかあります。pandas-gbqライブラリを利用するのが一つ目の手法です。簡単に操作できるというメリットはあるものの、データセットのプロパティの更新、データセットの削除などの機能を扱うことができないといったデメリットもあります。

そのため、おすすめは二つ目の手法であるgoogle-cloud-bigqueryライブラリを利用する手法です。ここからは、google-cloud-bigqueryを利用してデータフレームをBigQueryに格納するまでの操作を説明していきます。

google-cloud-bigquery ライブラリを使用して、DataFrameをBigQueryに格納するためには、DataFrameをParquet形式に変換する必要があります。そして、Parquet形式に変換するためにはpyarrowライブラリを利用します。

pip install pyarrow

次に、google-cloud-bigquery ライブラリを読み込み、project idを指定して、clientを生成します。このとき、予めサービスアカウント or ユーザーアカウントでGoogle認証を行っておく必要があります。

from google.cloud import bigquery
client = bigquery.Client(project="project_id")

そして、データセット名と作成されるテーブル名をtable_idとして指定します。さらには、スキーマとして列ごとの型や欠損が認められるかどうかをjob_configに持たせ、jobを実行すると、DataFrameをBigQueryに格納することができます。

table_id = 'dataset_name.table_name'
job_config = bigquery.LoadJobConfig(schema=[
    bigquery.SchemaField("column1", "STRING", mode="NULLABLE"),
    bigquery.SchemaField("column2", "INTEGER", mode="REQUIRED"),
])
job = client.load_table_from_dataframe(
    df, table_id, job_config=job_config
)
job.result()

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

DataFrameをBigQueryに格納する

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

ForecastFlow予測モデル構築エラー（Internal Error ValueError）の対応方法

データ分析になぜ統計学が必要か Part1

VSCodeとpytestでPythonコードをテスト&デバッグする

音楽と映像の融合について

続・AIは人類を超える絵画を描けるか

Pythonで画像のテンプレートマッチングしてみる

【最新海外AI技術の解説】説明可能AI#1・特徴量の相関関係を考慮できるモデル非依存型解釈手法

見落とされがちなデータ分析の作法「データの確認からはじめる」

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書