この記事では、Dataikuを実際に使ってみて分かった利点と課題、そしてGRIが提供するAutoMLツールForecastFlowの機能と比較してご紹介します。
デモ動画はこちらよりご覧ください。
Dataikuとは?
Dataiku(データイク)は、データ準備、可視化、機械学習、MLOps、AIガバナンスなど様々な機能を活用してデータ活用を仕組化できる、オールインワンのAI・機械学習プラットフォームです。
マウス操作だけで様々な機能を使用・実行できるため、多くのユーザーが簡単に利用できます。
Dataikuの利点・課題
実際にDataikuのデモと共に、利点・課題をご紹介しています。デモの詳細は動画よりご覧ください。
Dataikuの利点
Dataikuの良い点としては、以下の4点が挙げられます。
1. 自然言語処理をデフォルトの機能で実装できる(日本語の文章に対する精度は未検証)
- 文章から単語への分解ができる
- 生成した単語に対しても、以下の処理が可能
- 先頭大文字を小文字に修正
- 語幹の削除(this,isなど)
2. モデルドキュメントジェネレーター
- モデルから取得した値を用いてドキュメントを作成する機能
- テンプレートを用意しておけば各モデルに対して自動でドキュメント作成が可能
3. 複数のアルゴリズムを並列で検証できる
- GUI操作だけで、学習データに対して複数アルゴリズムでモデルを作ることができる
- 各アルゴリズムに対してレポートが自動生成されるため、デプロイするモデルを比較検証しながら選ぶことができる
- 学習にかかる時間も比較的、高速に処理が可能
- 1,000行の学習データに対して20秒以内に完了する印象(※ただし、ローカルマシンのスペックに依存する)
4. ELTツールとしての機能はある
- Snowflakeのデータセットに接続すると、Snowflakeのマシンリソースを使用してデータ処理が可能
- ただしレシピ毎にテーブルが作られるため、Snowflake側に大量のテーブルが生成されてSnowflakeへの課金額が膨大になる可能性あり
Dataikuの課題
一方で、課題としては以下の点が挙げられます。
1. レシピ毎にテーブルが生成される
- レシピを一つ作成すると、テーブルが一つ生成される
- ローカル環境でもSnowflake環境でも同様
- 対応策として、dataikuのコミュニティに「利用されていないデータセットの削除」があった(dataiku Python APIで参照されていないデータセットを削除している)
2. 自動実行の複雑な処理をGUIでは設定できない
- 自動実行の設定はシナリオ機能を使用する
- シナリオでは、データの変更に応じてフローを実行する機能はローカルデータに対してのみ可能
- データベースに対して変更を検知する方法は、定期的にクエリを発行してクエリのレスポンスで対応するしかない
3. ダッシュボードで凝ったVizを作成できない
- デフォルトだとグラフで3つ以上のディメンションを持ったグラフが作成できない
- 例えば、各年度で店舗ごとのカテゴリごとの売上を表現できない
- 特殊なグラフ(ウォータフォールやワードクラウド)を作成するためにはプラグインが必要(プラグインを入れても編集できる箇所は少ない)
ForecastFlowとの機能比較
DataikuとGRIが提供するAutoMLツール「ForecastFlow」との機能比較を行いました。
検証内容
- 自己相関が高い列を含むデータセットを用いて解約者を予測する2値分類モデルを作成
- 使用するアルゴリズムは、「LightGBM」を使用
- ハイパーパラメータチューニング等の設定はデフォルトのものを使用
- 予測に対する閾値は、最も予測精度が高くなる点で設定
機能比較一覧
VS | Dataiku | ForecastFlow |
---|---|---|
データの前処理 | ○ | × |
データプロファイルの確認 | ○ | ○ |
線形回帰 | ○ | ○ |
クラス分類 | ○ | ○ |
アルゴリズムの選定 | ◎ | × ※LightGBMのみ |
精度の比較 | ○ | ○ |
重要特徴量の比較 | ○ | ○ |
部分依存グラフ | ○ | ○ |
スコア分布と閾値の関係 | ○ | ○ |
予測スコアのレポート | ◎ ※ダッシュボード化できる |
○ |
モデルのデプロイ | ○ | ○ |
モデルのAPI飛び出し | ○ | ○ |
定期実行 | ○ | △ ※他ツールとの連携が必要 |
使いやすさ | △ ※機能が多いため学習コストが少し高い |
○ |
コスト | 問い合わせが必要 | 10万円/月 or 100万円/年 ※10ユーザーまで利用可能 |
トライアルプラン | 3ユーザー2週間 | 1ユーザー3か月 |
動画では、実際の画面と共に機能を比較してご紹介しています。詳細な情報は動画よりご覧ください。
まとめ
- コンセプトが「データ処理」ではなく、「分析基盤の統合」のイメージなのでDataiku上で割と何でもできる(データ処理、可視化、機械学習、ジョブ作成)
- データ整形をする時は、レシピ毎にテーブルが作成されるので注意
- こんな人におすすめ:いろいろなモデルを使って機械学習のタスクを試したい…でもコード…書けない…。
デモのご依頼やご相談などは下記のお問い合わせフォームよりお問い合わせください。
また今回Dataikuと比較紹介したForecastFlowは90日間無料でトライアルが可能です。
お申込はこちら