広報

GRIにおけるデータサイエンス民主化活動

この記事は何?

  • データ分析の界隈で耳にするデータサイエンスの民主化について、GRIの取り組みを紹介します
  • そもそも民主化とは何なのかという問いに関して考え方の一つを示します

民主化とは?

Wikipediaによる民主主義(デモクラシー)の言葉の語源は以下です。

「デモクラシー」(democracy)の語源は古代ギリシア語の δημοκρατία(dēmokratía、デーモクラティアー)で、「人民・民衆・大衆」などを意味する δῆμος(古代ギリシア語ラテン翻字: dêmos、デーモス)と、「権力・支配」などを意味する κράτος(古代ギリシア語ラテン翻字: kratos、クラトス)を組み合わせたもので、「人民権力」「民衆支配」、「国民主権」などの意味である。この用語は、同様に「優れた人」を意味する ἄριστος(古代ギリシア語ラテン翻字: aristos、アリストス)と κράτος を組み合わせた ἀριστοκρατία(古代ギリシア語ラテン翻字: aristokratía、アリストクラティア。優れた人による権力・支配。貴族制や寡頭制などと訳される)との対比で使用され、権力者や支配者が構成員の一部であるか全員であるかを対比した用語である。

特に、「優れた人による支配」が対義であると理解すると民主主義の輪郭が見えてくる気がします。データサイエンス領域における「優れた人」を探してみると、

優れた人の例

  • 大学などの研究機関でAIやデータサイエンスの研究に従事する専門家
  • ツールに頼らずとも、自分でプログラムを書いて大量データの加工ができるエンジニア
  • データからストーリーを紡ぎ出し、データドリブンな施策を考案できるコンサルタント

などが思いつきます。上記のような能力をもつ人々は掛け値なしに素晴らしい一方で、社会あるいは組織として考えると、

優れた人に依存し続けた場合の弊害

  • 研究成果が研究者コミュニティの輪の中で閉じてしまい、AIの社会実装が進まない(絵に描いた餅状態)
  • エンジニアを雇用できる企業しかデータ分析基盤を構築できない
  • コンサルタントの言いなりになってしまい、費用対効果の見合わない対価を支払い続ける可能性がある

などが課題として出てきます。これらの少数の優れた人への依存を緩和し、社会全体の幸福を最大化しようとする試みがデータサイエンスの民主化の本質であると考えています。

民主化成功の条件とGRIの取り組み

データサイエンス領域の民主化を成功させるための条件ということで考えると、筆者個人は以下のようなイメージで考えています。

f:id:gri-blog:20210616183937p:plain

ユーザーの尊重(プライバシーの保護)

エンドユーザーの尊重、特にプライバシーの保護を無視していては、そもそもデータサイエンスはいつか市場から見限られると思っており、それらを民主化のための土台(前提)と捉えています。データサイエンスはデータがないと始まらないので、ユーザーの行動履歴などを収集する必要がありますが、特に個人の特定が可能な情報(個人情報)をいかに安全に取り扱うか、あるいは逆の発想として、いかに個人情報を扱わずにバリューを提供するかを考えていく必要があると考えています。これについては以下の記事も参照ください。

連合学習によるプライバシー保護と利便性を両立した新しい機械学習システムのカタチ深層学習が表舞台に登場してから、今年(2021年)で 9年 になるでしょうか。2012年のILSVRCという画像認識のコンペティションで...

① 体制・システムの構築

データサイエンスの民主化の謳い文句で良くフィーチャーされるのはこの項目だと思います。特に、ノーコードあるいはローコードで複雑なデータパイプラインや高精度な機械学習モデルを構築できるシステムは人材の流入出が発生する組織では重要な鍵となります。GRIでは専門家ではない方でも分析基盤を構築・運用できるようにサポートしており、導入をおすすめしているのはMatillionとForecastFlowになります。

Matillionは直感的なインターフェースでデータパイプラインを構築できるサービスです。特にBigQueryなどのハイパフォーマンスなデータベースの性能を引き出すためのELT処理はさまざまな分析ユースケースにおいて便利に使えます。例えば以下の記事を参照ください。

MatillionでBigQueryのテーブルをGoogle Cloud Storage (GCS) に出力する方法どうも、最近荒野行動をやっていて、開始早々に射線を確保しているスナイパーを発見、「スナイパーは、懐に入られると、弱い……ッ!!」と丸腰で...

また、ForecastFlowはGRIで開発している自動機械学習基盤で、ユーザーの皆さまはエクセルのような一枚表形式のデータセットを入力するだけで高精度な機械学習モデルを構築・運用することが可能になります。GRIのこれまでの分析ノウハウを集約し、どのような特徴をもった入力データに対しても期待以上の精度・速度をご提供するため、日々アップデートしています。もちろんMatillionとの連携も可能となっておりますので、データの準備から予測までをエンジニアなしで行うことが可能です。さらに、ForecastFlowはTableauなどのBIツールとも連携できるため、ダッシュボードへの予測結果の自動出力までできてしまいます。ForecastFlowの詳細は以下のサービスサイトを参照ください。

② リテラシーの向上

大小合わせて何百という分析プロジェクトを経験してきた弊社が保証しますが、データ分析は全自動でうまくいくほど単純ではありません。何かしらの問題が発生したり、興味深い示唆が何も得られなかったりなどが必ず起こります。そのようなツールやシステムの範疇からはみ出てしまった事象に適切に対応するためには、最低限の分析の知識が必要になります。

GRIではクライアント様あるいは社会全体のデータリテラシーの向上として、分析のコンサルタントサービスおよび研修事業を展開しています。

コンサルタントサービスでは、そもそもどのような課題設計すべきかという上流工程から、個別具体的なシステムアーキテクチャの設計や現場における施策のPDCAサポートまで、全てのレイヤーをクライアント様と共創しています。特に、クライアント様の強みやオリジナリティを強く打ち出すことや、最終的にはクライアント様のみで自走可能な状態に創り上げることを意識しており、おかげさまで案件の継続率は90%を超えています。コンサルタントサービスのお問い合わせは以下のフォームをご利用ください。

また、研修事業ではデータサイエンス分野で良く使われるプログラミング言語Pythonの基礎講座やG検定の対策講座、統計分析に関する講座を提供しています。詳細は以下を参照ください。


③ コミュニティへの参加

自由闊達な議論ができたり、役立つ情報を共有する場の存在は、健全な民主社会を運営する上で重要だと思います。すなわち、多くの人が不満に思っていることを優先的に機能開発する一方で、少数派ではあるものの見逃せない貴重な意見に耳を傾け、なにか上手い逃げ道がないか検討することで文化としての懐が深くなると考えています。

GRIでは、データサイエンスのコミュニティ「すいすい会」を運営しています。日頃の分析業務で培った知識・ノウハウを皆さまと共有したり、いただいたご質問に対する回答や議論を行っています。すいすい会の詳細は以下のページを参照ください。


最後に

GRIはデータサイエンス専業企業として、ForecastFlowなどの分析ツールの提供のみに留まらず、真のデータサイエンスの民主化を目指して多角的に活動しています。今後も活動内容を拡充していきたいと考えていますので、ご興味のある企業・学生・研究者の方のジョインを心よりお待ちしています。

大友

ohtomo.yuichi
仕事では人工知能を育てていて、家事ではホモ・サピエンス(♂)の自然知能を育てています。