■データサイエンスとはどんな研究分野なのか
データサイエンスとは新しいものなのでしょうか?
それとも従来からの統計やコンピューター工学を発展させただけのものでしょうか?
皆さんは、インターネットで調べたり、新聞や雑誌で読んだりすることがあると思います。しかしながら、これらの議論はまだ継続されていると感じることが多いと思います。まさしくそれを見つけることがデータサイエンティストの現在の仕事と考えてよいと思います。それくらい未知なる可能性のある研究分野であり、成果についての誇大広告がはびこる研究分野でもあります。
データサイエンスをわかりにくくしている理由に、データサイエンスが多くの研究分野の集合体として成り立っているという背景があります。そのことは、データサイエンスの業務プロセス(以下)をみればよくわかります。
「ビッグデータと呼ばれる大量のデータを蓄積するには、大規模でコストのかからない格納先が必要です。格納したデータを抽出して加工するには、効率的で賢いツールが必要です。解析のモデリングには、多くの分析手法を試行錯誤して評価できるプラットフォームが必要です。結果についてわかりやすく伝えるには、ビジュアライズの技法や表現のできるソフトウェアが必要です。さらに、ビジネスや業務に対する理解が十分になければけっしてよい結果は出せません。」
このようにデータサイエンスとは、従来の研究分野の総合力が試される分野だと捉えられます。
具体的に取り上げると、
・数値データ分析に関する歴史的な蓄積がある統計学
・高度な解析モデルを支える数学
・ビックデータのインフラを構築する計算機科学
・使いやすいツールを開発する情報工学
・画像や音声の解析に用いられるパターン認識や機械学習
・視覚化・可視化に役立つデザイン情報学
・マーケティングや財務会計、物流や生産管理などの体系的な知識
などがあげられます。
■データサイエンスに注目が集まる理由
1番大きな要因は、データ分析をする社会的なコストが劇的に下がったことがあります。
インターネットとICカードの普及により、ビッグデータ(膨大な量のデータ)が世の中に蓄積されやすくなりました。さらに分析ツールやクラウド技術の発達により、情報が高速で収集でき、扱いやすくなりました。
2つ目に大きな要因は、ネットワークの進展に伴い、社会的な課題が大きくなっている点があげられます。
ここでいうネットワークとは、人的なつながり、経済的なつながり、情報的なつながりを指しています。いまでは、SNS上で世界中の人と繋がり、遠い国の経済危機が自国の金融システムに影響を与え、個人のデータは国家的に管理される時代になりつつあります。そこで起こりうる問題は、これまでの規模をはるかに超えた広範囲に影響を及ぼすと考えられます。問題の対象が大きくなるということは、解決できる手段に投資が促進されるということになります。
これらの環境の変化とビジネス的な(将来的な儲けが得られるという)思惑が重なって、データサイエンスへの関心と期待が高まってきたと考えられます。
■データサイエンスの役割
データサイエンスのもうひとつの特徴に、社会的な課題に対して実装で応えていくという役割を期待されていることがあります。これまでの「知る」ことが中心だったデータ分析が直接的に利活用して「動かす」ことができる環境へと世の中が進化しつつあるからです。これを系統立てて理解するには、ビッグデータの系譜をわけて考えるとわかりやすくなります。
1. 従来型のビッグデータ
販売データ(小売店のPOSデータなど)、Webアクセスログ(閲覧履歴など)、ネットワーク機器へのログ(ネットワークへの攻撃記録など)
2. センシングデータ
RFID(商品の移動など)、GPS(車や人の移動など)HEMS(電気の消費量履歴など)
3. ライフログデータ
交通系ICカード(電車の移動履歴など)、ヘルスケアデバイス(運動量のデータなど)、インターネットバンキング(決済履歴など)
これらのデータの利活用分野としては、インターネットサービスにとどまらず、小売・広告・自動車・物流・エネルギー・医療・金融・教育・エンターテインメントなど、ほとんどの分野に渡る可能性があります。
より具体的な例をあげていきます。
例えば、
・会員の行動を予測することによって売上の向上が期待できるクーポンを発行する
・サイト上のログイン履歴のデータを分析することによってイベントチケットの価格を変更して販売する
・機器の故障を予測することにより設備の稼働ロスを防ぐ
・画像診断技術を用いて今まで医師(人間)が感知できなかった腫瘍を発見する
などです。
これら1つひとつの事例は部分的な有用性しか発揮していません。しかしながら、価格をコントロールすることによって世界中の「食品ロス」を減らせたり、ある機器の故障を予測する解析モデルが、原子力発電所の機器の故障の予測にも使えたりすることができるかも知れません。
いえ、「かも知れない」ではなく、それを積極的に実現するのがデータサイエンスに携わる皆さんの役割だと思います。