数学、主に統計学に立脚した成長著しい機械学習の分野において、どのような点に留意して解析されているのか、また、具体的にはどのような分析が行われているのかを、なるべく簡潔に説明します。
i.データの入手
分析業務はデータの入手から始まります。従来の分析案件では、顧客から商品の購買履歴データやWebサイトのログデータを預かるのが基本でしたが、近年では国や自治体の後押しの元、各種データのオープンソース化(オープンデータ化)が進んできており、それを活用したビジネスも今後は一層活発になっていくことが予想されます。
Webページで公開されている情報・データの著作権は、基本的にはそのページを作成した個人および団体に属します。しかし、それらのデータの中には、一定の条件のもと、誰でも自由に使用できるオープンデータが存在します。「一定の条件」には、そのデータの作成者を明記することや、その2次製作物もオープン性を保つことなどが含まれていることが多いです。あるいは、全く規制がないこともあります。
オープンデータとは、Open Knowledgeが提唱している The Open Definition (オープンの定義)に従うと、「誰でも自由に、どんな目的に対しても使用・共有が可能であること。」と定義されており、それが満たすべき三つの要素もConformant Licensesとして次のように明示しています。それは、
- オープン・ライセンス(法律に起因)
- データ・アクセス(技術に起因)
- オープン・フォーマット(技術に起因)
です。
一番目の要件のオープン・ライセンスは、データをオープンデータとして使用する際に、著作権等の法律に抵触する恐れをクリアにするために必要な条件です。Open Knowledgeではオープンの定義に適合するライセンスとして、以下のライセンスを推奨しています。
二、三番目の要件はオープンデータを実際に利用する際にハードルとなる技術的な問題をクリアするために考案された条件です。データ・アクセスでは、データが電子化されており、無償でダウンロード可能であること、さらにAPIのような形式ではなく、データ全体を一括でダウンロードできる形式であることが望ましいとしています。また、オープン・フォーマットでは、プログラミング言語や開発環境に依存しないようなCSV形式やJSON、XML形式で配布することが望ましいと言及しています。
この節の最後として、現時点(2015年)で存在するオープンデータの一部を紹介します。これらのサイトでは先進的にオープンデータ化に取り組まれておられます。情報サービスを提供する側としては、オープン化の流れは非常に有り難いことであり、これを阻害する原因になるライセンス違反行為や迷惑となる行為は可能な限り慎みましょう。
サイト名 | 公開データ | データ形式 | ライセンス |
Open Weather Map | 世界の天気、気温、気圧、湿度など | JSON XML HTML |
CC BY-SA |
Open Street Map | 世界中のボランティアの方々が日々編集している地理情報 | XML PBF |
ODbL |
DBpedia | Wikipediaからデータを抽出し、汎用化させた構造データ | RDF SPARQL |
CC BY-SA 3.0 |
NHK番組表API | 現在NHKで放送中の番組名やその詳細情報など | JSON | 独自ライセンス クレジット表記など |
【参考文献】
『インターフェース』2016年1月号, CQ出版社