データサイエンス

現在の機械学習分野を概観するための基礎知識  ~一般的な分析業務の手順とその留意点~ (1)

数学、主に統計学に立脚した成長著しい機械学習の分野において、どのような点に留意して解析されているのか、また、具体的にはどのような分析が行われているのかを、なるべく簡潔に説明します。

 

i.データの入手

 分析業務はデータの入手から始まります。従来の分析案件では、顧客から商品の購買履歴データやWebサイトのログデータを預かるのが基本でしたが、近年では国や自治体の後押しの元、各種データのオープンソース化(オープンデータ化)が進んできており、それを活用したビジネスも今後は一層活発になっていくことが予想されます。

Webページで公開されている情報・データの著作権は、基本的にはそのページを作成した個人および団体に属します。しかし、それらのデータの中には、一定の条件のもと、誰でも自由に使用できるオープンデータが存在します。「一定の条件」には、そのデータの作成者を明記することや、その2次製作物もオープン性を保つことなどが含まれていることが多いです。あるいは、全く規制がないこともあります。

オープンデータとは、Open Knowledgeが提唱している The Open Definition (オープンの定義)に従うと、「誰でも自由に、どんな目的に対しても使用・共有が可能であること。」と定義されており、それが満たすべき三つの要素もConformant Licensesとして次のように明示しています。それは、

  1. オープン・ライセンス(法律に起因)
  2. データ・アクセス(技術に起因)
  3. オープン・フォーマット(技術に起因)

です。

一番目の要件のオープン・ライセンスは、データをオープンデータとして使用する際に、著作権等の法律に抵触する恐れをクリアにするために必要な条件です。Open Knowledgeではオープンの定義に適合するライセンスとして、以下のライセンスを推奨しています。

img0
この図は左のカラムから順に、(1)ライセンス名、(2)ライセンスが適用される領域、(3)データの権利帰属表示の必要性の有無、(4)ライセンス継承の必要性の有無、(5)コメント、となっています。特に留意する必要があるのは、権利の帰属表示およびライセンス継承の必要性の有無です。権利の帰属表示とは、2次利用して製作したコンテンツやデータを配布する際には、データ作成者を明記することを指します。また、ライセンスの継承とは、元にしたデータのライセンスを2次製作物にもそのまま適用することを指します。利用するデータがどのライセンスを採用しているかを正確に確認し、ライセンス違反とならないように注意しましょう。

二、三番目の要件はオープンデータを実際に利用する際にハードルとなる技術的な問題をクリアするために考案された条件です。データ・アクセスでは、データが電子化されており、無償でダウンロード可能であること、さらにAPIのような形式ではなく、データ全体を一括でダウンロードできる形式であることが望ましいとしています。また、オープン・フォーマットでは、プログラミング言語や開発環境に依存しないようなCSV形式やJSON、XML形式で配布することが望ましいと言及しています。

この節の最後として、現時点(2015年)で存在するオープンデータの一部を紹介します。これらのサイトでは先進的にオープンデータ化に取り組まれておられます。情報サービスを提供する側としては、オープン化の流れは非常に有り難いことであり、これを阻害する原因になるライセンス違反行為や迷惑となる行為は可能な限り慎みましょう。

サイト名 公開データ データ形式 ライセンス
Open Weather Map 世界の天気、気温、気圧、湿度など JSON
XML
HTML
CC BY-SA
Open Street Map 世界中のボランティアの方々が日々編集している地理情報 XML
PBF
ODbL
DBpedia Wikipediaからデータを抽出し、汎用化させた構造データ RDF
SPARQL
CC BY-SA 3.0
NHK番組表API 現在NHKで放送中の番組名やその詳細情報など JSON 独自ライセンス
クレジット表記など

【参考文献】
『インターフェース』2016年1月号, CQ出版社

 

現在の機械学習分野を概観するための基礎知識  ~一般的な分析業務の手順とその留意点~ (2)ii.データ理解と特徴量の抽出 データ入手後には、そのデータの性質を理解し、機械が理解できるようなフォーマットに変換する(特徴量を抽出...
現在の機械学習分野を概観するための基礎知識  ~一般的な分析業務の手順とその留意点~ (3)iii.分析手法の選定  機械学習の手法には、大きく分けて3つのグループがあります。それは、「教師あり学習」と「教師なし学習」、「半教...
現在の機械学習分野を概観するための基礎知識  ~一般的な分析業務の手順とその留意点~ (4)v.学習モデルの性能評価  教師あり学習の際には、学習させたモデルでどの程度正しくラベルが付与されたかを数値化することが可能です。この...