DATA-SCIENCE

現在の機械学習分野を概観するための基礎知識  ~一般的な分析業務の手順とその留意点~ (1)

数学、主に統計学に立脚した成長著しい機械学習の分野において、どのような点に留意して解析されているのか、また、具体的にはどのような分析が行われているのかを、なるべく簡潔に説明します。

 

i.データの入手

 分析業務はデータの入手から始まります。従来の分析案件では、顧客から商品の購買履歴データやWebサイトのログデータを預かるのが基本でしたが、近年では国や自治体の後押しの元、各種データのオープンソース化(オープンデータ化)が進んできており、それを活用したビジネスも今後は一層活発になっていくことが予想されます。

Webページで公開されている情報・データの著作権は、基本的にはそのページを作成した個人および団体に属します。しかし、それらのデータの中には、一定の条件のもと、誰でも自由に使用できるオープンデータが存在します。「一定の条件」には、そのデータの作成者を明記することや、その2次製作物もオープン性を保つことなどが含まれていることが多いです。あるいは、全く規制がないこともあります。

オープンデータとは、Open Knowledgeが提唱している The Open Definition (オープンの定義)に従うと、「誰でも自由に、どんな目的に対しても使用・共有が可能であること。」と定義されており、それが満たすべき三つの要素もConformant Licensesとして次のように明示しています。それは、

  1. オープン・ライセンス(法律に起因)
  2. データ・アクセス(技術に起因)
  3. オープン・フォーマット(技術に起因)

です。

一番目の要件のオープン・ライセンスは、データをオープンデータとして使用する際に、著作権等の法律に抵触する恐れをクリアにするために必要な条件です。Open Knowledgeではオープンの定義に適合するライセンスとして、以下のライセンスを推奨しています。

img0
この図は左のカラムから順に、(1)ライセンス名、(2)ライセンスが適用される領域、(3)データの権利帰属表示の必要性の有無、(4)ライセンス継承の必要性の有無、(5)コメント、となっています。特に留意する必要があるのは、権利の帰属表示およびライセンス継承の必要性の有無です。権利の帰属表示とは、2次利用して製作したコンテンツやデータを配布する際には、データ作成者を明記することを指します。また、ライセンスの継承とは、元にしたデータのライセンスを2次製作物にもそのまま適用することを指します。利用するデータがどのライセンスを採用しているかを正確に確認し、ライセンス違反とならないように注意しましょう。

二、三番目の要件はオープンデータを実際に利用する際にハードルとなる技術的な問題をクリアするために考案された条件です。データ・アクセスでは、データが電子化されており、無償でダウンロード可能であること、さらにAPIのような形式ではなく、データ全体を一括でダウンロードできる形式であることが望ましいとしています。また、オープン・フォーマットでは、プログラミング言語や開発環境に依存しないようなCSV形式やJSON、XML形式で配布することが望ましいと言及しています。

固定ページ: 1 2

この記事をシェアする