合格者と不合格者を選別する良いテストの問題を設計することは良いAIモデルを設計することと等価だと思った

TL;DR
秋田県立大学の地域ビジネス革新プロジェクトのブログ
AIにおけるクラス分類タスクとのアナロジー
AIモデルのキモはデータの質と特徴量設計
さいごに

TL;DR

タイトルだけ読んで「あー分かるわ」と思ってくれる人とは美味しいご飯が食べられる。
合格基準点の±1, 2点付近に大量の受験者がいるようなテストは受けたくないですよね？AIとか機械学習の予測結果を信頼できるかどうかも、似たような感じだと思いました。
弊社のAutoMLサービス「ForecastFlow」も信頼できるAIを広く世の中にお届けできるように絶賛開発中です。
最近のラノベみたいに、記事タイトルや自社製品の名前を長文にするのクセになりそう。

秋田県立大学の地域ビジネス革新プロジェクトのブログ

当該テーマを考えるキッカケは過去にもいくつかあるんですが、今回記事にしようと思ったのは秋田県立大学の教員の方のブログが面白かったからです。

テストの点数の分布はどうなるのが良いのか？（秋田県立大学アグリビジネス学科　地域ビジネス革新プロジェクト）

ブログ内の画像を引用

こちらのブログでは、2014年からの4年間のテストの成績の分布を示し、どのように試験問題を設計すればきちんと勉強した人とそうでない人を切り分けられるかの試行錯誤について書かれています。かいつまんで箇条書き（※私見も入る）すると、

成績の頻度分布において、点数の高いグループと低いグループの２つが切り分けられるテストが理想的
成績の分布が正規分布のようになっちゃうと1点差で泣く人が続出するし、合格基準点を決めるのも難しくなるので、ある程度勉強すれば良い点数がとれるが、何も勉強していないと全然できないという試験問題を考えるのは重要
問題を選択形式から部分点ありの記述形式にすることで、2017年の成績分布は狙い通りになってきた

という感じになると思います。（面白そうと思った人、ブログを読んでみてください。）

AIにおけるクラス分類タスクとのアナロジー

上記の試験問題の設計は、機械学習やAIの典型的なタスクであるクラス分類問題の設計と似てる、というか本質的には同じと言っても良いと思います。クラス分類AIの用途としては、例えば、「病気にかかっているか否か」「近い内にサブスクを解約するか否か」などを予測するなどが分かりやすいです。

AIは過去のデータを学習して予測するものと言われますが、もう少し詳細に書くと、

人間が過去のデータから特徴量と正解クラスという２つのパートから構成されるデータ・セットを準備
AIはその特徴量と正解クラスを結びつけるためのパターンを学習

という感じになります。ちなみに特徴量とは、例えば性別や年齢、過去の既往歴や問い合わせ回数などのそのヒト・モノを特徴づけるデータのことです。

学習済みのAIモデルの生の出力は、それぞれのクラスに分類される「確率」になります。先の例でいえば、「病気の確率」とか「解約する確率」となる訳ですね。用途によってはこの確率値だけあればOKということもあるでしょうが、予測結果としては結局どっちなのか教えてほしいというケースも多くあります。後者の場合には、どちらのクラスに分類させるかの確率の閾値を決めてあげる必要があります。

クラス分類モデルの性能評価指標として最も良く使われるのはF1というものです。（ここでは何かは言及しません。ググってください。）なので、F1を最大化するように閾値を調整するのが一般的で、弊社のAutoML「ForecastFlow」でも同じ考え方で調整しています。

ForecastFlowクラス分類モデルのサマリー画面

AIプロジェクトのPoCフェーズなどでも、F1などでモデルの精度を報告する場合も多々あります。分かりやすい反面、それだけ見ていてもモデルの信頼性や頑健性までは分かりません。信頼性に関する情報を抜き取るための１つの方法は、モデルの出力する確率の頻度分布をプロットしてみることです。

たとえば、確率の頻度分布として次のような２パターンのモデルがあったとするなら、あなたはどちらのモデルをより信頼しますか？

上下どちらの分布も閾値を中心にして左右対称なので、F1精度としては全く同じになります。しかし、下の分布をもつモデルはちょっとした入力データの誤差によって分類結果が異なるケースが多発することが考えられるので、現場での実運用は難しそうなのが分かると思います。

現在、ForecastFlowではこのようなモデルの頑健性や信頼性に関する情報を簡単にご覧頂くための画面を絶賛開発中で、2022年の初頭ころにはローンチできるかと思います。

AIモデルのキモはデータの質と特徴量設計

理想的なテストの成績分布と頑健性の高い機械学習モデルの確率分布には似た特徴があることが分かりました。テストでは理想形に近づけるために、問題の難易度や質、記述方法などを工夫されていました。その点もAIモデルの場合と全く同じで、予測したいことになるべく直結するデータの収集とその加工における創意工夫が最も重要で、このような背景から、AIはドメイン知識が重要だからビジネスが分かる人を巻き込めとか、特徴量の設計ができるデータエンジニア人材の確保や育成が重要と言われています。

ちなみに、ForecastFlowなどでも利用できる良い特徴量設計の一例として以下の記事をご紹介します。

決定木系アルゴリズムはなぜ特徴量同士の四則演算を明示的に入れる必要があるか（実験編）

決定木系アルゴリズムはいかにして特徴量空間に「斜めの線」を引くか

さいごに

AIと言われると難しいイメージを受けてなかなか実感が湧かない人もいるかもと思うので、なるべく身近な例で説明できると多少は距離感が縮まるかもと思い、この記事では理想的なテストとのアナロジーから、AIでの重要ポイントを説明しました。結局のところは良く分からんけど、AIでやりやいことが少し分かったという方が一人でもいれば目標達成です。

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

合格者と不合格者を選別する良いテストの問題を設計することは良いAIモデルを設計することと等価だと思った

TL;DR

秋田県立大学の地域ビジネス革新プロジェクトのブログ

AIにおけるクラス分類タスクとのアナロジー

AIモデルのキモはデータの質と特徴量設計

さいごに

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

TL;DR

秋田県立大学の地域ビジネス革新プロジェクトのブログ

AIにおけるクラス分類タスクとのアナロジー

AIモデルのキモはデータの質と特徴量設計

さいごに

機械学習による画像認識、そもそも何をしているのか？

直感的にわかる音声認識における「音韻」と「音素」の違い

ミュージックビデオからのポーズ推定

【After Effects】イージングお手軽入門編：動きの緩急って何？

ディープラーニングの挙動を解析的に眺めてみた

トポロジカルソートによるタスクの順序確認

複数視点から画像生成する3D機械学習モデル

DX推進で重要だと思ったポイント

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書