AI

顕微鏡画像特化型の画像分類アルゴリズム「Wndchrm」

現代の画像分類アルゴリズムと言えば、ディープラーニングが代表で最も良い精度を出すことはよく知られています。他のアルゴリズムとして有名なものは、k-means、k近傍、サポートベクターマシンなどがあります。しかし、これらの共通する弱点としてサンプル数の多さがあります。ディープラーニングで言えば 1 クラスあたり万オーダーの画像数を求められることも珍しくありません。他のアルゴリズムでも万はいかずとも、精度を担保するために画像千枚以上はほしいところでしょう。

ここで、生命科学の実験に話を移します。生物の最小単位は「細胞」で、その細胞のしくみを解明するために細胞の中身を可視化する研究が多くされています。その研究は有名どころでいえば、ガン細胞の早期発見やその治療に関わるもの、ここ数年の話題でいえばコロナウイルスの予防に役に立っています。

しかし、これらと AI を組み合わせようとしたときに画像の取得時間が問題になります。多くの場合スマホでパシャパシャ撮影するというわけにもいかず、一日にとれる画像の枚数は限られています(私自身細胞核の研究をしていましたが、100枚の画像を取得するのに一週間かかっていました)。こうなると、データ数が問題で上記のアルゴリズムをそもそも使えないという事態に陥ります。何年もかけるとか人を増やすとかやりようはいくらでもあるかもしれませんが、少ないサンプルである程度の精度を出せるのが嬉しいかと思います。

そこで、タイトルにある「Wndcharm」アルゴリズムが有効です。これは 2008年に開発されたアルゴリズムで新しいものではないですが、ツール化されており、最近の研究でも利用されるものです。その最大の特徴は画像数1クラスあたり30~80枚で90%程度の正答率が出ることです。(それ以上増やしてもあまり精度は変わらないという結果が出ているそうです)

アルゴリズム概要

Wndcharm アルゴリズムは以下四つのフローで構成されます。

  1. 学習用画像から特徴量を算出
  2. 特徴量を絞り込む
  3. クラス間距離を計算
  4. 検証用画像で正誤判定

ここでは、詳しく触れませんが画像一枚から約3,000種の特徴量を計算し、フィッシャー情報量で次元削減をし、WND-5 と定義された特殊な距離でクラスタリングを行い、正誤判定をしており。特徴量エンジニアリングから機械学習そして評価までを一括でやるものとなっております。

ここで計算される約3,000種類の特徴量は、画素輝度のヒストグラム・ウェーブレット変換やチェビシェフフィルターなどの周波数フィルタリング・テクスチャー系の二次統計量から生成されており画像変換手法から得られる特性を最大量抽出できています。

これを実行すると、評価と特徴量重要度、そして各クラス間の類似性まで算出できます。ここはディープラーニングではできない部分です。また、特徴量の意味を理解するのみは壁がありますが、特徴量重要度もあるので解釈性もありそうです。加えて、画像という非構造化データを特徴量でまとめた構造化データに変換しているので、クラスタリングの部分を他のアルゴリズムに置き換えられそうです。(いつか実験してみたいと思ってます。)

ということで、顕微鏡画像のようなオブジェクトとバックグラウンドがはっきりしている画像限定ですが、小枚数でディープラーニングよりかは高速に高精度を出すことができる手法「wndchrm」の紹介でした。最後に Git と論文のリンクを貼っておきます。読んでいただきありがとうございました。

Git: https://github.com/wnd-charm/wnd-charm

論文: https://ome.irp.nia.nih.gov/wnd-charm/PRL_2008.pdf

Yasui
アナリティクス&デベロップメント所属 特技はPCR