データサイエンス

蒸留モデルを創薬分野へ活用

AIを用いた薬開発

この記事では、機械学習の手法を創薬に応用させているトピックを紹介します。

昨今のウィルス拡大の中、メディアでは、「人工知能を用いた治療薬開発」に関する報道が相次いでいます。現時点、開発終盤の治験の段階は人工知能(AI)に完全に置き換えることができないため、そのように開発された治療薬が速やかに上市するには至っていません。

しかしながら、現在流行している新型コロナウィルスの長期的な影響を考えると、このような、AIを用いた迅速な治療薬開発の技術構築を続けることは、人類にとって有意義な財産となるでしょう。仮に新型コロナウィルスが根絶したとしても、今後も人類は新たなウィルスに直面し続けるので、全く同じスタンスです。

「人工知能」というワードは一旦脇に置き、コンピュータを用いた薬の開発全体の歴史は非常に長いです。自然現象を包括的に支配する方程式がニュートン方程式のような古典的な式では完全に賄えないことが明らかとなりました。それをもって、分子の挙動は解析的に解くことのできない量子論的な式で記述され、コンピュータを用いた数値計算が活用されるようになりました。分子1つの挙動でさえ、非常に複雑な方程式を近似することによってしか記述できません。その上で膨大な数の分子、さらにタンパク質や核酸などの巨大分子の相互作用となれば、数値計算でさえも容易ではありません。

蒸留モデルを用いた分析手法

機械学習の分野では、「蒸留」という手法があります。大きいアルゴリズムの「入力」と「出力」を学習させることで、本質を捉えた小さなモデルを作るやり方を指しています。創薬においても、蒸留のコンセプトを用いたシミュレーションの効率化が盛んに研究されています。スパコンを用いて高精度なシミュレーションを行った「入力」と「出力」をデータベース化し、これを用いて機械学習のモデルを構築します。このようなプロセスにより、どのようなアミノ酸配列であれば、どのような相互作用により、どのような寄与が働くのか、ということが抽出され、小さなモデルで再現することができるようになります。

このようなモデルを作ることのメリットとして以下が挙げられる。

  • スパコンが使えない人にも、疑似的なシミュレーションを行うことができ、多数の研究者による研究が活発化し、技術開発が促進される
  • 網羅的なスクリーニングを小さなモデルで行い、高い性能が期待できるものについて高精度なスパコンを用いるといった、柔軟な対応により、研究全体の効率化を図ることができる

上記のような蒸留モデル意外にも、創薬分野においては近年、機械学習の技術の活用が盛んにおこなわれています。2012年にKaggleで薬の活性を予測するコンテストを行いました。そのときに優勝したチームは、深層学習を用いることで、創薬の専門家の支援なしに勝利したことで注目されました。

データサイエンス分野の研究者が創薬に参入したことで、従来のように論文のみが公開されるのとは異なり、アルゴリズムそのものがオープンソースとして公開され、誰にでも利用され、技術検証できるようになりました。これは研究開発のスピード向上に貢献します。このように、機械学習が既存の分野に入ることで開発の効率化に寄与しています。薬は、治験など時間のかかるプロセスがあるため、承認されるまでに時間がかかります。そういう事情もあって現時点では機械学習モデルを活用した承認薬の開発はまだ報告されていません。しかし、すでに治験フェーズに入っているものは複数あり、近い将来、機械学習によって開発された薬によって、私たちの健康が守られていくようになるのでしょう。

担当者:ヤン・ジャクリン(分析官・講師)

yan
データ分析官・データサイエンス講座の講師