G検定

【G検定Tips】画像生成の主流〜拡散モデル〜

現在の主要な画像生成モデルの殆どは、その一部に拡散モデル(Diffusion Model)を用いています。G検定受験者であれば、個別のモデルの名称を覚えるよりも、こちらの非常に汎用的な概念である「拡散モデル」の本質をぜひ理解しておいてください。

拡散モデル(Diffusion Model)の訓練の過程は以下の2つの部分から構成される
– ノイズを段階的に加える過程(順過程)
– ノイズを除去する過程(逆過程)

図1に順過程と逆過程の模式図を示します。

【モデル訓練】
画像に徐々にノイズを加えて画像を劣化させた(拡散過程)後に、ノイズを少
しずつ除去することで元画像を復元することを学習します(拡散過程の逆過程)。

■順過程/拡散過程(forward process)
訓練用画像に対して、ガウシアンノイズを段階的に加え、最終的に全体がノイズになるまで劣化させます(図2)。

■逆過程(reverse process)
ノイズを加えた画像を入力とします。ニューラルネットワークを用いて各ステップで「加えられたノイズ」を推定します(教師あり学習)。様々なノイズレベルでこのような学習することで、画像の正しい情報を段階的に復元する能力を獲得します。また、多様な画像で学習することで様々な画像分布を再現できるようになります。

【新しい画像の生成】
初期状態として、完全にノイズに覆われたダミー画像を用意します。一般的にガウス分布からサンプリングされたノイズを用います。学習済みモデルを用いて、そのノイズを少しずつ取り除きながら目標とする画像に近づけていき、結果として画像を生成します。学習した逆過程を繰り返し適用し、段階的に画像を生成することができるため、細部まで調整可能かつ高品質の画像を生成可能です。

注意点としては、画像そのものを直接予測しているのではなく、ノイズを除去することで画像を復元することを学習していることです。

図2にきれいな画像にガウシアンノイズを追加する例を示しています。これによって、復元ネットワークの訓練データを作成していると解釈可能です。直感的理解としては、「壊し方のルールを使って、直すための問題を大量に作っています。 「画像を少しずつ壊す」ことができれば、「少しずつ直す」こともできるようになります。

図1:順過程ではノイズを段階的に加える(元画像 𝑥0  ​、ノイズ付き画像 𝑥𝑡、​加えたノイズ q)。tが大きいほどノイズが占める割合が大きい。逆過程では各ステップのノイズを推定する(教師あり学習)。

 

図2:順過程できれいな画像にガウシアンノイズを追加するイメージ。

出典:Score-Based Generative Modeling through Stochastic Differential Equations, https://arxiv.org/abs/2011.13456

yan
データ分析官・データサイエンス講座の講師 「G検定」の分野で講師と著者として活動しております。 著書には以下のものがあります。 ◯ディープラーニングG検定(ジェネラリスト)最強の合格テキスト[第2版] [徹底解説+良質問題+模試(PDF)] /  ◯ディープラーニングG検定(ジェネラリスト)最強の合格問題集[第2版] [究極の332問+模試2回(PDF)]
データ分析・AIの専門家集団 GRI