複数視点から画像生成する3D機械学習モデル

近年VRなどで必要不可欠となる複数の視点の画像から新たな視点画像を生成するタスク「Novel View Synthesis」が注目されています。このタスクで驚異的な精度を誇り着目された手法が「NeRF」と呼ばれるものです。「NeRF」は機械学習により画像を生成するAIモデルです。
今日は、複数視点から画像生成するAIモデル「NeRF」を紹介しようと思います。

1. NeRFの概要

「NeRF」はGoogleの研究部門であるGoogle Research及び、米カリフォルニア大学によって研究開発された、さまざまな角度から撮影した画像を機械学習により自由な視点から見られる画像を生成する技術です。

上の画像はレゴのブルドーザーを４視点からそれぞれ生成し、別視点から見ることができます。この技術を用いて生成した画像は視点を変えても、その視点に合わせた新しい画像が連続的に生成されます。そのため、立体感を保ったまま閲覧が可能になります。

2. NeRFの技術的側面

「NeRF」はニューラルネットワークの一種であるMultilayer perceptronで学習されています。このモデルの最大の特徴は、一般的な画像生成モデルで広く使用されるCNN(Convolutional Neural Network)が使われていないことにあります。このモデルではCNNを使用せずともそれ以上の高精度な結果を出力できます。
「NeRF」ではニューラルネットワークで表面と体積の表現をエンコードする機能があります。
これにより、「NeRF」では他の視点からの画像を予測しレンダリングすることが可能になりました。
モデルは、画像の各点の位置（複数視点の3次元座標）と見る角度（2次元の視線方向）から対象物の密度と色を予測します。その後画像を合成します。合成された画像は光の反射も考慮しているため、見る視点を変更すると同時に反射具合も変わり、写実的な状態を表現することができます。

3. おわりに

VRなどの3Dレンダリングに使われる画像生成モデルの「NeRF」について紹介しました。
CNNを使わずに画像生成することが従来のモデルとの大きな違いですね。
近日では、新たにGoogleが超リアルな画像生成モデルとして「Parti」を報告しました。
自己回帰によるテキストから画像への変換が行われるモデルで、パラメーターが最大200億個に達するまでクオリティは向上するのことです。
情報が出次第また調査したいですね。

技術情報

複数視点から画像生成する3D機械学習モデル

1. NeRFの概要

2. NeRFの技術的側面

3. おわりに

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

VSCodeとpytestでPythonコードをテスト&デバッグする

時系列データから大量の特徴量を生成するパッケージ「tsfresh」の使い方

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

1. NeRFの概要

2. NeRFの技術的側面

3. おわりに

Tableauでデータソースを置換する時に考慮すること

今、自然言語処理が熱い理由

【sudoでcd】知らない人意外と多い、sudo -s , sudo -i , で対話式シェル

データサイエンティストが知るべきビジネス用語#1：ビジネスモデルとプレイヤー

勉強会やセミナーに参加する際のあるべき姿勢

GRIの社員として考えていること

バイオインフォマティクスから学ぶ数理的問題解決（DNA 鑑定編②）

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

VSCodeとpytestでPythonコードをテスト&デバッグする

時系列データから大量の特徴量を生成するパッケージ「tsfresh」の使い方

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）