DUICUO

3Dガウススプラッティングアルゴリズムとはお別れです!ニューラル補償機能を備えたスペクトルプルーニングされたガウス場アルゴリズム、SUNDAEがオープンソース化されました。

この論文の著者には、インペリアル・カレッジ・ロンドンの修士課程学生であるヤン・ルンイー氏、北京航空航天大学の修士課程2年生であるチュー・ジェンシン氏、北京理工大学の修士課程2年生であるジャン・ゾウ氏、北京理工大学の学部4年生であるイェ・バイジュン氏、中国科学院大学の学部3年生であるチャン・イーフェイ氏、中国電信人工知能研究所のマルチメディア認知学習研究室(EVOLラボ)の室長であるチャオ・ジアン氏、および清華大学インテリジェント産業研究所(AIR)の助教授であるチャオ・ハオ氏が含まれています

近年、3Dガウススプラッティング(3DGS)は、その高速なレンダリング速度と高いレンダリング品質により、新しい3D表現手法として注目を集めています。しかし、この手法はメモリ消費量も大きく、例えば、十分に学習されたガウス場は300万以上のガウスプリミティブと700MB以上のメモリを必要とする場合があります。

最近、インペリアル・カレッジ・ロンドン、北京航空航天大学、北京理工大学、中国科学院大学、中国電信人工知能研究所マルチメディア認知学習ラボ(EVOLラボ)、清華大学知能産業研究所(AIR)の研究者らが共同で、「SUNDAE:ニューラル補償を備えたスペクトルプルーニングされたガウス場」と題する論文を発表しました。彼らは、メモリ消費量の増加はプリミティブ間の関係性が考慮されていないことに起因すると主張しています。論文では、スペクトルプルーニングとニューラル補償を用いた、メモリ効率の高いガウス場「SUNDAE」を提案しています。

  • 論文リンク: https://arxiv.org/abs/2405.00676
  • プロジェクトのホームページ: https://runyiyang.github.io/projects/SUNDAE/

まず、ガウス分布のプリミティブ間の関係性をシミュレートするために、空間情報に基づいたグラフを構築し、グラフ信号処理に基づくダウンサンプリングモジュールを設計します。このダウンサンプリングモジュールは、プリミティブを刈り込みながらも目的の信号を保持します。また、刈り込みによる品質低下を補正するために、軽量ニューラルネットワークを用いてレンダリングされた特徴をブレンドすることで、プリミティブ間の関係性を重みに取り込みながら、品質低下を効果的に補正します。

SUNDAEの性能は豊富な結果で実証されています。例えば、Mip-NeRF360データセットでは、SUNDAEは104MBのメモリで26.80PSNRと145FPSを達成しました。一方、標準的な3Dガウススプラッティングアルゴリズムは、523MBのメモリで25.60PSNRと160FPSを達成しました。

一方、オープンソースとしてリリースされて以来、SUNDAE は国際的に広く注目を集め、著名な NeRF コミュニティの MrNeRF や AI 研究コミュニティのメンテナーである Ahsen Khaliq 氏、関連分野の多くの研究者によって共有され、フォローされています。


I. ニューラル補償によるスペクトル刈り込みガウス場

1.1 スペクトルグラフベースのプルーニング戦略

3DGSは、シーンを表現するためにガウス分布のプリミティブセットを使用します。これらのプリミティブは3D空間に不規則に分布しているため、メッシュなどの従来の構造ではなく、グラフベースのアプローチでプリミティブ間の関係性を捉える手法を提案します。

具体的には、グラフ信号処理理論を用いて、グラフ信号に基づいて特定のスペクトルに関する情報を保持する最適なサンプリング戦略を導出します。スペクトル帯域幅を制御することで、枝刈り率を柔軟に制御し、ガウス分布プリミティブ間の関係をモデル化できます。図1(c)に示すように、レンダリング品質を低下させることなく、ガウス分布プリミティブの90%の枝刈りを制御できます。

図 1: (a) 3DGS 7k 反復の結果、(b) 3DGS 30k 反復の結果。3D シーンを表現するためにより多くのガウス プリミティブを使用しているため、品質は向上しますが、速度は低下し、ストレージ スペースは大きくなります。(c) ガウス プリミティブの 90% が削減されたため、ストレージ スペースが大幅に削減されましたが、同様のレンダリング効果が得られました。

ガウス要素の中心をグラフへの信号入力として、ガウス要素間の距離を辺として用います。グラフの隣接行列は次のように表すことができます。


ここで、はガウス要素の中心点、は閾値ハイパーパラメータ、は距離行列の分散です。つまり、2つのガウス要素間の距離が閾値未満の場合、それらの間にエッジを確立します。グラフの隣接行列を確立した後、Haar-likeフィルタを用いてグラフ上の信号を処理し、特定の周波数帯域のグラフ信号を得ることができます。最後に、目的の周波数帯域に応じてグラフを刈り込みます。本稿では、バンドストップフィルタを用いて、物体の詳細を表す高周波信号と背景点を表す低周波信号を保持しました。

1.2 神経補償機構

スペクトルプルーニングを行うと、ガウス分布のユニットが過剰に削除されるため、レンダリング品質は必然的に低下します。この問題に対処するため、図2に示すように、ニューラルネットワークを用いてこの品質低下を補正します。

ガウススプラッティングから特徴スプラッティングに移行し、軽量畳み込みニューラルネットワークを導入して、画像上のRGB値にマッピングされたガウスプリミティブを出力することで、異なるプリミティブの情報を融合しました。これにより、補正ネットワークの重みを2次元画像空間に中間配置することで、プリミティブ間の関係性を捉えることができます。


図 2: 左側に示すオリジナルの 3DGS は、プリミティブ間の関係をキャプチャしないため、多くのストレージ スペースを必要とします。中央は、ガウス プリミティブ間の関係をモデル化するスペクトル プルーニング戦略を示しています。右側は、レンダリングを改善するために 2D 機能を使用したニューラル補償を示しています。

具体的には、3DGS のように RGB 画像を直接レンダリングするのではなく、3D ガウス プリミティブの特徴を 2 次元の特徴マップに投影する 3D ガウスの微分可能なラスタライザーを通じて特徴マップを取得します。

次に、軽量ニューラルネットワークを用いてプリミティブ間の関係性をモデル化し、スペクトルプルーニング後の品質低下を補正します。このネットワークは、スキップ接続を備えた4層の完全畳み込みU-Netで構成され、異なるプリミティブからの情報を集約します。ダウンサンプリングは平均プーリングを用いて行われ、画像のアップサンプリングは双線形補間を用いて行われます。ネットワークはラスタライズされた特徴マップを入力として受け取り、RGB画像を出力します。

SUNDAE の全体的なフレームワークを以下の図 3 に示します。

図3: (a) パイプライン:事前学習済みの3Dガウス場に対し、グラフベースのプルーニング戦略を用いてガウス要素をダウンサンプリングし、畳み込みニューラルネットワークを用いてプルーニングによる損失を補正する。(b) グラフベースのプルーニング:ガウス要素間の空間関係に基づくグラフを用いてプルーニングを行う。バンドストップフィルタを用いることで、この処理は高周波成分から詳細な情報を抽出しながら、低周波成分の一般的な特徴を捉えることを容易にし、シーン全体を包括的かつ効率的に表現することを可能にする。

1.3 継続的な剪定戦略

さらに、ピーク時のメモリ要件を削減するための継続的なプルーニング戦略を提案します。完全な稠密ガウス場からプリミティブを削除する学習後プルーニングとは異なり、継続的なプルーニングでは、学習プロセス全体を通して、事前に定義された間隔で、特定の数または割合のプリミティブを定期的に削除します。このアプローチは、3Dガウス場を学習する際にプリミティブの最大数を継続的に制御することを目的としており、これにより学習中のピーク時のメモリ要件を削減し、GPUメモリが限られたGPUでも学習を可能にします。

経験上、ピークメモリの削減によるメリットは、最終的なメモリフットプリント制御の弱化という代償を伴うことが分かっています。例えば、2000回の反復ごとにプリミティブの20%を削減すると、3Dガウス場の最終的な収束状態は、期待される20%の削減から逸脱する可能性があります。

さらに、この変動はシナリオによって異なる可能性があり、プルーニング効果の予測可能性と一貫性の複雑さが増します。そのため、必要に応じて継続的なプルーニング戦略を代替案として検討します。

II. 実験結果

2.1 定量的結果

SUNDAEを最先端の3DGSおよびNeRFアルゴリズムと比較しました。3DGSと比較すると、私たちのモデルはメモリ使用量がわずか10%で同等の結果を達成し、メモリ使用量が30%または50%の場合でもオリジナルの3DGSを上回ります。さらに、FPSの点でも他のNeRF関連アルゴリズムを大幅に上回ります。

これは、当社のモデルがガウス要素間の関係を適切に捉えることができ、より少ないガウス要素を使用して 3D シーンを効率的に表現できるためです。

2.2 定性的な結果

定性的な結果に見られるように、1% および 10% のサンプリング レートでの SUNDAE の定性的な結果を、3DGS および InstantNGP の結果と比較しました。

定性的な結果から、SUNDAEはメモリ消費量をわずか10%、あるいは1%に抑えながら、新たな視点から同様の合成品質を実現できることがわかります。グラフはプリミティブ間の関係性をうまく構築し、ニューラル補償ヘッドはレンダリング品質を効果的に維持しています。さらに、図5の4行目と最後の行からわかるように、スペクトルプルーニングによってカメラに近い浮遊物体を除去できます。

2.3 アブレーション実験

2.3.1 バンドストップフィルタ

バンドストップフィルタの比率はパラメータで表されます。具体的には、グラフベースのプルーニングプロセスにおいて、一定の割合の(1-)ハイパスフィルタと残りの(1-)ローパスフィルタを含む複数のプリミティブをサンプリングしました。

結果は、このパラメータがレンダリング品質に大きな影響を与えることを示しています。50%の比率で最良の結果が得られますが、低周波信号または高周波信号に過度に重点を置くと品質が低下します。これは、50%の比率によって高周波ディテールと低周波背景のバランスが保たれ、パフォーマンスが向上するためです。

2.3.2 補償ネットワーク

図6と表2に示すように、補償ネットワークの重要性を定性的および定量的に実証しています。表2に示すように、すべてのサンプリングレートにおいて、ニューラル補償を使用すると、使用しない場合と比較してパフォーマンスが向上します。これは、図6に示す可視化結果によってさらに裏付けられており、スペクトルプルーニングによって引き起こされるパフォーマンス低下を補償するモジュールの能力を示しています。また、プリミティブ間の関係性が適切に表現されていることも証明しています。

表3に示すように、様々なサイズの補償ネットワークで実験を行いました。ネットワークサイズを大きくしてもレンダリング品質が必ずしも向上するわけではありませんが、これはADOPの調査結果と一致しており、同様の傾向を示しています。品質とメモリの最適なバランスを実現するために、30MBの4層UNetをデフォルト設定として使用しました。

2.3.3 より多くのサンプリングポイント

上記の表1に示すように、プリミティブの50%を保持すると、元の3DGSよりもレンダリング品質が向上します。また、サンプリングレートが最終結果にどのような影響を与えるかを調べるため、プリミティブを80%保持した場合とすべてのプリミティブを保持した場合の追加テストも実施しました(表4参照)。

結果は、プリミティブの80%を保持するとレンダリング品質が向上し、LPIPSの改善が見られるものの、PSNRとSSIMの視覚的な改善は最小限にとどまることを示しています。すべてのプリミティブを保持し(さらにエポック数を増やしてトレーニングしても)、品質はさらに向上せず、プリミティブ間の関係性をモデリングすることの重要性が浮き彫りになります。効果的な関係性モデリングがなければ、プリミティブの数が増えるほどモデルの収束が困難になり、プリミティブ数が多いとシーンの表現に悪影響を及ぼします。

さらに、レンダリング品質とストレージ効率のバランスを取ることが目標でしたが、プリミティブの 80% を保持するためにストレージを 620 MB に増やしても、品質はわずかにしか向上せず、ストレージ効率が低下しました。

2.3.4 連続サンプリング戦略

MipNeRF360データセットの自転車シーンとカウンターシーンにおいて、連続サンプリング戦略をテストしました。プルーニング間隔、反復回数、プルーニング率をそれぞれ設定しました。表5に示すように、Pointsはトレーニング後のプリミティブ数、Ratioはトレーニング後のプリミティブ数と元の3DGSの比率のおおよその値です。

結果は、この戦略はピーク時のメモリ使用量を削減できるものの、最終的なメモリ使用量(ポイントと比率に反映)を制御することが難しいことを示しています。そのため、トレーニング後のプルーニング戦略を検証しましたが、オープンソースツールキットでは代替手段として継続的なプルーニング戦略も提供しています。

2.3.5 効率評価

トレーニング時間、CUDA メモリ、レンダリング フレーム レート、および ROM ストレージの詳細については、表 6 を参照してください。「Ours-50%」バージョンは、許容可能なトレーニング時間 (1.41 時間) 内で最高のレンダリング品質を達成しただけでなく、リアルタイム レンダリングを可能にし、トレーニング中の CUDA メモリ使用量と ROM ストレージを大幅に削減したことは注目に値します。

III. 結論

本研究では、グラフ信号処理を導入することでガウスプリミティブ間の関係をモデル化し、異なるプリミティブからの情報を混合して、プルーニングによって引き起こされる情報損失を補う、新しいニューラル補償スペクトルプルーニングガウスフィールド SUNDAE を提案します。

ガウス分布のプリミティブ間の空間情報を用いてグラフを構築し、関係性をモデル化します。そして、スペクトル情報に基づいて不要なプリミティブを削除します。軽量ニューラルネットワークを用いることで、プリミティブの削除後に生じるレンダリング品質の低下を補正します。

実験結果によると、SUNDAE はメモリ使用量を大幅に削減し、効率を向上させ、3DGS の効率を維持しながら高忠実度のレンダリング品質を維持します。