|
最近、アリババのタオバオテクノロジーと上海交通大学の画像通信・ネットワーク工学研究所が共同で作成した論文「AdaInt:リアルタイム画像強化における3Dルックアップテーブルの適応間隔の学習」が、トップクラスの国際会議CVPR 2022に採択されました。すべてのコードとモデルはオープンソース化されています。 コンピュータビジョン分野における3大カンファレンスの一つであるCVPRは、学術界における重要な年次イベントです。CVPRは「The Conference on Computer Vision and Pattern Recognition(コンピュータビジョンとパターン認識に関する会議)」の略で、IEEEが主催する最高レベルの国際学術会議です。毎年世界中で開催されるこの会議では、物体認識、物体検出、画像セグメンテーション、画像復元、画像強調など、画像または動画のパターン抽出と認識に関連する幅広いトピックが取り上げられます。今年のCVPRには、世界中から8,161件の有効な論文投稿がありました。会議議長と多くの査読者の努力により、2,067件の投稿が採択され、採択率は約25.33%となりました。 本論文では、ディープラーニングを用いて不均一なレイアウトを持つ3Dカラールックアップテーブルを適応的に学習することで、入力画像の色彩を効率的に強調する革新的な手法を初めて提案します。この手法は、公開されている学術シミュレーションデータセットにおいて最高の性能指標(PSNR)を達成すると同時に、現在利用可能な最速の手法です。本論文で紹介する色彩強調手法は、優れた性能と速度を特徴としており、4K映像を効率的に処理し、彩度とコントラストを向上させることができます。そのため、リアルタイムストリーミングのシナリオに適しており、より普遍的にアクセス可能な方法でライブ放送の画質を向上させるのに役立ちます。 論文リンク: https://arxiv.org/abs/2204.13983 プロジェクトアドレス: https://github.com/ImCharlesY/AdaInt 著者所属: タオバオテクノロジー、上海交通大学、大連理工大学 背景色彩強調は画像処理の基本的な側面であり、カメラ画像処理システムの中核コンポーネントとして、デジタル画像画像処理チェーンの様々な段階で広く適用されています。その主な目的は、人間の視覚特性やデバイスの表示要件に合わせて生画像を処理することです。近年、主流となっているディープラーニングベースの色彩強調手法は、強調プロセスを単一の完全畳み込みネットワークに簡素化しています。データ駆動型のエンドツーエンド学習を通じて、これらの手法は公開データセットにおいて最先端の色彩強調結果を実現できます。しかし、完全畳み込みパラダイムは、特に超高解像度画像(4K以上など)において、ネットワーク推論に高い時空間計算量をもたらすため、これらの手法の実用化は制限されています。 最新の研究[1]によると、ほとんどの色強調/美化演算子(ホワイトバランス、彩度制御、トーンマッピング、コントラスト調整、露出補正など)はポイント操作のカテゴリに属しています。 変換演算子のパラメーターは、画像の全体的または局所的な統計特性に応じて決定されますが、変換演算子自体による画像の操作と編集は、位置およびピクセルに依存しません。 それらのカスケードは、全体的な効果、つまり関数マッピングの観点から、単一の3次元色変換とほぼ同等です。 このマッピングは、入力画像の色点を同じ色空間または異なる色空間の別の色点にマッピングします。 直感的なアイデアは、一連の強調変換演算子を単一の色変換演算子にマージすることです。これにより、一連の変換操作によって発生する計算量が削減され、累積エラーが強調効果に与える影響が軽減されます。 この文脈において、3D ルックアップ テーブル (3D LUT) は非常に価値のあるデータ構造です。変換関数の可能なすべての入力色の組み合わせを走査し、対応する出力色結果を記録することにより、複雑な色変換関数を効率的にモデル化することができ、コンピューター ハードウェア設計やカメラ イメージング システムに幅広く応用されています。ただし、入力空間全体を走査すると、多くの場合、大きなメモリ オーバーヘッドが発生します。より一般的なアプローチはスパース ルックアップ テーブルです。入力空間でスパース サンプリングが実行され、サンプリングされたポイントの対応する出力のみが記録されます。サンプリングされなかったポイントについては、最も近い近傍のサンプリングされたポイントの出力の線形補間によって、その変換出力が得られます。したがって、スパース ルックアップ テーブルは、本質的に元の変換関数の非可逆近似であり、変換機能の損失は、区分線形関数を使用して元の変換関数の潜在的な非線形部分を近似することに反映されます。 仕事へのモチベーション3D LUTの計算効率と安定した堅牢な色変換機能により、最新の研究[2]では、3D LUTの高い計算性能とディープニューラルネットワークの強力なデータ特徴抽出機能を組み合わせています。ディープネットワークを使用して、画像からスパースな3次元ルックアップテーブルを適応的に生成し、リアルタイムの色強調を実現し、ディープラーニングベースの適応型色強調における3D LUTの実現可能性と有効性を証明しています。しかし、ディープネットワークを使用してスパース3D LUTを適応的に予測する場合、既存の研究では、3D LUTに記録された出力値の画像適応性のみを考慮し、すべての異なる画像に対して均一な均一なスパースポイントサンプリング戦略(3次元入力色空間を等間隔の3次元グリッドに離散化)を使用しています。スパース3D LUTの入力空間におけるサンプリングポイントの分布も、画像の内容に応じて適応的に調整する必要があることを効果的に考慮していません。この重要なモデリング能力の欠如は、この方法で学習した3D LUTにおける次善のスパースサンプリングポイント割り当て戦略につながり、最終的な3D LUTのモデル変換能力を制限します。 これは次のように現れます。サンプリングポイントのスパース性と、3D LUT変換で使用される線形補間によって引き起こされる非線形変換表現力の損失により、均一サンプリング戦略は、同様の色の入力ピクセルを3D LUTの同じグリッド間隔に量子化する可能性があります。 これらの入力ピクセルの対応する出力値に高い非線形コントラストが必要な場合(画像内の低照度条件下で色の違いが顕著なテクスチャ領域を強調する場合など)、単一のLUTグリッドでは線形カラーストレッチ変換しか提供できず、変換結果が平滑化される可能性があります。 この現象は、下の左側の図に示すように、デジタル信号処理分野におけるサンプリング周波数がナイキスト-シャノンサンプリング定理を満たさないことによって引き起こされる信号歪みに例えることができます。理想的には、スパースサンプリングポイントの数を増やすか、非線形補間を導入することで、この非線形変換能力不足の問題を効果的に軽減できる可能性がありますが、3D LUT方式の計算量とメモリ使用量が大幅に増加し、LUT方式のリアルタイム性能が犠牲になります。さらに、右下の図に示すように、均一サンプリング戦略においてサンプリングポイントの数を直接増やすと、色変換の平坦な領域(出力色が入力色の線形伸張のみである場合など)や、入力色空間におけるピクセル分布が少ない領域において、3D LUTのオーバーサンプリングが悪化し、3D LUTモデルの容量とメモリ消費が浪費されます。 方法の紹介入力空間で均一な量子化間隔を持つ有限のスパースサンプリングポイントを使用して構築された既存の3D LUTの不十分なローカル非線形色変換モデリング機能の課題に対処するため、適応サンプリング間隔学習(AdaInt)に基づく高度なソリューションを提案する。具体的には、3D LUTメソッドのプラグアンドプレイモジュールとして、3D色空間における軽量でコンパクトにサポートされた動的サンプリング間隔予測メカニズムを提案し、設計する。このメカニズムは、入力画像の内容に基づいて、3D LUT内のスパースサンプリングポイントの分布を適応的に予測する。モデルに3D色空間で適応的かつ不均一にサンプリングする能力を提供することにより、モデルは強い非線形変換を必要とする色空間でより多くのサンプリングポイントを割り当てて3D LUTのローカル非線形変換機能を向上させ、比較的平坦な変換を持つ領域に割り当てるサンプリングポイントを少なくして3D LUTの容量の冗長性を減らすことで、3D LUTメソッドの柔軟性と画像適応性を向上させることができる。 提案手法の全体的なモデルフレームワークは上図の通りです。強調対象となる画像をモデルの入力として、色強調を施した高画質画像を自動的に出力し、出力画像と人工的に美化処理された対象画像との間のMSE再構成損失を計算することで、手法フレームワーク全体のエンドツーエンド学習を実現します。 具体的なモデル構造としては、軽量畳み込みニューラルネットワークを用いて、入力画像を固定解像度(256×256ピクセル)にダウンサンプリングし、画像適応型3D LUTの2つのコアコンポーネント、すなわち非均一な入力カラーサンプリング座標とそれに対応する出力カラー値を同時に予測します。 3D LUTの出力カラー値に関しては、既存の研究[2]で採用されているアプローチを継続し、ネットワークを通じて係数を自動的に予測し、各画像に対して複数の学習可能なBasis 3D LUTを動的に重み付けしてマージすることで、すべての出力カラー値を直接回帰することによって発生する多数のネットワークパラメータと計算の複雑さを回避します。 非均一な入力カラーサンプリング座標の場合、3D LUTの3つの色次元はルックアップ処理中に互いに独立していると仮定します。これにより、各色次元の1次元サンプリング座標列を個別に予測し、対応する3次元サンプリング座標を直積(n元直積)によって取得できます。 これら 2 つのコンポーネントを組み合わせることで、適応型の非均一 3D レイアウトを備えた 3D LUT が形成されます。これは、... と呼ばれる慎重に設計された方法によって実現できます。 AiLUT変換 元の入力画像に対して効率的な色変換と強調を行うための、新たな微分可能演算子を提案する。具体的には、標準的なルックアップテーブル変換のルックアップ処理中に低複雑度の二分探索を導入することで、非均一レイアウトルックアップテーブル内のグリッドを決定し、偏微分を導出してネットワークの非均一色サンプリング座標を自動予測することで、エンドツーエンド学習のための勾配を提供する。 実験結果本論文で提案されている AdaInt モジュールは、下の図に示すように、パラメータと計算コストをわずかに増加させるだけで、ベースライン 3D ルックアップ テーブル方式の強化効果を大幅に向上させることができます。 異なる入力画像を視覚化することで、ネットワークは下図に示すように3D LUTを学習します。弱い露出(左のサブ画像)と強い露出(右のサブ画像)の異なる入力画像において、ネットワークが予測したサンプリング座標(3行目の縦線で示す)が画像内の異なるグレースケール値領域に集まっていることがわかります。これは、提案手法が予想通り、大規模なデータ事前分布を用いて3次元色空間で3D LUTを適応的にサンプリングする能力をある程度学習していることを示しています。 公開されている 2 つの画像強化/美化データセット FiveK と PPR10K では、提案手法は、全体的なパラメータ数が少なく、リアルタイムの推論時間が短い強化画像の客観的評価メトリックにおいて既存の手法よりも優れており、最先端のパフォーマンスを実現しています。 要約本稿では、学習可能なアルゴリズムを強化するために使用できる新しいアプローチを簡単に紹介します。 3D LUT AdaIntは、リアルタイムの色強調のための学習メカニズムです。その核となるアイデアは、適応的な画像サンプリング間隔を導入し、非均一な3D LUTレイアウトを学習することです。2つの公開データセットを用いた実験結果から、本手法は性能と効率の両面で他の最先端手法よりも優れていることが実証されました。さらに、著者らは、複雑な基礎変換関数または表現を非均一にサンプリングするという基本的なアイデアは、3D LUTに限らず、他のアプリケーションの改善にも役立つと考えています。この点については今後の課題とします。 |