DUICUO

オープンソース: 分離可能なカスケード型ルックアップテーブルに基づくリアルタイム画像強調手法

ECCV(European Conference on Computer Vision)は、コンピュータビジョン分野における三大カンファレンスの一つです。2年ごとに世界各国で開催されるこのカンファレンスでは、物体認識、物体検出、画像セグメンテーション、画像復元、画像強調など、画像や動画のパターン抽出と認識に関する幅広いトピックが取り上げられます。今年のECCVには、世界中から5,803件の有効な論文投稿がありました。カンファレンス議長と多数の査読者の尽力により、1,650件の投稿が採択され、採択率は約28%となりました。

この共同研究論文は、ディープラーニングを用いてカスケード接続された1次元および3次元ルックアップテーブルを適応的に生成することで、入力画像の色を効率的に強調する革新的な手法を初めて提案するものです。この手法は、複雑な色変換を、独立した色成分を持つ変換と結合した色成分を持つ変換の2つのサブ変換に分離します。

従来の写真レタッチ(ISP)における分割統治法に着想を得た、本手法は分離型変換法であり、独立した色成分変換(明度やコントラストの調整など)には1次元ルックアップテーブルを使用し、結合された色成分変換(彩度や彩度の調整など)には3次元ルックアップテーブルを使用します。これらの2つのサブ変換は、動的ネットワークパラダイムを用いて共同で最適化されており、相互に補完し合うことで、単一タイプのルックアップテーブル変換モデリング機能や高い計算/ストレージオーバーヘッドの限界に対処します。公開されている複数の学術的な写真レタッチデータセットを用いた比較実験により、本手法は、最も効率的な既存手法と同等の推論速度を維持しながら、最高の客観的品質指標を達成することが実証されています。

論文の宛先:

https://arxiv.org/abs/2207.08351

プロジェクトアドレス:

https://github.com/ImCharlesY/SepLUT

背景

色彩強調は画像処理の基本的な側面であり、従来の画像信号プロセッサ(ISP)に不可欠な主要コンポーネントであり、画質向上の重要な手段です。画像自体の内容と強調対象となるアプリケーションシナリオに基づいて画像内のピクセルの色を調整し、異なるピクセル間の色コントラストを高め、目立つ部分の色彩彩度を向上させるなど、最終的に画像の視覚効果を高めます。

既存の研究や産業製品では、HSVモデルで定義された明度、色度、彩度などの様々な色特性を調整するために、様々な色変換がしばしば用いられています。中でも、ルックアップテーブル(LUT)は、ISPデバイスにおいて様々な色変換を保存およびモデル化するために広く使用されている重要な技術です。

本質的に、ルックアップテーブルとは、スパースサンプリング、事前計算、キャッシュ、補間ルックアップなどの操作によって実現される複雑な関数変換の非可逆近似です。具体的には、ルックアップテーブルは変換関数の入力空間をスパースにサンプリングし、サンプリングされた入力ごとに対応する出力を表形式で事前計算します。これにより、低コストのルックアップおよび補間操作を使用することで、実際の推論における変換関数の高い計算オーバーヘッドを回避します。入力空間の次元に応じて、一般的に使用されるルックアップテーブルには、1次元ルックアップテーブル(1D LUT)と3次元ルックアップテーブル(3D LUT)があり、それぞれ1次元関数と3次元関数のモデリングに適しています。

図1. HSVカラーモデルと典型的なISPのフローチャート

一般的なISPデバイスは、分割統治法という基本的な設計原理に基づき、複数の異なる1Dおよび3D LUTを用いて様々な色変換を実現します。これらのうち、1D LUTは、異なる色チャンネル/成分(RGBなど)を1次元入力として独立して変換する、成分非依存の変換(露出補正、ガンマ変換など)に適しています。一方、3D LUTは、成分相関変換(彩度調整など)のモデリングに有利で、異なる色成分を混合したり、混合比を調整したりすることができます。

仕事へのモチベーション

従来のルックアップテーブル技術は、多くの場合、専門家による手動のパラメータ調整に依存しており、これには豊富な経験と人手が必要です。さらに、一度の調整で得られるルックアップテーブルパターンは非常に単純化されることが多く、複雑で絶えず変化するアプリケーションシナリオへの適応が困難です。近年、ディープラーニングの強力なデータ特徴抽出能力のおかげで、ディープラーニングと従来のルックアップテーブル手法を組み合わせることで、堅牢で効率的、かつシーン適応型の自動色補正技術を実現するという研究が、最近の学術研究で始まっています。

これらは、動的なニューラル ネットワーク パラダイムを採用し、入力画像の低解像度版で画像コンテンツを理解するためにディープ ネットワークを活用し、最終的に画像の変換に使用されるルックアップ テーブルのパラメータを適応的に予測または調整します。

これらの手法は、従来のルックアップ テーブル手法の面倒な手動パラメータ調整の代わりにデータ駆動型ディープ ネットワークを使用することで、ディープ ネットワークによってもたらされる高い計算負荷 (ネットワークは低解像度の画像のみを推論する) を巧みに軽減し、強力な画像/シーン適応機能と高いリアルタイム パフォーマンスの両方を実現します。

しかし、既存の研究は、今日のディープラーニングの主流のトレンド、すなわち、モデルのシンプルさと汎用性を追求するために、可能な限り多くの画像変換を単一のモデルに統合するという手法にほぼ沿っています。これらの研究では、多様な色変換を単一の学習可能なルックアップテーブルにエンコードし、ISP内の異なるルックアップテーブルでモデル化された異なる変換を、独立した1次元または3次元のルックアップテーブルを用いて統一的に処理しようとしています。このアプローチでは、色成分に依存しない変換と色成分と連動する変換の両方を同時にモデル化する場合、単一のルックアップテーブルのモデル容量不足を効果的に考慮することができず、これらの手法の色強調能力が制限されます。

具体的には、1次元ルックアップテーブルベースの手法では、異なる色成分を相互作用させるという重要なモデリング能力が欠如しています。3次元ルックアップテーブルは2種類の変換を同時にモデル化できますが、ディープラーニングのデータ駆動型学習パラダイムにおいては、様々な画像の複雑で多様な色分布への適応性を向上させるために、多数のパラメータが必要になります。既存の研究では、主に33点、あるいは64点の3次元ルックアップテーブルが使用されていますが、ISPデバイスにおける3次元ルックアップテーブルの典型的な設定は17点、あるいは9点です。大規模な3次元ルックアップテーブルは、メモリとストレージのオーバーヘッドを大幅に増加させ、モデルの学習を困難にします。

例えば、露出不足または露出過多(いずれも「狭帯域」の色分布を持つ両極端)の画像に直面した場合、入力画像の色分布を知覚的に均一な色空間にスケーリングするために典型的なISPで必要とされるような事前変換がモデルにない場合、同じ3Dラティスは入力画像の色分布に適応するために、エッジ部分の色変換を大幅に調整する必要があります。これは、大規模なデータ駆動型ニューラルネットワークの学習パラダイムにおいて学習の不安定性につながる可能性があります。

方法の紹介

コアアイデア

上記の問題に対する解決策はシンプルで直感的です。我々は、分離可能なカスケード型ルックアップテーブル、すなわちSeparable Lookup Tables (SepLUT) に基づく適応型色彩強調手法を提案します。具体的には、背景セクションで説明した概念と、典型的なISPワークフローにおける分割統治法の基本的な設計原則に従い、完全な色変換関数を2種類のサブ変換、すなわちカスケード型色成分非依存型と色成分依存型の2種類に分解し、それぞれ1次元ルックアップテーブルと3次元ルックアップテーブルを用いてインスタンス化します。「分離可能」という名称は、一般的な畳み込みネットワークにおいて、単一の大規模畳み込み層を複数の小規模畳み込み層に分解するという考え方に由来しています。

2種類のルックアップテーブルは互いに補完し合うことができます。3次元ルックアップテーブルは、先行する1次元ルックアップテーブルの色成分混合のモデリングにおける欠点を効果的に補うことができます。また、1次元ルックアップテーブルは入力画像の色分布を適応的に事前調整することで、後続の3次元ルックアップテーブルをより有効に活用することができます。これにより、小規模な3次元ルックアップテーブルの使用が可能になり、モデルの全体的なパラメータと計算量を削減し、モデルのトレーニングの難易度を低減することができます。

▐ 具体的な枠組み

提案手法の全体的なモデルフレームワークを下図に示します。強化対象の画像をモデルの入力として使用し、軽量の円筒畳み込みネットワークを用いて、入力画像のダウンサンプリングされた低解像度版の画像理解を実行します。このネットワークは、グローバル特徴(明るさやコントラストなど)を抽出し、後続の双分岐全結合層に入力して、適応的な1次元および3次元ルックアップテーブルを予測します。得られたルックアップテーブルは、カスケード方式で元の画像の色変換に使用され、色が強化された高品質の画像が生成されます。最後に、出力画像と人工的に強化されたターゲット画像を比較してMSE再構成損失を計算し、勾配逆伝播によってネットワークパラメータを更新することで、手法フレームワーク全体のエンドツーエンド学習を実現します。

定量的最適化

本手法では、1次元および3次元のルックアップテーブル要素の生成は、全結合層を介して行われます。全結合層の本質は行列乗算であるため、全結合層に基づくルックアップテーブル要素の予測は、本質的には、全結合層内に複数の学習可能な基底LUTをエンコードすることと同等です。全結合層への入力は、これらの基底LUTを線形結合するために使用される適応的な重み係数に類推できます。提案されたフレームワークでは、最終的な出力画像の各ピクセルの値も、本質的には結果のルックアップテーブル内の要素の線形結合であることに留意してください。

したがって、本手法における全結合層の学習可能パラメータは、モデルの最終出力と空間的にも意味的にも整合しており、どちらも色空間に属します。デジタル画像処理では色空間の量子化が必然的に必要となるため、本手法はパラメータ量子化と浮動小数点から固定小数点への変換技術を用いることで、モデルのメモリ/ストレージのオーバーヘッドをさらに削減し、計算を高速化することができます。モデル圧縮における他のパラメータ量子化技術と比較して、本手法は、モデルパラメータ空間と最終出力空間の間の意味的な整合性により、学習後のテストフェーズで直接パラメータ量子化を行うことができ、パフォーマンスの大幅な低下を招くことはありません。

実験結果

提案手法におけるいくつかの主要な設計詳細の有効性を分析するため、一連のアブレーション実験を計画しました。1次元ルックアップテーブルについては、色成分と色分布のスケーリングを独立して変換する能力を向上させるという目的を考慮し、1次元ルックアップテーブルの利点と欠点を、従来のグレースケール分布変換アルゴリズムであるヒストグラム均等化(HE)と比較しました。

下表の結果は、最大エントロピー理論に基づくHEの分布均等化メカニズムが、異なる画像コンテンツや異なるターゲット美化スタイルにうまく適応できないことを示しています。一方、学習可能な1次元ルックアップテーブルは、エンドツーエンドのデータ駆動型学習を通じて、より優れた画像適応型色分布調整戦略を実現できます。

また、ネットワークの挙動を可視化するために、異なる入力画像に対してネットワークが生成した1Dおよび3D LUTを視覚化しました。下図に示すように、モデルが予測した異なる入力画像に対する1次元ルックアップテーブルは、入力画像の色分布を事前に調整し、ターゲットの拡張画像の色分布と「一致」させる傾向があります(1次元ルックアップテーブル出力画像の色分布ヒストグラムは、すでにGround Truth画像のヒストグラムにかなり近い値を示しています)。

3Dルックアップテーブルのその後の変換は、主に画像の色相と彩度を調整します(例えば、画像の2行目における空の領域の前後の色の変化など)。この観察結果は、私たちの研究の動機である分割統治法という基本的な設計原則を裏付けています。

また、推論段階におけるパラメータの直接量子化と浮動小数点演算から固定小数点演算への変換が提案手法の性能に与える影響についても検証しました。下表に示すように、パラメータ空間と出力空間間の意味的整合性により、直接量子化はモデルパラメータ数を大幅に削減し、画像強調品質に大きな変化を与えることなく推論速度を向上させます。

公開されている画像強調/美化ベンチマークデータセット FiveK では、提案手法は、全体的なパラメータ数が少なく、リアルタイム推論時間が短い強調画像の客観的評価メトリックにおいて既存の手法よりも優れており、最先端のパフォーマンスを実現しています。

要約

今日のディープラーニングベースのコンピュータビジョン分野は、単一モデルと統一的な変換へと向かう傾向にありますが、本論文では、従来の分割統治戦略に立ち返り、異なるアプローチを採用します。画像適応型の分離可能なカスケード型ルックアップテーブルに基づくリアルタイム色彩強調手法を設計・実装し、複雑な色彩変換における異なる種類のサブ変換を、異なる種類のルックアップテーブルを用いて処理します。提案手法の実現可能性は、分割統治設計原理がモデルの複雑さを軽減し、学習の難易度を下げ、モデル全体のパフォーマンスと効率を向上させる可能性を示しています。この基本的な考え方は、色彩強調やルックアップテーブル手法に限定されず、他の分野やシナリオにも応用できる可能性を秘めていると考えています。

チーム紹介

この作業は、主にタオバオテクノロジー内のコンテンツサービスを支えるオーディオ・ビデオアルゴリズムおよび基盤技術チームのリーダーシップの下で完了しました。このチームは、タオバオライブ、光光、DianTaoなどのコンテンツサービスを活用し、業界をリードするオーディオ・ビデオ技術の開発に尽力しています。チームメンバーは国内外の有名大学出身で、MSU世界エンコーダーコンペティションやNTIREビデオイメージエンハンスメントコンペティションなど、それぞれの分野で権威あるコンペティションで最優秀賞を受賞しています。また、学術コミュニティとの連携と交流を重視しています。

本研究の主な協力者は、上海交通大学の張文軍教授率いる画像処理研究所チームです。同研究所は、デジタルテレビ放送およびデジタルメディア処理・伝送分野の研究をリードする存在です。国家戦略上の新興産業への対応と、ネットワーク化と融合の発展動向への適応を目指し、近年の主要研究分野には、インテリジェントメディアコンバージェンスネットワーク、インテリジェントビデオ解析・処理・伝送などが含まれています。徐易准教授は、同チームのビデオ処理・解析分野における中核教員です。