DUICUO

GPT-4oのオープンソースビデオ版?高速記憶、リアルタイムの質問回答、CVPR'24の長時間ビデオ質問回答コンテストで優勝。

  • 張浩吉:清華大学の学部生。ビデオ理解を主な研究分野とする唐彦松教授に指導を受けている。
  • 王一琴:清華大学深圳国際大学院の修士課程の学生。指導教員はタン・ヤンソン教授。主な研究分野はマルチモーダル学習。
  • 唐 彦松博士:清華大学深圳国際大学院の助教授。主な研究分野はコンピュータービジョンとパターン認識。
  • Liu Yong:清華大学深圳国際大学院の博士課程の学生。指導教員はTang Yansong教授。主な研究分野は視覚セグメンテーションとビデオ理解。
  • 馮嘉石博士:ByteDanceのビジュアルリサーチ部門責任者。研究分野はディープラーニングとコンピュータービジョンへの応用。
  • 戴継鋒博士:清華大学電子工学部准教授。主な研究分野は視覚基礎モデルと自動運転。
  • プロジェクト リーダー、Jin Xiaojie 博士: 現在、米国の ByteDance Research Institute に勤務しており、マルチモーダル基本モデル、生成学習、ビデオ編集などを研究対象としています。

ChatGPT、LLAMA、Vicuna [1, 2, 3] などの大規模言語モデル(LLM)の強力な理解、生成、推論能力を活用した大規模マルチモーダルモデル(LMM)は、MiniGPT-4やLLAVA [4, 5, 6] などの画像視覚理解タスクにおいて成功を収めています。さらに、LMMの強力な画像理解能力をビデオ領域に応用し、Video-ChatGPTやVista-LLaMA [7, 8] などの研究によって、ビデオコンテンツの理解と推論が可能になっています。

しかし、ほとんどのマルチモーダルモデルは、短いオフライン動画データに対してテキストによる説明や質疑応答しか提供できず、長い動画やオンライン動画ストリームの理解には限界があります。モデルが長い動画を理解できるようにすることは、よりインテリジェントなモデル、さらにはAGI(自動獲得知能)への道です。この研究ギャップは、身体型人工知能やインテリジェント監視システムなど、多くのオンラインシナリオにおける大規模マルチモーダルモデルの実用化を制限しています。

これを解決するために、いくつかの研究[9, 10]では、主にフレームサンプリングと特徴融合法に基づいて、長いビデオの理解を強化する方法を研究し始めています。しかし、既存の方法には次の欠点があります。1)入力フレームの数が増えるにつれてメモリのオーバーヘッドと応答遅延が増加するため、長いビデオの理解が困難になり、スパースサンプリングなどの方法の使用を余儀なくされ、モデルのパフォーマンスに大きな影響を与えます。2)オンラインビデオストリームを処理できず、オンラインビデオストリームをセグメントでしか処理できないため、新しい入力ビデオセグメントと古いビデオセグメント間の情報のやり取りを処理することが難しく、LMMが長いビデオストリーム全体を理解できないという問題があります。

この問題を解決するために、ByteDance は清華大学の研究者と共同で、人間の知覚と記憶のメカニズムをモデルにした、長時間のビデオ ストリームをオンラインで理解する初の大規模マルチモーダル モデルである Flash-VStream を提案しました。

詳細に入る前に、Flash-VStream のリアルタイムの質疑応答機能を体験してみましょう。

このモデルは長い動画の文脈を記憶する能力に優れており、動画の状況に適した応答を提供できることがわかります。例えば、56:00で主人公が小麦粉を掴んだ後(10分以上前に起こったことですが)どのような行動を取ったかを尋ねられた場合、モデルは正確かつ詳細な回答を迅速に提供できます。Flash -VStreamモデルは、長い動画の視覚情報を効率的に記憶する能力を反映し、長い時間範囲の動画の問題にも対応できます

以前の作業と比較して、Flash-VStream には次の利点があります。

  • 非常に長いビデオストリームをオンラインで処理し、重要な情報を素早く記憶し、ユーザーの質問にリアルタイムで答えることができます。
  • 入力フレーム数が増加しても、メモリのオーバーヘッドと応答遅延はほとんど変わらず、長いビデオを効率的に理解できます。
  • STAR メモリ メカニズムを活用して、異なる粒度の意味情報を効率的に融合することにより、複数の長時間ビデオの質問応答ベンチマークで最先端 (SOTA) のパフォーマンスを実現します。

Flash-VStream は、複数の長期ビデオ理解ベンチマークで優れたパフォーマンスを発揮しただけでなく、CVPR 2024 ワークショップでのCVPR'24 長期ビデオ質問回答チャレンジでも優勝しました。

アドレス: https://sites.google.com/view/loveucvpr24/track1

さらに、この研究分野におけるモデルの評価と改善を支援するため、研究チームはEgo4D [11] とMovienet [12] に基づいて、GPT-4Vを用いたオンラインビデオストリームの質問応答シナリオ用のデータセットVStream-QAを構築しました。このデータセットには、平均40分の長さの合計21時間のビデオが含まれており、各質問と回答のペアは特定のラベル付けされた時間間隔に基づいています。評価中、モデルは、その時点までのビデオセグメントに基づいて、複数の時点で質問に答える必要があります。


  • プロジェクトのホームページ: https://invinciblewyq.github.io/vstream-page
  • 論文リンク: https://arxiv.org/abs/2406.08085
  • コードリポジトリ: https://github.com/IVGSZ/Flash-VStream
  • オンラインデモ: https://huggingface.co/spaces/IVGSZ/Flash-VStream-demo

従来のビデオ理解レベル記憶モデル(LMM)とは異なり、Flash-VStreamは視覚情報の知覚と記憶を質疑応答のインタラクションから分離し、マルチプロセスシステムを用いて長時間のビデオストリームのリアルタイム処理を実現します。では、この研究は具体的にどのように行われているのでしょうか?

モデルコア:STARメモリ機構

論文のフレームワーク図に示されているように、Flash-VStreamアーキテクチャは非常に簡潔で、フレーム処理プロセスと問題処理プロセスで構成されています。そのモデルは、1) 事前学習済みのCLIP-ViTビジュアルエンコーダ、2) 大規模言語モデル、3) STARメモリメカニズム、4) 特徴バッファという4つの主要部分で構成されています。最後の2つがFlash-VStreamの中核です。STARメモリには、「空間」、「時間」、「抽象」、「検索」の4つのメモリモジュールが含まれており、異なる粒度の意味情報を効率的に融合し、フレームレベルの情報集約を実現します。特徴バッファは、人間が記憶に残る出来事を思い出すのと同様に、検索記憶を支援し、過去の映像から重要な情報を取得することで、長い映像における重要な出来事の詳細に対するモデルの理解を向上させます。

空間記憶と想起記憶はフレームあたりのトークン数が最も多く、次いで時間記憶が続きます。一方、抽象記憶はフレームあたり1つのトークンのみで表現されます。この設計は、視覚的特徴を最も具体的なものから最も抽象的なものまで効率的に表現します。より小さな特徴マップを得るために、Flash-VStreamは空間次元で平均プーリングを使用します。

研究者によると、STAR メモリは次の 4 つのシンプルで効率的なメモリ更新メカニズムを採用しています。

  • 空間メモリと特徴バッファは、FIFO(先入先出)キューを介して更新されます。このキューは最新の数フレームを保持することで、モデルが最新のきめ細かな空間情報を的確に認識できるようにします。
  • 時間記憶については、入力トークン数がメモリ容量を超える場合、フレームレベルの特徴集約に重み付きK平均法クラスタリングアルゴリズムが用いられる。このアルゴリズムは、時間記憶トークンと新規入力トークンをクラスタリングし(クラスタ数はメモリ容量に等しく、クラスタサイズはクラスタに含まれるフレーム数に等しい)、これらのクラスタの重心を新たなメモリとして利用し、対応するキーイベント情報を表す。この手法により、時間関連のコンテキスト情報を簡潔かつ効率的に保存することができる。
  • 抽象記憶については、空間的および時間的特徴を最高レベルの意味的特徴へと抽象化する意味的注意モデルが導入されています。このモデルは、注意と運動量に基づいて抽象記憶を更新し、常にビデオレベルで高レベルの意味的情報を表現することを保証します。
  • 記憶想起においては、キーフレームの特徴を特定することで更新が行われます。まず、時間記憶から最大のクラスターが選択されます。次に、これらのクラスターにL2重心距離が最も近いフレームの特徴が特徴バッファから取得されます。これらはキーイベントの想起として使用され、対応する詳細な情報で時間記憶を補完します。

Flash-VStream は、革新的な STAR メモリ メカニズムを備えており、異なる粒度の意味情報を効率的に融合できるだけでなく、特徴バッファの助けを借りて長いビデオ内の重要なイベントの詳細を正確に呼び出して取得できるため、モデルの理解能力とパフォーマンスが大幅に向上します。

VStream-QAデータセット

上記のソリューションを実装した後も、オンライン動画ストリームを理解するモデルの能力を評価するには、適切なテストデータが必要です。既存の長尺動画質問応答データセットを振り返ると、その主な目的は、モデルの説明的質問応答能力、時間理解能力、そして映画理解能力を評価することであり、これらはすべてオフライン理解能力のカテゴリーに該当します。さらに、それらの動画の平均長さは4分未満に制限されています。

これらの課題に対処するため、研究チームはEgo4dとMovieNetからビデオクリップを選択し、各クリップに複数の質問と回答のペアをアノテーションし、回答を含むビデオ区間をマークしました。テストでは、モデルは複数の時点で、その時点までのビデオクリップに基づいて質問に答える必要があり、オンラインビデオストリームの理解能力を評価しました。これがVStream-QAデータセットです。次の図にその一例を示します。

主流のオープン辞書型オフライン動画質問応答データセットと同様に、VStream-QAデータセットもGPT-3.5ベースの評価指標を使用しています。具体的には、GPT-3.5データセットに質問、標準的な回答、そしてモデルが予測したトリプルを入力します。GPTモデルは、回答の正確性と信頼度スコアを判断します。すべての質問の指標は、正確性(Acc.)と信頼度スコア(Sco.)です。

アルゴリズムの評価

研究チームは、オンラインビデオストリーミングの質問応答向けに新たに提案されたリアルタイムVStream-QAベンチマーク(RVS-EgoとRVS-Movieの2つのサブセットを含む)を用いて、Flash-VStreamのリアルタイムビデオ理解性能を評価しました。STARメモリメカニズムの効率的な設計により、Flash-VStreamは応答遅延とメモリ使用量が非常に低く、入力フレーム数に関わらずほぼ一定であるため、リアルタイム質問応答において高い性能を確保しています。

Flash-VStreamモデルのオフライン動画理解能力を評価するため、研究チームは4つのオフライン動画質問応答ベンチマークで動画理解性能をテストしました。さらに、オフラインVStream-QAデータセット(VS-EgoとVS-Movieの2つのサブセットに分割)でもテストを行いました。オフラインVStream-QAデータセットでは、各質問への回答を含む動画クリップを入力するだけで済むため、オンラインのリアルタイムVStream-QAデータセットよりも難易度が低くなっています。

Flash-VStream は、6 つのベンチマーク全体で精度と信頼性のスコアにおいて他の方法を上回り、強力なオフライン ビデオ理解機能を実証しました。

興味のある方はぜひチェックしてみてください。コードは現在オープンソースになっています!