|
動画生成実験モデル「VideoWorld」は、豆宝ビッグモデルチーム、北京交通大学、中国科学技術大学が共同で提案したものです。Sora、DALL-E、Midjourneyといった主流のマルチモーダルモデルとは異なり、VideoWorldは言語モデルに依存せずに世界認識を実現した業界初のモデルです。 フェイフェイ・リー教授が9年前のTEDトークで「幼い子供たちは言語に頼らずに現実世界を理解できる」と述べたように、VideoWorldは機械が「視覚情報」、つまり映像データを閲覧するだけで、推論、計画、意思決定といった複雑な能力を習得することを可能にします。研究チームの実験では、VideoWorldはわずか3億個のパラメータで驚異的なモデル性能を達成しました。 既存のモデルの多くは、知識の学習に言語やラベル付きデータに依存しており、純粋に視覚的な信号の学習はほとんど行われていません。しかし、言語は現実世界のすべての知識を捉えることはできません。例えば、折り紙や蝶ネクタイの結び方といった複雑なタスクは、言語で明確に表現することが困難です。 汎用的なビデオ生成実験モデルであるVideoWorldは、言語モデルを排除することで、理解と推論のタスクを統合的に実行します。同時に、潜在的動的モデルに基づいてフレーム間の変動情報を効率的に圧縮することで、知識学習の効率と効果を大幅に向上させます。 VideoWorld は、強化学習検索や報酬関数のメカニズムに依存せずに、9x9 囲碁でプロの 5 段レベルに到達し、さまざまな環境でロボット タスクを実行できます。 研究チームは、現実世界向けにビデオを生成し一般化することにはまだ大きな課題があるものの、ビデオ生成は普遍的な知識学習方法として機能し、現実世界で考え行動するための「人工脳」として機能できると考えています。 現在、プロジェクトのコードとモデルはオープンソースであり、体験したり議論したりすることを歓迎します。
1. モデルは「視覚」のみを通じて知識を学習できます。この研究のために、研究チームはビデオ囲碁対局とビデオロボットシミュレーション制御という 2 つの実験環境を構築しました。 これらの中でも、囲碁(ボードゲーム)は、モデルのルール学習、推論、そして計画能力を評価するための優れたツールです。さらに、囲碁の重要な情報は白黒の石と盤面のみで構成されているため、外観や質感といった複雑な詳細を高次の知識の評価から切り離すことができ、前述の問題を探求するのに最適です。研究チームはまた、モデルの制御ルールの理解能力とタスク計画能力を検証するために、ロボット工学のタスクも選択しました。 モデルのトレーニング段階では、チームは大量のビデオデモデータを含むオフラインデータセットを構築し、モデルが「視聴」して学習できるようにすることで、過去の観察に基づいて将来のシーンを予測できるビデオジェネレーターを取得しました。 モデルアーキテクチャの観点から、チームはビデオジェネレータを単純な自己回帰モデルを用いてインスタンス化しました。このモデルには、VQ-VAEエンコーダ・デコーダと自己回帰Transformerが含まれています。エンコーダはビデオフレーム(画像)を離散トークンに変換する役割を担い、Transformerはトレーニング中にこのトークンを用いて次のトークンを予測します。 推論中、Transformerは次のフレーム(画像)の離散ラベルを生成し、デコーダーによってピクセル空間に戻されます。タスク固有のマッピング関数を通じて、モデルは生成された画像をタスクのアクションシーケンスに変換できます。これにより、実験的な動画生成モデルは、アクションラベルに依存せずに特定のタスクを学習し、実行できるようになります。 前述のシンプルなフレームワークに基づいて、チームは囲碁とロボットのビデオデータをモデル化し、モデルが基本的な囲碁のルール、移動戦略、およびロボットの操作機能を習得できることを観察しました。 しかし、研究チームは、下の図に示すように、ビデオ シーケンスの知識マイニング効率はテキストよりも大幅に低いことも発見しました。 研究チームは、ビデオ内に大量の冗長情報が存在し、それがモデルの学習効率に影響を与えたためだと考えた。 例えば、チェスの駒の動きを学習する場合、モデルは状態シーケンス内の少数の位置マーカーをエンコードするだけで済みます。しかし、ビデオデータを扱う場合、エンコーダーは冗長なマーカーを過剰に生成し、モデルが複雑な知識を迅速に学習するのに役立ちません。 2. 視覚的な変化を圧縮することで、ビデオ学習がより効率的になります。上記の観察に基づき、研究チームはVideoWorldを提案しました。VideoWorldは、豊富な視覚情報を維持しながら、重要な意思決定や行動に関連する視覚的変化を圧縮することで、より効果的なビデオ学習を実現します。 通常、ビデオコーディングでは、各フレーム内の視覚情報を捕捉するために数百または数千の離散マーカーが必要となり、その結果、マーカーに埋め込まれた知識はまばらになります。この問題に対処するため、VideoWorldは、フレーム間の視覚変化をコンパクトな潜在コードに圧縮する潜在ダイナミクスモデル(LDM)を導入し、モデルの知識マイニング効率を向上させます。 例えば、囲碁における複数段階の盤面変化やロボットの連続的な動作は、強い時間的相関を示します。これらの複数段階の変化をコンパクトな埋め込みに圧縮することで、戦略情報がよりコンパクトになるだけでなく、将来計画のガイダンス情報もエンコードされます。 LDM は MAGVITv2 スタイルのエンコーダー/デコーダー構造を採用し、時間的なダウンサンプリングを排除して各フレームの詳細を保持します。 LDMは、ビデオセグメントの各フレームと、それに続く一定数のフレームをサンプリングします。エンコーダはまず、各フレームの特徴マップを因果関係に基づいて抽出し、その後、詳細な視覚情報を保持するために量子化します。 次に、LDMはアテンションモジュールとそれに対応する学習可能なベクトルのセットを定義します。各ベクトルは、アテンションメカニズムを介して最初のフレームから後続の固定フレームへの動的変化情報を捕捉し、FSQを用いて量子化します。量子化器は情報フィルタとして機能し、LDMが後続フレームの元の内容を単純に記憶し、重要な動的情報を圧縮してしまうことを防ぎます。 最後に、デコーダーは最初のフレームの特徴マップとフレーム間の視覚的な変化を使用して後続のフレームを再構築し、最終的には将来のアクションの予測と計画を可能にし、知識の認知学習を実現します。 次の図は、モデルアーキテクチャの概要を示しています。左側は全体的なアーキテクチャを示し、右側は潜在的な動的モデルを示しています。 VideoWorldは、複数のベクトルを用いて最初のフレームから後続のフレームへの動的な変化を順次エンコードすることで、視覚シーケンスにおける短期的および長期的な依存関係を捉える、コンパクトで情報量の多い視覚表現を実現します。これは、長期的な推論や計画タスクにとって極めて重要です。 LDMを導入することで、VideoWorldは強化学習における探索や報酬関数のメカニズムに頼ることなく、わずか3億パラメータで9路盤囲碁のプロ五段レベルを達成しました。ロボットタスクにおいては、VideoWorldは複数のタスクや環境にわたる汎化能力も示しています。3 . 純粋視覚モデルは未来を「予測」し、因果関係を「理解」することができます。 3. 純粋に視覚的なモデルは、未来を「予測」し、因果関係を「理解」することができます。LDM がビデオ学習の効率を向上させる理由について、研究チームはさらに詳細な分析を行い、次の 3 つの結論を導き出しました。
以下の画像は、Go とロボットのトレーニング セットに基づいた LDM 潜在エンコーディング UMAP を視覚化したものです。各ポイントは潜在エンコーディングを表しています。 UMAP は、高次元データを低次元空間にマッピングするために使用される一般的な次元削減アルゴリズムであり、モデルの機能抽出パフォーマンスを示します。 下の画像の左側では、奇数手は白の手、偶数手は黒の手を表しています。凡例は、新たに追加された黒の手の一般的なパターンを示しています。UMAPの可視化により、LDMはトレーニングセット内の一般的な手パターンをモデル化し、短期および長期のデータパターンを潜在空間に圧縮することで、手パターンを抽出・要約できることがわかります。 同様に、下の画像の右側は、ロボットアームのX/Y/Z軸に沿った動きの潜在符号化を視覚化したものです。ステップ数が増えるにつれて、LDMが複数ステップの動的依存関係をモデル化できることもわかります。
研究チームは、モデル推論における LDM の価値も調査しました。 以下の UMAP 視覚化に示されているように、テストフェーズでは、モデルによって生成された潜在コードが時間ステップに従ってグループ化され、モデルがより長期的な視点から Go の決定を下すことが可能になります。 研究チームはロボットシナリオ実験でも同様の現象を観察した。 下の図は、VideoWorldが様々なロボット操作タスクにおいて予測した潜在コードを示しています。異なる時間ステップにおける潜在コードはタスクの種類ごとにグループ化されており、特定のタスクにおける長期的な変化を段階的に捉えるモデルの能力が強調されています。
潜在的エンコーディングの影響をさらに調査するために、研究チームは介入実験を実施しました。つまり、異なる時間ステップで潜在的エンコーディングをランダムなラベルに置き換え、それがモデルのパフォーマンスに与える影響を観察しました。 実験結果は、最初のコードへの介入が最も大きな影響を与えることを示しています。これは、コード間の因果関係の依存関係によるものと考えられます。研究チームは、最初のコード、つまり次のタイムステップにおける最善の決定を変更すると、将来のすべての決定に影響を与えると考えています。これは、モデルが因果的に関連するコードを生成し、因果関係を理解できることを間接的に示しています。 4. 結論としてVideoWorld は、囲碁やシミュレートされたロボット制御環境で優れたパフォーマンスを発揮しましたが、チームは、現実世界の環境での応用には、高品質のビデオ生成や複数環境の一般化などの課題が依然としてあることも認識していました。 今後、チームはこれらの課題を解決し、ビデオ生成モデルが現実世界で汎用的な知識学習者となるよう推進することに注力します。 |