|
Alibaba の Tongyi Labs が、最新かつ最も強力なビデオ生成モデルである Wan2.1 シリーズを正式にオープンソース化しました。 Wan2.1のハイライト✨ 複雑なモーション: ビデオの動きがよりスムーズで自然になり、複雑なシーンも簡単に処理できます。 🧲 物理シミュレーション:よりリアルなオブジェクトのインタラクション、より没入感のあるビデオ 🎬映画のような品質: 視覚効果が新たなレベルに引き上げられ、より豊かなディテールとより優れた芸術性を実現しました。 ✏️ 制御可能な編集:より強力な編集機能とより広い創造空間 ✍️ ビジュアルテキスト: 中国語と英語の両方で動的なテキスト生成が可能になり、アプリケーションシナリオが拡大します。 🎶 サウンドと音楽: 非常に魅力的なビデオを備えた統合されたオーディオビジュアル体験。 Wan2.1 シリーズのモデルは、さまざまなニーズを持つユーザーにさまざまな選択肢を提供します。Wan2.1-I2V-14B :画像から動画への変換 (I2V) 技術の最高峰! 140億のパラメータ、720P HD 品質、最先端 (SOTA) の I2V パフォーマンス! Wan2.1-T2V-14B :テキストから動画への変換 (T2V) 技術のパフォーマンスの王者! 140億のパラメータ、720P HD 品質、最先端 (SOTA) の T2V パフォーマンス! 中国語と英語のテキスト生成を排他的にサポート! Wan2.1-T2V-1.3B :コンシューマーグレードのグラフィック カードの最高のパートナー! 13億のパラメータ、スムーズな 480P 再生、8GB の VRAM があれば、素晴らしいゲーム体験が得られます! 一部のクローズド ソースの大規模モデルに匹敵するパフォーマンス! AlibabaはWan2.1の技術レポートも添付しました。技術レポートによると、Wan2.1 の画期的な進歩は主に次の主要な革新によるものです。 コアイノベーション 1: 3D 変分オートエンコーダー (VAE) – ビデオ圧縮と品質の完璧なバランス! Wan2.1チームは、動画生成に特化した革新的な3D因果VAEアーキテクチャを提案しました。複数の戦略を巧みに統合し、時空間圧縮、メモリ制御、時間的因果関係の最適なバランスを見つけることで、VAEの効率性とスケーラビリティを向上させ、DiT拡散モデルと完璧に融合しています。 長時間動画処理の秘密:特徴キャッシュ機構:任意の長さの動画を効率的に処理するため、Wan2.1のVAEは因果畳み込みモジュールに特徴キャッシュ機構を導入しました。この機構は、動画フレームシーケンス(1+T形式)を1+T/4のチャンクに分割し、各チャンクは潜在特徴に対応します。モデルはチャンクワイズ戦略を用いて動画を処理し、各エンコード/デコード処理において、1つの潜在特徴に対応する動画チャンクのみを処理します。各チャンクのフレーム数は最大4フレームに制限されているため、GPUメモリオーバーフローを効果的に防ぎます。 パフォーマンスが飛躍的に向上:速度2.5倍向上!実験により、Wan2.1のビデオVAE性能は抜群で、動画品質と処理効率の両方において優れています。同じハードウェア環境(A800 GPU 1基)において、Wan2.1のVAE再構成速度は最先端技術であるHunYuanVideoの2.5倍の速度を実現しました。高解像度では、速度の優位性はさらに顕著になります。 コアイノベーション 2: ビデオ拡散トランスフォーマー (DiT) – 強力な生成機能の源! Wan2.1は、主流の拡散TransformerパラダイムとFlow Matchingフレームワークに基づいて、動画拡散モデルDiTを構築します。T5 Encoderを巧みに活用して多言語テキストをエンコードし、各Transformerブロックに相互注意を付与することで、テキスト情報をモデル構造に深く統合します。 効率的なパラメータ最適化:線形層 + SiLU層 + 共有MLP :Wan2.1は、線形層とSiLU層を用いて時間埋め込みを処理し、6つの変調パラメータを予測します。重要なのは、すべてのTransformerブロックで共有MLPが使用され、各ブロックが異なるバイアスのみを学習することです。実験では、この手法により、パラメータサイズを維持しながらモデル性能が大幅に向上することが示されています。そのため、1.3Bモデルと14Bモデルの両方でこのアーキテクチャが採用されています。 コアイノベーション3:モデルのスケーリングとトレーニング効率の最適化 - モデルの大規模化、スピードの向上 より大規模な Wan2.1 モデルをトレーニングし、トレーニングと推論の効率を向上させるために、チームはさまざまな並列戦略を採用しました。 トレーニング加速:FSDP + コンテキスト並列処理(CP) :Wan2.1はトレーニング中に、モデルシャーディングにFSDP(Fully Sharded Data Parallel)とコンテキスト並列処理(CP)を組み合わせます。FSDPグループとCPグループはネストではなく交差します。FSDPでは、データ並列処理(DP)サイズはFSDPサイズをCPサイズで割った値に等しくなります。DPは、メモリと単一バッチのレイテンシ要件を満たした後、スケーリングに使用されます。 推論アクセラレーション:コンテキスト並列処理(CP) :推論中、単一ビデオ生成のレイテンシを削減するため、Wan2.1は分散アクセラレーションとしてコンテキスト並列処理(CP)を選択します。14Bのような大規模モデルでは、モデルシャーディング(FSDP)も必要です。ビデオシーケンスは一般的に長いため、FSDPはテンソル並列処理(TP)よりも通信オーバーヘッドが低く、計算と通信をオーバーラップさせることができます。 並列化戦略の詳細:2Dコンテキスト並列化:学習と推論の両方に同じ2Dコンテキスト並列化戦略が使用されています。RingAttentionは外部層間で使用され、Ulyssesはマシン内層で使用されます。実験では、Wan 14Bの大規模モデルにおいて、DiTは2D CPおよびFSDP並列戦略を用いることでほぼ線形の高速化を達成しました。 コアイノベーション 4: 画像からビデオ (I2V) – 画像駆動型、正確かつ制御可能! Wan2.1は、画像から動画への変換(I2V)タスクにおいても優れたパフォーマンスを発揮し、優れた制御性を実現します。主なI2Vテクノロジーには以下が含まれます。 条件画像ガイダンス:条件画像はビデオの最初のフレームとして使用され、時間軸に沿ってゼロパディングフレームと接合されてガイダンスフレームを形成します。 VAE 圧縮条件情報: ガイド フレームは、3D VAE を使用して条件潜在表現に圧縮されます。 生成領域を制御するバイナリマスク:バイナリマスクが導入され、1は保持するフレーム、0は生成するフレームを表します。マスクの空間サイズは条件付き潜在表現と一致し、時間的長さは対象ビデオと同じです。マスクは、VAEの時間ステップに対応する特定の形状に再形成されます。 融合メカニズム: ノイズ潜在表現、条件付き潜在表現、および再形成されたマスクがチャネル軸に沿って連結され、DiT モデルに入力されます。 I2V 専用投影レイヤー: I2V DiT モデルには T2V モデルよりも多くの入力チャネルがあるため、追加の投影レイヤーが追加され、ゼロ値で初期化されます。 CLIP画像エンコーダ + MLPグローバルコンテキスト:CLIP画像エンコーダ**は、条件画像の特徴表現を抽出します。これらの特徴は、3層MLP**を用いてグローバルコンテキストに投影され、その後、分離クロスアテンション**を介してDiTモデルに注入されます。 大規模で高品質なデータセット – モデルパフォーマンスの基礎です。強力なWan2.1モデルをトレーニングするために、Tongyi Labsは15億本の動画と100億枚の画像を含む大規模で高品質なデータセットを構築しました。データソースには、著作権で保護された社内データと公開データが含まれています。 4段階のデータクリーニングプロセス:膨大な量のデータを精査し、高品質で多様なデータを抽出するために、チームは4段階のデータクリーニングプロセスを設計しました。このプロセスでは、基本的な寸法、視覚品質、モーション品質に基づいてデータを厳密にフィルタリングし、トレーニングデータの純度と有効性を確保します。(4段階プロセスの詳細な説明については、公式の技術レポートをご覧ください!) 結論は:AI業界は現在、競争が激しすぎます。アリババのオープンソースへの取り組みは誠意を感じさせますが、主流に食い込むには主力製品が必要だと感じます。DeepSeekのオーラはあまりにも眩しいです。 |