DUICUO

オープンソースのトレンドがビデオ生成にも波及しています。Alibaba のオープンソース Wanxiang 大規模モデルが VBench プラットフォームでトップに立ち、その直接テストをご紹介します。

多くの AI 企業がオープンソースのルートを取るべきかどうかまだ悩んでいる中、アリババの技術チームは新しいモデルである Wan Video Generation Model (すべての推論コードと重みを含み、最も寛容なオープンソース ライセンスの下) をオープンソース化しました。

動画生成モデルを頻繁に扱う人は、現在の多くのモデルが依然として多くの課題を抱えていることを認識しているはずです。例えば、複雑な人間の動きを再現するのが難しい、オブジェクトとのインタラクションにおける物理的変化への対応が不十分、長いテキスト指示への選択的な準拠などです。モデルベンダーがこれら3つの側面すべてにおいて優れたパフォーマンスを発揮している場合、そのモデルをオープンソース化することに意欲的になる可能性は低いでしょう。

体操などの複雑な動きはビデオ生成モデルにとって大きな課題となるため、業界では失敗がよく見られます。

アリババのアプローチは異なります。新たにオープンソース化された万向動画生成モデルは、回転、ジャンプ、旋回、転がりといった複雑な動きを表現できるだけでなく、衝突、跳ね返り、カットといっ​​た現実の物理的なシーンを正確に再現できるだけでなく、中国語と英語の長文テキストコマンドを正確に理解し、様々なシーンの遷移やキャラクターのインタラクションも再現できます。

まずは公式デモを見てみましょう:

プロンプト:男性が飛び込み台からプロのダイビングを行っている。広角ショットでは、赤い水着を履いた男性が逆さまの姿勢で両腕を伸ばし、足を揃えている。カメラが下へパンすると、男性が水しぶきを上げながら水中に飛び込む。背景には青いプールが見える。

プロンプト:障害飛越競技で、騎手が馬を操り、障害物を軽々と駆け抜ける様子を捉えたスポーツ写真風のショット。プロのレーシングウェアとヘルメットを身に着けた騎手は、集中力と決意に満ちた表情で、手綱をしっかりと握り、両脚を馬の脇腹にしっかりと寄せ、馬との完璧な連携を見せている。馬は空中に飛び上がり、滑らかで正確な動きで、蹄は力強く障害物に打ち当たり、スピードとバランスを保っている。背景には天然芝と青空が広がり、躍動感と緊張感あふれる雰囲気を醸し出している。4K高画質で、アクションシーンを余すところなく捉えている。

プロンプト:赤いゴムボールが高所からコンクリートの地面に自由落下し、跳ね返ってから止まります。カメラは横からの視点に固定されており、スローモーションのディテールでリアルなスタイルを実現しています。

プロンプト:ぴったりとしたボクシングウェアと鮮やかな色のグローブを身につけた擬人化された2匹の猫が、スポットライトの下、ボクシングリングで激しい戦いを繰り広げている。彼らの目は決意に満ち、筋肉は張り詰め、プロボクサーのような力強さと俊敏さを披露している。斑点模様の犬のレフェリーが待機し、笛を吹いて試合のペースを公平にコントロールしている。周囲のスタンドの動物たちは歓声を上げ、試合を盛り上げている。猫たちのボクシングの動きは素早く力強く、爪は空中にぼやけた軌跡を描いている。カメラはモーションブラーを駆使して激しい攻防を捉え、試合の緊張感と興奮を鮮やかに伝えている。クローズアップ映像は、リング上の激しい攻防に焦点を合わせている。

プロンプト:あるショートビューティー動画では、若い女性が丁寧にマスカラを塗るクローズアップショットが映し出されています。カメラは彼女の目にフォーカスを当て、根元から上向きに優しく均一にブラシで塗っていく様子を映し出しています。軽いつけ心地のマスカラはまつ毛1本1本にしっかりと密着します。ひと塗りごとにまつ毛は明らかに長く、カールしていきます。セパレートされたまつ毛は小さな扇のように徐々に広がり、そのプロセスはスムーズで自然なものとなっています。動画はマスカラの見事な効果を完璧に捉えており、クローズアップショットは繊細でクリアな画質を際立たせています。

学生の中には、「そもそも動作もしないのに、この動画生成モデルをオープンソース化する意味があるのか​​?」と疑問に思う人もいるかもしれません。しかし、ご安心ください。このオープンソースモデルには、14Bと1.3Bの2つのパラメータ仕様が用意されています。大容量の14Bバージョンは高性能を優先し、小型の1.3Bバージョンはコンシューマーグレードのグラフィックカードに適しています。生成される動画の品質は他の大型オープンソースモデルを凌駕しながらも、高画質の480P動画を生成するのに必要なVRAMはわずか8.2GBです。そのため、二次モデル開発や学術研究に特に適しています。

異なる GPU カード上の異なるパラメータ モデルの推論時間 (秒) とメモリ消費量から、バージョン 1.3B を 4090 などのコンシューマー グレードのグラフィック カードで実行するには 8.19 GB のメモリのみが必要であることがわかります。

バージョン14Bを実行できるユーザーにとって、この新モデルは大幅に向上したパフォーマンスを提供します。権威あるベンチマークデータセットVBenchの情報によると、Wanxiangの大規模モデルは、Sora、HunyuanVideo、Minimax、Luma、Gen3、Pikaといった国内外の動画生成モデルを大幅に上回り、総合スコア86.22%でトップに立ち、動画生成分野における新たなベンチマークとなりました。

新しいモデルのパフォーマンスを理解するために、Synced はすぐにテストを実施し、その背後にある技術的な詳細を詳しく調査しました。

アリババの万向の直接テスト

新しくオープンソース化された Wanxiang は、テキスト ビデオ生成、複雑なモーション、指示の追跡、物理モデリングに優れているだけでなく、テキストからビデオ、画像からビデオ、最初のフレームと最後のフレーム、ビデオのバックグラウンド ミュージックなど、豊富な機能のサポートも提供します。

テキストからビデオへの生成

「世の中で成功するには、たった一つのコツさえあれば十分だ」ということわざがあります。

万翔大模型にとって、「書ける」ことはその「特技」です。

これは中国語のテキスト生成をサポートする初のビデオ生成モデルであるだけでなく、中国語と英語のテキスト効果の生成もサポートします。

短いテキストの説明だけで、映画のような効果のあるテキストとアニメーションを生成できます。

特殊効果フォント、ポスターフォント、その他の実際のシナリオで使用されるフォントなど、あらゆる種類のフォントを扱うことができます。

たとえば、薄緑色の煙がゆっくりと消えていくと、落書きや誤字もなく、「Machine Heart」という 4 つの大きな文字が徐々に現れました。

プロンプト:ダイナミックなシネマティックショットでは、薄緑色の煙が画面上部からゆっくりと下向きに噴き出し、徐々に画面全体を覆います。煙が消えるにつれて映像がフェードアウトし、中央に「Machine Heart」の4つの大きな文字が現れます。煙とロゴの移行は自然で滑らかで、神秘的でプロフェッショナルな雰囲気を醸し出しています。暗い背景は、ロゴの鮮明さと視覚的なインパクトを強調しています。その後、ゆっくりと進行する効果を持つクローズアップショットが続きます。

たとえば、サイバーパンクな雰囲気のネオンサインに英語の単語「Welcome」が表示されており、スペルは完璧です。

プロンプト: サイバーパンクな都市では、夜にネオンが点滅し、建物の看板には「ようこそ」と書かれ、車が通りを猛スピードで走ります。

複雑なモーション生成

複雑な動きは常に、ビデオ生成モデルのパフォーマンスを評価するための「リトマス試験」となってきました。

1 年以上にわたる進化を経て、ほとんどのビデオ生成モデルは大きな進歩を遂げましたが、回転、ジャンプ、走行などの複雑なアクションに直面すると、依然として時々「クラッシュ」することがあります。

Wanxiang はこの分野に多大な努力を注ぎ、現在ではさまざまなシナリオで安定した複雑なモーション生成を実現できるようになり、一部のビデオ生成ではチューリングテストにも合格しました。

バスケットボールコートで少年がシュートする動画を生成してもらいました。一見シンプルなシーンに見えますが、実際には複雑なモーションパターンとダイナミックなディテールが含まれています。

一方、シュート動作には複雑な体の協調性と繊細な手の動きが求められます。モデルは、アスリートのジャンプ、腕の伸展、手首の回転、そしてバスケットボールの指のコントロールを捉える必要があります。

一方、バスケットボールの軌道も物理法則に従わなければならず、バスケットボールの形状が歪んだり不自然な変化が生じたりしてはなりません。

Wanxiangが作成した動画では、選手のジャンプやシュートの動きが滑らかで自然で、バスケットボールの軌道も実際のシーンと一致している。

プロンプト: コート上で、力強い少年がシュートするためにジャンプすると、バスケットボールがゴールから落ちてしまいます。

例えば、下の動画では、顔に厚塗りのペイントを施したピエロが葉巻を吸いながら、傲慢な歩き方をしています。手振りや目つきの変化が驚くほどリアルで、まるで映画のような臨場感を醸し出しています。

プロンプト: 夜、葉巻を吸っているピエロがフィルム ノワール風に燃えているバンのそばを歩いていきます。

雪の中を走る子犬のビデオもあります。

短い脚は素早く動き、耳は上下に揺れ、全体の動きは滑らかで自然だった。細部にいたるまで、万翔が生成した犬の毛並みもはっきりと見え、本物とほとんど区別がつかなかった。

プロンプト:雪に覆われた道を楽しそうに駆け回る子犬の鮮やかな光景。カメラは、雪の結晶がきらめく毛並みを捉え、走る子犬のシルエットを捉えます。その躍動感とエネルギーが、その輝きを際立たせています。背景には、雪が静かに舞い降りる様子が描かれ、静寂な冬の雰囲気を醸し出しています。通りには、雪をかぶった木々や、白い屋根の趣ある家々が並んでいます。曇り空を思わせる柔らかく拡散した光が、冬の心地よい雰囲気をさらに引き立てています。ローアングルのショットは、浅い被写界深度とわずかにぼかした背景によって、子犬の遊び心を強調し、犬に視線を惹きつけます。このシーンはシームレスにループし、冬のワンダーランドで過ごす子犬の喜びに満ちた気分をいつまでも伝えます。

長い文章が続きます

複雑な指示に従う能力も、ビデオ生成モデルの重要な機能です。

この点で、万向は「人間の言語」を理解できるだけでなく、細部まで見逃さないことも保証します。


プロンプト:賑やかなパーティーで、多様な民族的背景を持つ若者たちが、明るく広々としたリビングルームの中央でエネルギッシュに踊っています。色とりどりの風船とリボンが空間を彩り、点滅するライトがサイケデリックな影を映し出し、祝祭的な雰囲気を醸し出しています。カジュアルでありながらスタイリッシュな装いの彼らは、リズムに合わせて体を揺らし、満面の笑みを浮かべ、親密さと喜びを物語る視線を交わしています。背景では、ソファにもたれかかりながら談笑し、グラスを掲げて乾杯する人々がおり、会場は笑い声で満ち溢れています。ドキュメンタリー調の撮影で、中広角の視点から躍動感あふれる瞬間を捉えています。


この動画では、万向はテキストによる説明を厳格に守りました。人種の多様性を表現するため、白人男性と黒人女性が踊ったり飲んだりするシーンを映像に取り入れています。複数の被写体が動くショットであっても、画質は一貫しています。


プロンプト:夜空に浮かぶ街の鼓動。一人称視点のFPVドローンが高層ビルの間を縫うように飛行し、高速飛行でネオンの海を捉えます。街の夜景は、色彩豊かな巻物のように、光と影のタペストリーのように広がります。ドローンのレンズは建物の壁に密着し、ガラスのカーテンウォールやネオンサインを軽快に通過しながら、近代的な大都市の活気と神秘性を鮮やかに描き出します。モーションブラーがスピード感を高め、未来的な雰囲気を醸し出します。クローズアップからパノラマビューへの連続的な移行が、壮大な夜景を映し出します。

この長いテキストの説明に直面して、Wanxiang はドローンの軌道をシミュレートして人々に没入感を与えるだけでなく、複雑な照明効果と建築様式をリアルに表現しました。


プロンプト:一人の探検家が、狭く水浸しの洞窟を慎重に進み、しゃがみ込みながら狭い空間を進んでいく。彼女の手に握られた揺らめく松明が不気味な金色の輝きを放ち、彼女の顔にドラマチックな下光を作り出し、頭上のギザギザの岩を照らし出す。一歩ごとに水面に波紋が広がり、松明の光が天井に揺らめく模様を映し出す。洞窟の壁には影が踊り、揺らめく炎と共に変化していく。重苦しく湿った空気が漂い、松明の光に霧が渦巻く。カメラは前方へと低空移動し、閉所恐怖症的な緊張感と、目の前に広がる神秘的な深淵を強調する。シュールな質感、映画のような照明、そして神秘と探検の雰囲気が漂う。


このプロンプトでは、複雑なシーンの構築、雰囲気の創出、詳細の提示における Wanxiang の総合的な能力がテストされます。

ギザギザの岩層、水の波紋、たいまつのダイナミックな照明効果など、狭く水浸しの洞窟環境をレンダリングしながら、リアルな探検家の姿とその慎重な動きを生成する必要があります。

さらに、ローアングルショット、シュールなテクスチャ、映画のような照明、湿度や霧といった環境効果も取り入れる必要があります。Wanxiangのパフォーマンスは明らかに非常に優れています。

さらに、万向さんは中国語だけでなく英語も理解できます。


プロンプト: 赤毛の若い男性が、さまざまな都会の背景、80 年代のヘアスタイルと服装、激しいダンスの回転、バックグラウンド ダンサー、80 年代のビデオ解像度、フォトリアリスティックなポップ ビデオの前で歌を歌っています。


物理モデリング

膨大な量の動画データから物理法則を学習することは、あらゆる動画生成モデルの共通の目標です。なぜなら、物理法則に違反する動画(例えば、椅子が突然飛んでくるなど)は「一目瞭然のAI」と認識されるからです。この点における万向ビッグモデルの性能は、大規模動画生成モデルが物理法則を学習する上でどれほど進歩したかを示しています。

下の図のように、私たちの課題は「透明なグラスをテーブルの上に傾けると、ミルクがゆっくりと流れ出て、テーブル上で液体が蛇行する流路を形成する」というものです。マクロレンズは、液体の表面張力をリアルに表現しています。

ご覧の通り、このモデルはミルクの粘度を考慮しながら、テーブルに流れ落ちるミルクの動的な軌跡を再現しています。カップの反射特性や、カップに接触したミルクが残す液膜も動画で再現されています。

下の動画では、イチゴが水に落ちる様子を、モデルがイチゴと水の複雑な相互作用、そして水滴の透明感を完璧に再現しています。クローズアップとマクロ撮影を組み合わせることで、イチゴが水に落ちる瞬間の物理的な美しさを余すところなく再現しています。

ヒント:イチゴが澄み切った水に落ち、優しく回転しながら沈んでいきます。マクロ撮影の手法を用い、水滴の透明感とイチゴの鮮やかな色を強調することで、この瞬間のダイナミックな美しさを捉えています。

もちろん、オープンソース モデルをダウンロードするだけでなく、Tongyi Wanxiang Web インターフェースを通じて新しいモデルを直接体験することもできます。

このWebベースのアプリケーションは強力な機能を誇り、テキストから動画への生成、画像から動画への生成、最初のフレームと最後のフレームの生成、動画のBGMなど、様々な機能をサポートしています。実際のテストでは、これらの機能は優れた結果を示し、広告、短編動画などの分野における応用の可能性を浮き彫りにしました。

たとえば、写真をアップロードして、「プロンプト: 音楽に合わせて踊る女の子」と入力します。

「Tongyi Wanxiang」機能を使用すると、静止画像に瞬時に命を吹き込むことができ、主人公の行動や表情に多様性が生まれます。

こちらも非常に良い効果があります。

プロンプト:レトロな映画のようなビデオクリップは、鮮やかな色のストライプのセーターを着た女性に焦点を当てています。彼女の長い黒髪は自然に流れ、銀のネックレスとイヤリングは柔らかな光の中できらめいています。背景には霞んだ街の夜景が広がり、ネオンと街灯が幻想的な雰囲気を醸し出しています。ヴィンテージカメラを手に取り、その瞬間の美しさを捉える女性の顔には温かい笑顔が浮かび、その瞳には人生への愛と満足感が表れています。目線の高さからのミディアムショットは、まるで彼女自身の物語を語っているかのような、女性の滑らかで自然な動きを捉えています。

万向大型モデルのコア技術革新

そこで疑問が生じます。Wanxiangの大型モデルはどのようにしてこのような画期的な生成能力を実現したのでしょうか?これは主に、高効率な因果3D VAEとビデオ拡散トランスフォーマーという2つのコアイノベーションによって実現されています。

高効率因果3D VAE

Wanxiang チームは、ビデオ生成専用に設計された新しい因果 3D VAE アーキテクチャを独自に開発し、それを複数の戦略と組み合わせることで、時空間圧縮を改善し、メモリ使用量を削減し、時間的因果関係を確保しました。

VAE(多次元モデル向けビデオアシスタント)

実験結果によると、WanxiangのビデオVAEは、あらゆる指標において非常に競争力のあるパフォーマンスを発揮しています。同じハードウェア環境(単一のA800 GPU)において、WanxiangのVAE再構成速度は、既存の最先端手法(HunYuanVideoなど)の2.5倍高速です。

ビデオ拡散トランス

Wanxiangモデルのアーキテクチャは、主流のビデオDiT構造に基づいています。Full Attentionメカニズムを用いることで、長期的な時空間依存性を効果的にモデリングし、時空間的に一貫性のあるビデオ生成を実現します。モデルの全体的な学習には、線形ノイズ軌跡に対するフローマッチング法を採用しています。

以下のモデルアーキテクチャ図に示すように、このモデルはまず多言語対応のumT5エンコーダを用いて入力テキストを意味的にエンコードします。次に、連続するクロスアテンション層を通して、テキスト特徴ベクトルが各Transformerブロックの特徴空間に注入され、きめ細かな意味的アライメントを実現します。さらに、研究者らは、すべてのTransformerブロックでパラメータを共有するMLPセットを用いて、入力された時間ステップ特徴Tを、モデル内のAdaLN層の学習可能なスケーリングパラメータとバイアスパラメータにマッピングします。実験では、同じパラメータスケールにおいて、時間ステップ特徴マッピング層のパラメータを共有するこの方法により、モデルの機能を維持しながら、パラメータと計算コストが大幅に削減されることが示されています。

さらに、Wanxiang の大規模モデルでは、スケーラブルな事前トレーニング戦略、大規模なデータ リンクの構築、自動化された評価メトリックを通じて、モデルの最終的なパフォーマンスも向上します。

Qwen + Wanxiang: アリババはフルモーダル オープンソースを実現しました。

2023年まで話を戻しましょう。当時、オープンソースモデルがクローズドソースモデルに追いつく可能性があると誰かが言っても、おそらく多くの人は信じなかったでしょう。しかし、このような背景から、MetaやAlibabaに代表されるトップAI企業がオープンソースへの道を歩み始めました。

2年後、アリババのQwen派生モデルは10万を超え、MetaのLlamaシリーズを上回り、世界最大級のAIモデルファミリーにランクインしました。さらに注目すべきは、Huggingfaceの最新のオープンソース大規模モデルリーダーボード(OpenLLMLeaderboard)において、上位10位をすべてQwenをベースに開発された派生モデルが占めていることです。これは、中国のオープンソースモデルの活力の強さを如実に示しています。

2月10日のHuggingface公式サイトランキングのスクリーンショット。

さらに、アリババのオープンソースの大規模モデルは、言語面で優れたパフォーマンスを発揮するだけでなく、マルチモーダルアプリケーションでもリードしています。今年1月にオープンソース化された視覚理解モデルであるQwen2.5-VLは、OCR BenchV2、MMStar、MathVistaなど13の賞を受賞し、あらゆる面でGPT-4oやClaude3.5を上回り、マルチモーダル分野における「オープンソースはクローズドソースほど優れていない」という常識を打ち破りました。

万向のオープンソース化に続き、アリババの2つの基本モデルも完全にオープンソース化され、真のフルモーダル・オープンソースを実現しました。これは、現在のAI大手の中では他に類を見ないものです。

現在、WanxiangはGitHub、HuggingFace、Modaコミュニティプラットフォームで公開されており、主要なフレームワークと完全に統合されています。GradoのクイックトライアルからxDiTの並列加速推論、そして近々DiffusersおよびComfyUIとの統合まで、このモデルは開発者に包括的なサポートを提供します。これにより、技術的な障壁が低くなるだけでなく、さまざまなシナリオ要件に対応する柔軟なソリューションが提供されます。

また、アリババのオープンソースビッグモデルファミリーのさらなる拡大にも期待しています。

オープンソースアドレス:

GitHub:   https://github.com/Wan-Video

ハギングフェイス: https://huggingface.co/Wan-AI

ModelScope コミュニティ: https://modelscope.cn/organization/Wan-AI