DUICUO

Tencent版Soraがオープンソースとしてリリースされました!130億のパラメータを誇り、モデルの重みと推論コードが完全に公開されています。

130億個のパラメータを備え、現在までに最大のパラメータ数を持つオープンソースの動画生成モデルとなりました。モデルの重み、推論コード、モデルアルゴリズムなどはすべてGitHubとHugging Faceにアップロードされており、一切の隠蔽は行われていません。

実際の結果はどうでしたか?

正直に言うと、本当にパンダが広場で踊ったり、火鍋を食べたり、麻雀をしたりしているのを見ました。ぜひ動画をご覧ください。

本当に四川省の猫ですね!

このモデルは現在、テンセント元宝アプリで利用可能であり、ユーザーはAIアプリの「AIビデオ」セクションで試用を申請できる。

API は現在テスト用に公開されており、開発者は Tencent Cloud を通じてアクセスできます。

Tencent の Hunyuan ビデオ ジェネレーターは、主に次の 4 つの機能を誇ります。

  • モデル生成のビデオコンテンツは超リアルな画質を備え、高精細な質感とリアリズムを備えており、広告やクリエイティブなビデオ生成などの産業グレードの商用シナリオで使用できます。
  • 高い意味的一貫性によりユーザーは主題の詳細を生成したり、登場人物のコンセプトを組み合わせたりするなど、詳細なキャラクター描写を行うことができます。モデルはテキストの内容を正確に表現できます。
  • モーションシーンは滑らかで大規模で合理的なモーションを生成することができ、モーションショットは滑らかで物理法則に準拠しており、歪みにくいです。
  • ネイティブ カメラ トランジション:このモデルは、同じ被写体に対して複数の視点のカメラ トランジションを自動的に生成する機能をネイティブに備えているため、ビジュアルの物語感が向上します。

実際のパフォーマンスは説明と一致していますか?以下の例で詳しく見ていきましょう。

テンセント初の文勝ビデオモデルの実世界テスト

まず、サーフィンというテーマがあります。これは、大規模な視覚的動きや水の物理的シミュレーションなどの課題を伴います。

プロンプトではカメラの動きも具体的に指定されており、Tencent Hunyuan はスムーズなカメラ移動能力を実証しましたが、「最終的に... でフリーズする」という要件を満たすには少し不足していました。

ヒント:巨大な波。サーファーが水しぶきに飛び乗り、空中宙返りを披露する。カメラは波間から現れ、水面を透過する太陽の光の瞬間を捉える。水しぶきは完璧な弧を描き、サーフボードが水面を切るたびに軌跡を残す。最後のショットは、サーファーが水のカーテンをくぐり抜ける完璧な瞬間を捉えている。

鏡のテーマでは、モデルの光と影の理解度と、鏡の内側と外側の被写体の動きが一定に保たれるかどうかをテストします。

プロンプト内の白いシート要素により難易度がさらに高まり、関連する布地のシミュレーションも物理法則に準拠しました。

しかし、人々の想像の中の幽霊には一般的に足がなく、AIはそれを学習していないようです。あるいは、ダンスには多くの足の動きが伴うため、矛盾が生じているのかもしれません。

白いシーツをまとった幽霊が鏡の前に立っている。鏡には幽霊の姿が映っている。幽霊は埃っぽい屋根裏部屋に住んでおり、そこには古い梁と布張りの家具が並んでいる。屋根裏部屋の光景が鏡に映っている。幽霊は鏡の前で踊っている。(映画のような雰囲気、映画のような照明)


次に、テンセントのHunyuanビデオジェネレーションが謳う主要機能の一つ、フレーム内の主要被写体を変えずに自動的にショットを切り替える機能について紹介します。これは、業界のほとんどのモデルには搭載されていない機能であることが分かっています。

漢服(伝統的な漢民族の衣装)を着て髪を風になびかせている美しい中国人女性とロンドンを背景に、カメラがクローズアップショットに切り替わる。

ここでもまた、複雑かつ包括的なプロンプトが登場し、主人公の外見、行動、そして周囲の状況を詳細に描写しています。シーンには他のキャラクターも登場し、テンセントの渾元(フンユエン)も好演しています。

クローズアップショットでは、髭を生やし、白髪交じりの60代の男性がパリのカフェに座り、宇宙の歴史に思いを馳せている。彼の視線は画面外で動き回る人々に注がれており、彼自身はほとんど動かない。ボタンダウンシャツの上にウールのオーバーコートとスーツジャケットを羽織り、茶色のベレー帽と眼鏡をかけ、教授のような雰囲気を醸し出している。映画の最後に、彼はまるで生命の謎の答えを見つけたかのように、口を閉じて微笑む。照明は金色の光で非常に映画的で、背景にはパリの街並みが映し出されている。被写界深度は35mmフィルムによって実現されている。

最後に、プロンプトの書き方に関する公式チームからのヒントをいくつか紹介します。

  • 使い方1:キューワード=主題+場面+動き
  • 使い方2:キューワード=主題(被写体描写)+シーン(場面描写)+動き(動き描写)+(カメラ言語)+(雰囲気描写)+(スタイル表現)
  • 使い方3:キューワード=主題+シーン+動き+(スタイル表現)+(雰囲気描写)+(カメラの動き)+(照明)+(ショットサイズ)
  • マルチカメラ生成:キューワード = [シーン 1] + カメラが [シーン 2] に切り替わる
  • 2つのアクションが生成されます:プロンプトワード = [メインの説明] + [アクションの説明] + [「それから」、「しばらくして」などの接続詞] + [アクションの説明2]

それで、あなたはそれを学びましたか?

Tencent Hunyuan によって生成されたその他のビデオや、同じプロンプト語を使用した Sora との比較については、QuantumBit の内部テスト段階での試みもご覧ください。

最大のオープンソースビデオ生成モデル。

結果を確認した後、技術的なハイライトを見てみましょう。

まず、公式の評価結果によると、Hunyuan ビデオ生成モデルは、テキストとビデオの一貫性、モーション品質、画像品質など、複数の側面でリードしています。

現在入手可能な情報に基づくと、テンセントのハイブリッド ビデオ生成モデルには他に 3 つの注目すべき点があります。

1. テキストエンコーダ部分がマルチモーダルな大規模モデルに適合されました。

現在、業界におけるほとんどの視覚生成モデルは、OpenAI の CLIP や Google の T5 などの前世代の言語モデルやさまざまなバリエーションに適応するように設計されています。

テンセントは、オープンソースの画像生成モデル「Hunyuan-DiT」にT5とCLIPを採用しました。今回はさらに一歩進み、新世代のマルチモーダル大規模言語モデルに直接アップグレードしました。

これにより、より強力なセマンティック フォロー機能が可能になり、シーン内の複数の主題をより適切に処理し、指示をより詳細に完了できるようになります。

2. ビジュアル エンコーダー セクションでは、圧縮および再構築のパフォーマンスを向上させるために、画像とビデオの混合トレーニングをサポートします。

ビデオ生成モデルのビジュアル エンコーダーは、詳細情報を保持しながら画像/ビデオ データを圧縮する上で重要な役割を果たします。

Hunyuanチームは、画像と動画の混合学習をサポートする3Dビジュアルエンコーダを独自に開発しました。同時に、エンコーダの学習アルゴリズムを最適化し、高速動作とテクスチャの詳細表現の面で、エンコーダの圧縮・再構成性能を大幅に向上させました。これにより、特に小さな顔や高速撮影などのシーンにおいて、動画生成モデルの詳細な表現が大幅に向上しました。

3. プロセス全体では、時空間モジュールを使用せずに完全な注意メカニズムが使用されるため、ビジュアルの滑らかさが向上します。

ハイブリッド ビデオ生成モデルは、統合されたフル アテンション メカニズムを採用しており、各ビデオ フレーム間の遷移がスムーズになり、一貫した主題でマルチビュー カメラの切り替えが可能になります。

動画の空間的特徴と時間的特徴にそれぞれ焦点を当てた「個別時空間注意メカニズム」と比較すると、完全注意メカニズムは純粋な動画モデルに近く、優れたパフォーマンスを示します。

詳細については、完全な技術レポートを参照してください。

公式サイト:https://aivideo.hunyuan.tencent.com

コード: https://github.com/Tencent/HunyuanVideo

モデル: https://huggingface.co/tencent/HunyuanVideo

技術レポート: https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf