|
130億個のパラメータを備え、現在までに最大のパラメータ数を持つオープンソースの動画生成モデルとなりました。モデルの重み、推論コード、モデルアルゴリズムなどはすべてGitHubとHugging Faceにアップロードされており、一切の隠蔽は行われていません。 実際の結果はどうでしたか? 正直に言うと、本当にパンダが広場で踊ったり、火鍋を食べたり、麻雀をしたりしているのを見ました。ぜひ動画をご覧ください。 本当に四川省の猫ですね! このモデルは現在、テンセント元宝アプリで利用可能であり、ユーザーはAIアプリの「AIビデオ」セクションで試用を申請できる。 API は現在テスト用に公開されており、開発者は Tencent Cloud を通じてアクセスできます。 Tencent の Hunyuan ビデオ ジェネレーターは、主に次の 4 つの機能を誇ります。
実際のパフォーマンスは説明と一致していますか?以下の例で詳しく見ていきましょう。 テンセント初の文勝ビデオモデルの実世界テストまず、サーフィンというテーマがあります。これは、大規模な視覚的動きや水の物理的シミュレーションなどの課題を伴います。 プロンプトではカメラの動きも具体的に指定されており、Tencent Hunyuan はスムーズなカメラ移動能力を実証しましたが、「最終的に... でフリーズする」という要件を満たすには少し不足していました。
鏡のテーマでは、モデルの光と影の理解度と、鏡の内側と外側の被写体の動きが一定に保たれるかどうかをテストします。 プロンプト内の白いシート要素により難易度がさらに高まり、関連する布地のシミュレーションも物理法則に準拠しました。 しかし、人々の想像の中の幽霊には一般的に足がなく、AIはそれを学習していないようです。あるいは、ダンスには多くの足の動きが伴うため、矛盾が生じているのかもしれません。
次に、テンセントのHunyuanビデオジェネレーションが謳う主要機能の一つ、フレーム内の主要被写体を変えずに自動的にショットを切り替える機能について紹介します。これは、業界のほとんどのモデルには搭載されていない機能であることが分かっています。
ここでもまた、複雑かつ包括的なプロンプトが登場し、主人公の外見、行動、そして周囲の状況を詳細に描写しています。シーンには他のキャラクターも登場し、テンセントの渾元(フンユエン)も好演しています。
最後に、プロンプトの書き方に関する公式チームからのヒントをいくつか紹介します。
それで、あなたはそれを学びましたか? Tencent Hunyuan によって生成されたその他のビデオや、同じプロンプト語を使用した Sora との比較については、QuantumBit の内部テスト段階での試みもご覧ください。 最大のオープンソースビデオ生成モデル。結果を確認した後、技術的なハイライトを見てみましょう。 まず、公式の評価結果によると、Hunyuan ビデオ生成モデルは、テキストとビデオの一貫性、モーション品質、画像品質など、複数の側面でリードしています。 現在入手可能な情報に基づくと、テンセントのハイブリッド ビデオ生成モデルには他に 3 つの注目すべき点があります。 1. テキストエンコーダ部分がマルチモーダルな大規模モデルに適合されました。 現在、業界におけるほとんどの視覚生成モデルは、OpenAI の CLIP や Google の T5 などの前世代の言語モデルやさまざまなバリエーションに適応するように設計されています。 テンセントは、オープンソースの画像生成モデル「Hunyuan-DiT」にT5とCLIPを採用しました。今回はさらに一歩進み、新世代のマルチモーダル大規模言語モデルに直接アップグレードしました。 これにより、より強力なセマンティック フォロー機能が可能になり、シーン内の複数の主題をより適切に処理し、指示をより詳細に完了できるようになります。 2. ビジュアル エンコーダー セクションでは、圧縮および再構築のパフォーマンスを向上させるために、画像とビデオの混合トレーニングをサポートします。 ビデオ生成モデルのビジュアル エンコーダーは、詳細情報を保持しながら画像/ビデオ データを圧縮する上で重要な役割を果たします。 Hunyuanチームは、画像と動画の混合学習をサポートする3Dビジュアルエンコーダを独自に開発しました。同時に、エンコーダの学習アルゴリズムを最適化し、高速動作とテクスチャの詳細表現の面で、エンコーダの圧縮・再構成性能を大幅に向上させました。これにより、特に小さな顔や高速撮影などのシーンにおいて、動画生成モデルの詳細な表現が大幅に向上しました。 3. プロセス全体では、時空間モジュールを使用せずに完全な注意メカニズムが使用されるため、ビジュアルの滑らかさが向上します。 ハイブリッド ビデオ生成モデルは、統合されたフル アテンション メカニズムを採用しており、各ビデオ フレーム間の遷移がスムーズになり、一貫した主題でマルチビュー カメラの切り替えが可能になります。 動画の空間的特徴と時間的特徴にそれぞれ焦点を当てた「個別時空間注意メカニズム」と比較すると、完全注意メカニズムは純粋な動画モデルに近く、優れたパフォーマンスを示します。 詳細については、完全な技術レポートを参照してください。 公式サイト:https://aivideo.hunyuan.tencent.com コード: https://github.com/Tencent/HunyuanVideo モデル: https://huggingface.co/tencent/HunyuanVideo 技術レポート: https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf |