DUICUO

世界初、オープンソースのテキスト動画生成モデル!無料オンライントライアルで、ワンクリックで自由な動画生成を実現。

昨年 4 月、OpenAI はより高い解像度、よりリアルな画像生成、より正確な自然描写の理解により AIGC 分野全体を席巻した DALL-E 2 をリリースしました。

しかし、オープンソースのStable Diffusion(コンシューマーグレードのGPUで動作)のおかげで、画像生成は真に誰もが利用できるようになりました。ユーザーは独自のデータセットを微調整できるようになり、大手ペイントサイトが「セキュリティ」のために設定している様々なフィルタリングワードリストに煩わされる必要がなくなり、真の「ペイントの自由」が実現しました。

動画生成の分野では、大手企業がデモ版をリリースする程度で、一般ユーザーが利用することはまだできないのが現状です。

最近、アリババDAMOアカデミーはModelScopeで「テキストベースのビデオ生成」のための最初のオープンソースモデルパラメータをリリースし、「ビデオの自由」を実現するために協力しています。

モデルリンク: https://modelscope.cn/models/damo/text-to-video-synthesis/files

こちらから体験してください: https://huggingface.co/spaces/damo-vilab/modelscope-text-to-video-synthesis

テキストを入力するだけで、モデルはテキスト記述に一致する動画を返します。このモデルは「オープンドメイン」動画の生成に適用でき、テキスト記述に基づく推論が可能です。ただし、現時点では英語入力のみをサポートしています。

たとえば、「馬に乗る宇宙飛行士」という古典的なフレーズを入力すると、宇宙飛行士が即座に生き生きと動き出します。

あるいは、「岩の上で竹を食べているパンダ」と入力すると、次のビデオが表示されます。

hookingface で提供されているインターフェースを使って、手動でプロンプトを入力することもできます。例えば、「ケーキを食べている犬」と入力すると、2秒間の動画が表示されます。ただし、コンピューティングリソースが不足しているため、しばらくお待ちいただく必要がある場合があります。

中国初の「テキストからビデオへの生成」技術。

テキストからビデオへの生成拡散モデルは、「テキスト特徴抽出」、「テキスト特徴からビデオ潜在空間への拡散モデル」、「ビデオ潜在空間からビデオ視覚空間への拡散モデル」の 3 つのサブネットワークで構成され、合計約 17 億のパラメータを持ちます。

多段階テキストからビデオへの生成拡散モデルは、Unet3D 構造を採用し、純粋なガウスノイズビデオを反復的にノイズ除去することでビデオ生成を実現します。

実装で参照された主な論文は 2 つあります。

高解像度画像合成と潜在拡散モデル

拡散モデルは、画像生成プロセスをオートエンコーダのノイズ除去の連続的な適用に分解することにより、画像データとその他のデータの最先端の合成を実現し、拡散モデルの式は、再トレーニングなしで画像生成プロセスを制御するガイドメカニズムを受け入れることができます。

ただし、これらのモデルは通常ピクセル空間で直接実行されるため、強力な拡散モデルを最適化するには GPU で数百日かかることが多く、順次評価を行うために推論コストが高くなります。

論文リンク: https://arxiv.org/pdf/2112.10752.pdf

限られたコンピューティング リソースで拡散モデルの品質と柔軟性を維持しながらトレーニングするために、研究者は、強力な事前トレーニング済みのオートエンコーダの潜在空間に拡散モデルを適用しました。

以前の研究と比較して、この表現で拡散モデルをトレーニングすると、複雑さの軽減と詳細の保持の間でほぼ最適なバランスが実現され、視覚的な忠実度が大幅に向上します。

モデル構造にクロスアテンション層を導入することで、拡散モデルを一般的な条件付き入力(テキストや境界ボックスなど)用の強力かつ柔軟なジェネレーターに変換することができ、畳み込み方式で高解像度の合成が可能になります。

提案された潜在拡散モデル (LDM) は、ピクセルベースの潜在拡散モデルと比較して計算要件を大幅に削減しながら、画像修復や無条件画像生成、セマンティックシーン合成、超解像などのさまざまなタスクで非常に競争力のあるパフォーマンスの新たな進歩を実現します。

VideoFusion: 高品質ビデオ生成のための分解拡散モデル

拡散確率モデル (DPM) は、データ ポイントに徐々にノイズを追加することで順方向拡散プロセスを構築し、逆ノイズ除去プロセスを学習して新しいサンプルを生成し、複雑なデータ分布を処理できることが示されています。

最近の画像合成の成功にもかかわらず、ビデオデータの空間次元が高いため、DPM をビデオ生成に適用することは依然として困難です。

従来の方法では、通常、標準的な拡散プロセスが採用されていました。このプロセスでは、独立したノイズを使用して同じビデオセグメント内のフレームを破損させ、コンテンツの冗長性と時間的な関連性を無視していました。

論文リンク: https://arxiv.org/pdf/2303.08320v2.pdf

この論文では、各フレームのノイズを、すべてのフレームで共有される基本ノイズと時間軸に沿って変化する残余ノイズに分解する分解拡散プロセスを提案しています。ノイズ除去パイプラインは、ノイズ分解を適切に一致させるために、2 つの共同学習ネットワークを採用しています。

さまざまなデータセットでの実験により、提案された方法である VideoFusion は、高品質のビデオを生成する際に GAN ベースおよび拡散ベースの代替方法よりも優れていることが実証されています。

さらに実験により、分解式は、事前トレーニング済みの画像拡散モデルと、テキスト条件下でのビデオ生成の優れたサポートの恩恵を受けることができることが実証されました。

使い方

ModelScopeフレームワークでは、単純なパイプラインを呼び出すことで現在のモデルを使用できます。入力は辞書形式で、有効なキーは「テキスト」、コンテンツは短いテキストである必要があります。

このモデルは現在 GPU での推論のみをサポートしており、必要なハードウェア構成は約 16 GB の RAM と 16 GB の GPU メモリです。

具体的なコード例は以下のとおりです。

ランタイム環境(Python パッケージ)

 GIT_LFS_SKIP_SMUDGE = 1 git clone https://github.com/modelscope/modelscope && cd modelscope && pip install -e .
pipでopen_clip_torchをインストールする

コード例(デモコード)

 modelscope.pipelinesからパイプラインをインポート
modelscope.outputsからOutputKeysインポートする
p =パイプライン( 'テキストからビデオへの合成''damo/テキストからビデオへの合成' )
テストテキスト= {
「テキスト」 : 「岩の上で竹を食べているパンダ。」
}
output_video_path = p ( test_text ,)[ OutputKeys . OUTPUT_VIDEO ]
print ( 'output_video_path:' , output_video_path )

結果を表示

上記のコードは出力ビデオの保存パスを表示します。現在、このエンコード形式はVLCプレーヤーで正常に再生できます。

モデルの限界とバイアス

  • モデルは Webvid などの公開データセットでトレーニングされており、生成された結果にはトレーニング データの分布に関連するバイアスが含まれる可能性があります。
  • このモデルでは完璧なフィルム品質の生成を実現できません。
  • モデルはクリアテキストを生成できません。
  • このモデルは主に英語のコーパスでトレーニングされており、現在は他の言語をサポートしていません。
  • 複雑な組み合わせ生成タスクではモデルのパフォーマンスを改善する必要があります。

トレーニングデータ

トレーニングデータには、LAION5B、ImageNet、Webvidなどの公開データセットが含まれます。事前トレーニング後に、美観スコアリング、透かしスコアリング、重複除去による画像および動画フィルタリングが実行されます。