DUICUO

Open-Sora が完全なオープンソース アップグレードを実施: 16 秒のビデオ生成と 720p の解像度をサポートします。

Open-Soraはオープンソースコミュニティでひっそりとアップデートされ、最大解像度720p、最長16秒の動画生成に対応しました。テキストから画像、テキストから動画、画像から動画、動画から動画、そしてアスペクト比無制限の動画生成ニーズにも対応しています。さあ、試してみましょう。

風景クリスマスの雪景色を生成し、Bilibiliに投稿します。

もう一つ縦画面を作成し、Douyinに投稿します。

また、16 秒の長さのビデオも生成できるため、誰もが脚本執筆の夢を実現できます。

遊び方? 指示

GitHub: https://github.com/hpcaitech/Open-Sora

さらに素晴らしいのは、Open-Sora は、最新のモデル アーキテクチャ、最新のモデル重み、複数の期間/解像度/アスペクト比/フレーム レートのトレーニング ワークフロー、データ収集と前処理の完全なワークフロー、すべてのトレーニングの詳細、デモ例詳細な入門チュートリアルなど、完全にオープン ソースのままであることです。

Open-Sora技術レポートの包括的解釈

最新機能の概要

著者らはOpen-Soraの技術レポートをGitHub [1]で公式に公開しました。私の理解では、このアップデートには主に以下の機能が含まれています。

  • 長いビデオ生成をサポートします。
  • ビデオ生成解像度は最大 720p に達します。
  • 単一のモデルで、テキストから画像、テキストからビデオ、画像からビデオ、ビデオからビデオ、および任意のアスペクト比、さまざまな解像度、継続時間を持つ無限に長いビデオの生成をサポートします。
  • 複数の時間/解像度/アスペクト比/フレーム レートでのトレーニングをサポートする、より安定したモデル アーキテクチャ設計が提案されています。
  • 最新の自動データ処理ワークフローがオープンソース化されました。

時空間拡散モデル ST-DiT-2

著者らは、Open-Sora 1.0のSTDiTアーキテクチャに重要な改良を加え、モデルのトレーニング安定性と全体的なパフォーマンスの向上を目指したと述べています。現在のシーケンス予測タスクでは、大規模言語モデル(LLM)のベストプラクティスを採用し、時間的注意における正弦波位置エンコーディングをより効率的な回転位置エンコーディング(RoPE埋め込み)に置き換えました。さらに、トレーニングの安定性を高めるために、SD3モデルアーキテクチャを参照し、QK正規化を導入することで半精度トレーニングの安定性を向上させました。複数の解像度、アスペクト比、フレームレートにわたるトレーニング要件をサポートするために、著者らが提案するST-DiT-2アーキテクチャは、位置エンコーディングを自動的にスケーリングし、さまざまなサイズの入力を処理できます。

多段階トレーニング

Open-Soraの技術レポートによると、Open-Soraは多段階学習方式を採用しており、各段階は前の段階の重みに基づいて学習を進めます。この多段階学習では、段階的にデータを導入することで、単一段階学習と比較して、高品質な動画を生成するという目標をより効率的に達成します。

初期段階では、ほとんどの動画を144pの解像度で学習し、画像と240pおよび480pの動画を混ぜて約1週間学習し、総ストライドは81kでした。第2段階では、ほとんどの動画データの解像度を240pおよび480pに上げ、1日間で22kのストライドで学習しました。第3段階では、解像度をさらに480pおよび720pに上げ、1日間で4kのストライドで学習を完了しました。この多段階学習プロセス全体は約9日間で完了し、Open-Sora 1.0と比較して、多次元での動画生成品質が向上しました。

画像からビデオ、ビデオからビデオへの統合フレームワーク

著者らは、Transformerの特性に基づいてDiTアーキテクチャを容易に拡張し、画像から画像、および動画から動画へのタスクをサポートできると述べています。著者らは、画像と動画の条件付き処理をサポートするためのマスク戦略を提案しています。異なるマスクを設定することで、画像から動画への変換、ループ動画、動画拡張、動画自己回帰生成、動画スティッチング、動画編集、フレーム補間など、様々な生成タスクをサポートできます。

画像や動画の条件付き処理をサポートするマスキング戦略

著者らは、UL2[2]法に着想を得て、モデルの学習フェーズにランダムマスキング戦略を導入したと述べています。具体的には、学習中にランダムに選択されマスク解除されるフレームには、最初のフレーム、前のkフレーム、次のkフレーム、および任意のkフレームが含まれますが、これらに限定されません。著者らはまた、Open-Sora 1.0を用いた実験に基づき、マスキング戦略を50%の確率で適用すると、モデルはわずか数ステップで画像条件への対応をより適切に学習できることを明らかにしました。Open-Soraの最新バージョンでは、マスキング戦略を用いてゼロから事前学習を行う手法を採用しています。

さらに、著者らは推論フェーズにおけるマスキング戦略の設定に関する詳細なガイドラインを思慮深く提供しています。5桁のタプル形式は、マスキング戦略を定義する際に優れた柔軟性と制御性を提供します。

マスキング戦略の設定手順

複数の時間/解像度/アスペクト比/フレーム レートでのトレーニングをサポートします。

OpenAI Soraの技術レポート[3]では、元の動画の解像度、アスペクト比、長さを用いて学習させることで、サンプリングの柔軟性が向上し、フレームと構図が改善されると指摘されています。これに対し、著者らはバケット化戦略を提案しました。

これは具体的にどのように実装されているのでしょうか?著者の技術レポートをじっくりと読むと、いわゆる「バケット」は(解像度、フレームレート、アスペクト比)の3つを合わせたものであることがわかりました。チームは、様々な解像度の動画に対して、一般的な動画アスペクト比のほとんどをカバーするために、一連のアスペクト比を事前に定義しています。各トレーニングエポックの開始前に、データセットをシャッフルし、サンプルの特徴に基づいて対応するバケットに割り当てます。具体的には、各サンプルを、解像度とフレームレートの両方がその動画の特徴以下であるバケットに配置します。

Open-Soraバケット戦略

著者らはさらに、計算リソースの要件を削減するために、`keep_prob` と `batch_size` それぞれに2つの属性(解像度とフレームレート)を導入し、計算コストを削減して多段階学習を可能にしたことを明らかにしました。これにより、異なるバケット内のサンプル数を制御し、各バケットの適切なバッチサイズを探索することでGPU負荷のバランスをとることができます。著者らは技術レポートでこの点について詳しく説明しており、GitHubで詳細を確認できます:https://github.com/hpcaitech/Open-Sora

データ収集と前処理プロセス

著者らは、データ収集と処理に関する詳細なガイドラインも提供しています。技術レポートによると、Open-Sora 1.0の開発中、高性能モデルの開発にはデータの量と質が不可欠であることを認識し、データセットの拡張と最適化に注力しました。特異値分解(SVD)の原則に基づいた自動データ処理ワークフローを確立し、シーンセグメンテーション、キャプション作成、多様化スコアリングとフィルタリング、データセット管理と標準化を網羅しています。また、関連するデータ処理スクリプトをオープンソースコミュニティに惜しみなく共有しています。関心のある開発者は、これらのリソースと技術レポートおよびコードを組み合わせることで、独自のデータセットを効率的に処理・最適化することができます。

Open-Soraデータ処理フロー

Open-Soraの総合的な性能評価

ビデオ生成効果のデモンストレーション

Open-Soraの最も注目すべき機能は、テキストによる説明を通して、頭の中で思い浮かんだイメージを捉え、魅力的でダイナミックな動画に変換できることです。一瞬の思考や想像を永久に記録し、他の人と共有できるようになります。ここでは、出発点としていくつかの異なるプロンプトを試してみました。

例えば、冬の森を巡るツアーの動画を制作してみました。雪が降り始めたばかりで、松の木々は白い雪に覆われていました。濃い松葉と白い雪の結晶が、美しく重なり合うように配置されていました。

または、静かな夜には、数え切れないほどのおとぎ話に描かれているような暗い森の中にいる自分に気づくでしょう。そこでは、満天の星空の下、深い湖がきらめいています。

賑やかな島の夜景を上空から眺めるとさらに美しく、温かみのある黄色の光とリボンのような青い海が、一瞬にしてゆったりとしたバカンス気分に誘います。

賑やかな街の交通、夜遅くまで明かりが灯っている高層ビルや路上の商店は、違った魅力を提供します。

Open-Soraは風景だけでなく、様々な自然の生き物も再現できます。鮮やかな赤い野花でも、

Open-Sora では、カメレオンがゆっくりと頭を回す動画でも、比較的リアルに生成できます。

また、さまざまなプロンプト テストを試し、さまざまなコンテンツ、さまざまな解像度、さまざまなアスペクト比、さまざまな継続時間を含む、生成された多数のビデオを参考用に提供しました。

著者はまた、Open-Sora が簡単なコマンドだけでマルチ解像度のビデオ クリップを生成し、創造的な制限を完全に打ち破ることができることを発見しました。

解像度: 16*240p

解像度: 32*240p

解像度: 64*360p

解像度: 480*854p

Open-Sora に静止画像を入力して短いビデオを生成することもできます。

Open-Soraは2枚の静止画を巧みに繋げることもできます。下の動画をタップして、午後から夕暮れまで変化する光と影を体験してください。それぞれのフレームが、時間の詩となっています。

たとえば、既存のビデオを編集したい場合、簡単なコマンドを実行するだけで、もともと明るかった森に大雪が降ります。

Open-Sora を有効にして高解像度の画像を生成することもできます。

Open-Soraのモデルウェイトは完全に無料で、オープンソースコミュニティプラットフォームで公開されているので、ぜひダウンロードして試してみてください。動画のスティッチングにも対応しているので、ストーリー性のある短編映画を無料で制作し、あなたのアイデアを実現することができます。

ウェイトのダウンロードリンク: https://github.com/hpcaitech/Open-Sora

現在の制限と将来の計画

Soraのようなテクスチャ動画モデルの再現において大きな進歩があったにもかかわらず、著者らは、現在生成された動画には、生成中のノイズ問題、時間的一貫性の欠如、キャラクター生成品質の低さ、美的評価の低さなど、いくつかの点で改善の余地があると謙虚に指摘しています。著者らは、次期バージョンの開発においてこれらの課題への対応を優先し、より高い動画生成基準の達成を目指すと述べています。ご興味のある方は、今後の開発にご注目ください。Open-Soraコミュニティからの新たな驚きを楽しみにしています。

オープンソースアドレス: https://github.com/hpcaitech/Open-Sora