DUICUO

初のネイティブ中国語 DiT アーキテクチャ!Tencent の Hunyuan テキスト画像変換大規模モデルは完全にオープンソースで、商用利用は無料です。

中国の AI コミュニティに素晴らしいニュースが届きました。Sora と同じアーキテクチャを持つオープンソースのテキストベースのグラフ モデルが登場したのです。

テンセントは5月14日、テキスト画像変換モデル「Hunyuan」の包括的なアップグレードとオープンソースリリースを発表しました。モデルの重み、推論コード、モデルアルゴリズムを含む完全なモデルは、企業や個人開発者が無料で商用利用できます。


  • 公式サイト:https://dit.hunyuan.tencent.com/
  • GitHub プロジェクト アドレス: https://github.com/Tencent/HunyuanDiT
  • Hugging Faceモデルアドレス: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
  • 技術レポートのアドレス: https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

これは業界初のネイティブ中国語 DiT アーキテクチャのテキストからグラフへのオープンソース モデルであり、15 億のパラメータを使用して中国語と英語のバイリンガル入力と理解をサポートすると理解されています。

アップグレードされたHunyuanテキスト画像変換大規模モデルは、Soraと同じDiTアーキテクチャ、つまり最新のHunyuan-DiTアーキテクチャを採用しており、テキスト画像変換をサポートするだけでなく、ビデオなどのマルチモーダルビジュアル生成の基盤としても機能します。

Hunyuan-DiT の生成能力を他のテキスト画像変換モデルと総合的に比較するために、Tencent Hunyuan チームは 4 つの次元を持つテスト セットを構築し、50 人を超える専門評価者を招いて、テキストと画像の一貫性、AI アーティファクトの除去、主題の明瞭さ、美しさなどの評価を実施しました。

下表の結果からわかるように、Hunyuan-DiTアーキテクチャを採用したTencent Hunyuanテキストグラフモデルは、オープンソースのStable Diffusionモデルをはるかに上回る性能を発揮しています。これは現在、オープンソースのテキストグラフモデルの中で最も高性能であり、その総合的な性能は国際的にトップレベルにあります。

他の最先端 (SOTA) モデルとの比較。

これらの最先端 (SOTA) モデルとの定性的な比較結果を下の図に示します。

新しいDiTアーキテクチャ

テンセントのHunyuan画像処理ソフトウェアは、オープンソースモデルのトップになることを目指しています。

大型モデルの優れたパフォーマンスは、その最先端の技術アーキテクチャと切り離すことはできません。

アップグレードされたTencent Hunyuanテキスト画像変換モデルは、最新のDiTアーキテクチャ(DiTはDiffusion With Transformerの略)を採用しています。これは、OpenAI SoraやStable Diffusion 3と同じアーキテクチャと主要テクノロジーです。Transformerアーキテクチャに基づいた拡散モデルです。

これまで、視覚生成拡散モデルは主にU-Netアーキテクチャに基づいていました。しかし、パラメータ数が増えるにつれて、Transformerアーキテクチャに基づく拡散モデルはより優れたスケーラビリティを示し、モデル生成の品質と効率をさらに向上させます。Soraはこの点をよく示しています。

テンセント・ハンユアンは、業界で最も早く大規模言語モデルとDiT構造を組み合わせたテキストベースグラフモデルを研究・適用した企業の一つです。2023年7月以降、テンセント・ハンユアン・テキストベースグラフチームはDiTアーキテクチャに基づくモデルの方向性を明確に定義し、新世代モデルの開発を開始しました。今年初めには、ハンユアン・テキストベースグラフモデルがDiTアーキテクチャに全面的にアップグレードされました。

Hunyuan-DiTのモデル構造は、以下の図7に示されています。バイリンガルCLIPとマルチリンガルT5エンコーダーを組み合わせた革新的なネットワークアーキテクチャを採用しています。綿密に設計されたデータパイプラインを通じて学習・最適化され、マルチターン対話をサポートし、コンテキストに基づいて画像を生成・改善することができます。

DiT アーキテクチャに加えて、Tencent Hunyuan チームは、中国語と英語のバイリンガル テキスト プロンプトからの画像生成をサポートし、モデルの長文テキスト理解機能をアルゴリズム レベルで最適化することで、最大 256 文字のコンテンツ入力をサポートし、業界をリードするレベルに達しています。

さらに、Hunyuan テキスト画像変換モデルは、アルゴリズム レベルでの複数ラウンドの画像生成と対話機能を革新的に実現し、最初に生成された画像を自然言語による説明で調整して、より満足のいく結果を得ることができます。

マルチターンのダイアログ生成のさらなる例を下の図に示します。

テンセントの大規模テキスト画像変換モデル「Hunyuan」の大きな特徴は、ネイティブ中国語サポートです。これまで、Stable Diffusionなどの主流のオープンソースモデルのコアデータセットは主に英語で、中国語、食、文化、習慣への理解が不十分でした。

中国語ネイティブDiTモデルとして初めて登場したHunyuan Text Generationは、中国語と英語の両方のテキストを理解・生成する能力を備えており、古典詩、俗語、伝統建築、中華料理といった中国語要素の生成において非常に優れたパフォーマンスを発揮します。以下では、その生成例をいくつかご紹介します。

Tencent のテキストベースの画像処理ソフトウェア Hunyuan も、きめ細かなテキストプロンプトの生成に優れています。

評価結果によると、新世代のTencent Hunyuan Text-to-Image Modelの全体的なビジュアル生成効果は、前世代と比較して20%以上向上しています。意味理解、画質、リアリティの向上だけでなく、マルチターン対話、マルチサブジェクト、中国語要素、リアルポートレート生成といったシナリオにおいても大幅な改善が見られました。

この時

テンセント・フンユアンは完全にオープンソースのテキストベースのグラフモデルを選択

テンセントのHunyuanテキスト画像生成機能は、素材制作、商品合成、ゲーム画像レンダリングなど、様々な業種やシーンで幅広く活用されています。テンセント広告は今年初め、テンセントHunyuanビッグモデルを基盤としたワンストップAI広告クリエイティブプラットフォーム「Tencent Ads Magic Ideas」をリリースしました。このプラットフォームは、テキスト画像生成、画像画像生成、商品背景合成など、様々なシーンに対応するクリエイティブツールを広告主に提供し、広告制作・配信の効率を効果的に向上させます。

テンセントのHunyuanテキスト画像変換ビッグモデルのオープンソース化は、中国語ネイティブのDiTテキスト画像変換アーキテクチャのギャップを埋め、より多くの開発者やクリエイターが参加して、DiTアーキテクチャに基づくビジュアル生成エコシステムを探索し、共同で作成し、この技術アーキテクチャの可能性をよりよく検証および探索するのに役立ちます。

テンセントのRAW画像生成プラットフォーム責任者である陸清林氏は、「テンセントのHunyuan RAW画像生成プラットフォームの研究開発理念は実用性であり、実践から学び、実践に応用するという原則を堅持しています。最新世代モデルを全面的にオープンソース化することで、テンセントのRAW画像生成分野における実践経験と研究成果を業界と共有し、中国のRAW画像生成オープンソースエコシステムを豊かにし、次世代のビジュアル生成オープンソースエコシステムを共同で構築し、大規模モデル業界の発展を加速させたいと考えています」と述べました。

テンセントのオープンソースの文勝グラフモデルをベースとしているため、開発者や企業はゼロから学習することなく、直接推論に利用できます。また、渾源文勝グラフをベースとした独自のAIペイントアプリケーションやサービスを構築することで、人的資源と計算能力を大幅に節約できます。さらに、透明性とオープン性を備えたアルゴリズムにより、モデルのセキュリティと信頼性も確保されています。

さらに、オープンで最先端のハイブリッドテキストイメージ変換(CTPA)基本モデルは、Stable Diffusionなどの英語ベースのオープンソースコミュニティに加えて、中国語ベースのCTPAオープンソースエコシステムを充実させ、より多様なネイティブプラグインを形成し、中国のCTPA技術の研究と応用を促進することにも役立ちます。