DUICUO

ビッグニュース!Tencent が Hunyuan テキスト画像変換モデルのオープンソース化を発表しました。Sora と同じアーキテクチャに基づき、中国語と英語のネイティブ DiT サポートを備え、商用利用は無料です。

テンセントは5月14日、テキスト画像変換モデル「Hunyuan」の包括的なアップグレードとオープンソースリリースを発表しました。モデルの重み、推論コード、アルゴリズムを含むこのモデルは、Hugging FaceプラットフォームとGitHubで公開されており、企業や個人開発者が無料で利用できます。

これは業界初となるネイティブ中国語DiTアーキテクチャに基づくオープンソースのテキスト画像変換モデルであり、中国語と英語のバイリンガル入力と理解をサポートし、15億のパラメータを備えています。アップグレードされた混合ソースのテキスト画像変換大規模モデルは、Soraと同じDiTアーキテクチャを採用しており、テキスト画像変換だけでなく、動画などのマルチモーダルビジュアル生成の基盤としても機能します。

評価データによれば、最新の Tencent Hunyuan テキスト画像変換モデルはオープンソースの Stable Diffusion モデルをはるかに上回り、これまでで最も優れたパフォーマンスを発揮するオープンソースのテキスト画像変換モデルとなっており、その総合的な機能は国際的にトップレベルにあります。

自社開発の新世代テクスチャ画像モデル

大規模モデルの卓越したパフォーマンスは、その先進的な技術アーキテクチャと切り離すことはできません。アップグレードされたTencent Hunyuanテキスト画像変換大規模モデルは、SoraやStable Diffusion 3と同じアーキテクチャとキーテクノロジーである最新のDiTアーキテクチャ(DiTはDiffusion With Transformerの略)を採用しており、Transformerアーキテクチャをベースにした拡散モデルとなっています。

これまで、視覚生成拡散モデルは主にU-Netアーキテクチャに基づいていました。しかし、パラメータ数の増加に伴い、Transformerアーキテクチャに基づく拡散モデルはより優れたスケーラビリティを示し、モデルの生成品質と効率のさらなる向上に貢献しています。テンセント・フンユアンは、大規模言語モデルとDiT構造を組み合わせたテキストベースグラフモデルの探究と応用において、業界で最も早い企業の一つです。2023年7月以来、テンセント・フンユアンのテキストベースグラフチームは、DiTアーキテクチャに基づくモデルの方向性を明確に定義し、新世代モデルの開発に着手しました。今年初めには、フンユアンのテキストベースグラフ大規模モデルがDiTアーキテクチャに全面的にアップグレードされました。

DiTアーキテクチャを基盤として、テンセントのHunyuanチームは、モデルの長文理解機能をアルゴリズムレベルで最適化し、最大256文字の入力をサポートすることで、業界をリードするパフォーマンスを実現しました。同時に、アルゴリズムレベルで革新的なマルチターン画像生成および対話機能を実装し、自然言語による説明を通じて最初に生成された画像を調整することで、より満足度の高い結果を実現しました。

テンセントのHunyuan Raw Text Image Modelの大きな特徴は、ネイティブ中国語サポートです。これまで、Stable Diffusionなどの主流のオープンソースモデルのコアデータセットは主に英語であり、中国語、食、文化、習慣への理解が不十分でした。Hunyuan Raw Text Imageは、中国語と英語のバイリンガル理解と生成機能を備えた初のネイティブ中国語DiTモデルであり、古典詩、俗語、伝統建築、中華料理といった中国語要素の生成において非常に優れた性能を発揮します。

評価結果によると、新世代のTencent Hunyuan Text-to-Image Modelの全体的な視覚生成効果は、前世代と比較して20%以上向上しました。意味理解、画質、リアリティの面で全面的に向上し、マルチターン対話、マルチサブジェクト、中国語要素、リアルポートレート生成などのシナリオにおいて効果が大幅に向上しました。

HunyuanDiTの生成能力を他のモデルと包括的に比較するため、研究チームは、テキストと画像の一貫性、AIアーティファクトの除去、被写体の明瞭性、そして美観という4つの側面からテストセットを構築しました。50名を超える専門評価者が評価を実施しました。

Hunyuan-DiT は現在、HuggingFace と Github でオープンソース化されており、興味のある方は自分で試してみることができます。


完全にオープンソースで業界に利益をもたらす

テンセントのHunyuanテキスト画像生成機能は、素材作成、商品合成、ゲーム画像レンダリングなど、様々なビジネスシーンで幅広く活用されています。今年初め、Tencent Adsは、Tencent HunyuanビッグデータモデルをベースとしたワンストップAI広告クリエイティブプラットフォーム「Tencent Ads Magic Ideas」を発表しました。このプラットフォームは、テキスト画像生成、画像画像生成、商品背景合成など、複数のシナリオに対応したクリエイティブツールを広告主に提供し、広告制作と掲載の効率を効果的に向上させます。CCTV News、新華社日報、深圳特区日報、南方都市報、揚州晩報など、20以上のメディアも、ニュースコンテンツ制作にTencent Hunyuanテキスト画像生成を採用しています。

テンセントのRAW画像処理技術責任者である陸清林氏は、「テンセントのHunyuan RAW画像処理技術は実用性に基づいており、実践から学び、実践に応用することを重視しています。最新世代モデルを全面的にオープンソース化することで、テンセントのRAW画像処理分野における実践経験と研究成果を業界と共有し、中国のRAW画像処理技術のオープンソースエコシステムを充実させ、次世代のオープンソースビジュアル生成エコシステムを共同で構築し、大型モデル業界の発展を加速させていきたいと考えています」と述べました。

テンセントのオープンソースのテキストベースグラフモデルを基盤としているため、開発者や企業はゼロから学習させることなく、直接推論に利用できます。また、Hunyuanテキストベースグラフをベースに独自のAIペイントアプリケーションやサービスを構築することで、人的資源と計算能力を大幅に節約できます。さらに、透明性とオープン性を備えたアルゴリズムにより、モデルのセキュリティと信頼性も確保されています。

同時に、オープンで最先端のハイブリッドテキストイメージ変換(MTA)基本モデルに基づいて、Stable Diffusionなどの英語のオープンソースコミュニティに加えて、中国語ベースのMTAオープンソースエコシステムを充実させ、より多様なネイティブプラグインを形成し、中国のMTA技術の研究と応用を促進することにも役立ちます。

テンセントはオープンソースに対して常にオープンな姿勢を貫き、170件以上の高品質なプロジェクトをオープンソース化してきました。これらはすべてテンセントの実際のビジネスシナリオから生まれたもので、WeChat、Tencent Cloud、Tencent Games、Tencent AI、Tencent Securityといったコアビジネスセグメントを網羅しています。現在、これらのプロジェクトはGitHub上で47万件以上の開発者閲覧数と「いいね!」を獲得しています。