1 億個の画像とテキストのペアが、オープンソースの中国語マルチモーダルデータセットのギャップを埋めます。

この記事は、AI関連ニュースメディアQuantumBit（WeChat ID: QbitAI）の許可を得て転載しています。転載の許可については、元の情報源にお問い合わせください。

Huawei Noah's Ark Labは、数億件のレコードを収容できる初の中国マルチモーダルデータセット「Wukong」をオープンソース化しました。

この新しくリリースされたデータセットは、1億の画像とテキストのペアを含む大規模なだけでなく、高品質でもあります。

すべての画像は、寸法が 200 ピクセル以上、アスペクト比が 1/3 ～ 3 の範囲で選択されています。

画像に対応するテキストも、プライバシーとデリケートな言葉を考慮して、言語、長さ、頻度に基づいてフィルタリングされました。

たとえば、このデータセットの例は非常に新しいもので、入国時の登録のための QR コードのスキャンやコミュニティでのワクチン接種などの情報が含まれています。

この波は、大規模な中国のマルチモーダルデータセットのギャップを埋めたと言えます。

1年前、OpenAI の CLIP+Dall·E の組み合わせがマルチモーダル学習の新たな波を起こして以来、それに続く ALIGN と FILIP はいずれも視覚言語事前トレーニング (VLP) の分野で優れたパフォーマンスを発揮しています。

世界的な成功は大規模なデータセットのサポートに依存しますが、オープンソースの中国のデータセットはあるものの、大規模なデータセットはまれです。

「Wukong」データセットを使用すると、下流のタスクでより多くの事前トレーニング済みモデルをサポートできます。

データセットに加えて、チームは、一般的なテキストと画像のデュアルエンコーダーアーキテクチャを参照した基本モデルも組み込みました。

視覚マーカーとテキストマーカーが入力として使用されます。両モードからの入力マーカーは連結され、位置埋め込みによってマーカーの位置が表示されます。

興味深いことに、ここでの画像エンコーダーは英語のデータセットでトレーニングされており、重みは外部モデルからトレーニングされた英語のデータセットから事前にロードされ、ロックされています。

ただし、中国語のテキストを使用したクロスモーダル事前トレーニングは依然として可能であり、ダウンストリームタスクでも優れたパフォーマンスを発揮します。

さらに、Huawei Noah はさまざまなダウンストリームタスクのベンチマークテストも提供します。

たとえば、ゼロショット画像分類では、WukongViT-500M を除く、下の画像にあるすべての Wukong モデルのバリアントがこの 1 億枚の画像のデータベースでトレーニングされました。

たとえば、テキストの画像検索と画像のテキスト検索のタスクについて、5 つの異なるデータセットでのテスト結果は次のとおりです。

これは、英語データセットで事前学習された画像エンコーダを中国語マルチモーダル事前学習に適用することの有効性を示しています。今後の研究では、Wukongデータセットを用いて多言語クロスモーダルモデルを学習するなど、更なる解決策が模索される可能性があります。

Wukong データセットは現在、公式 Web サイト (記事の最後にあるリンク) からダウンロードできますので、今すぐ使い始めましょう。

データセットアドレス:

https://wukong-dataset.github.io/wukong-dataset/benchmark.html

論文の宛先:

https://arxiv.org/abs/2202.06767

DUICUO