|
大規模モデルをビッグデータで事前学習し、下流タスク向けに微調整する手法は、人工知能システムの新たなパラダイムとなっています。BERTやGPTといったモデルは、ゼロショット学習タスクを含む幅広い下流タスクへの高い移植性により、最先端(SOTA)性能を実現することから、NLPコミュニティで人気が高まっています。CLIP、ALIGN、FILIPといった最近の研究では、このパラダイムが視覚言語統合事前学習(VLP)の分野へとさらに拡張され、様々な下流タスクにおいてSOTA手法よりも優れた結果が実証されています。この有望な方向性は、次世代AIモデルへの道筋として、産業界や研究者から大きな注目を集めています。 VLPモデルの成功には主に2つの理由があります。第一に、より高度なモデルアーキテクチャ(ViT/BERTなど)とトレーニング目標(対照学習など)は、通常、モデルの一般化能力と学習済み表現の堅牢性を向上させます。第二に、ハードウェアと分散トレーニングフレームワークの進歩により、大規模モデルにますます大きなデータセットを入力できるようになり、一般化、転移可能性、ゼロショット機能が向上しました。視覚タスクや言語タスクでは、大規模データセット(画像分類の場合はJFT-300M、T5のC4データセットなど)で事前トレーニングした後、転移学習またはプロンプト学習を行うことで、下流のタスクパフォーマンスの向上に非常に効果的であることが証明されています。さらに、最近の研究では、ネットワークから1億を超えるノイズの多い画像とテキストのペアでVLPモデルをトレーニングできる可能性が実証されています。 そのため、大規模データで事前学習されたVLPモデルの成功は、より大きな画像およびテキストデータセットの継続的なクロールと収集を促しました。下の表1は、VLP分野で人気のある多くのデータセットの概要を示しています。Flickr30k、SBU Captions、CC12Mなどの公開されている視覚言語(英語)データセットはサンプルサイズが比較的小さく(約1,000万)、より大きなデータセットにはLAION-400Mが含まれます。しかし、英語のデータセットを直接使用してモデルを学習すると、中国語翻訳タスクのパフォーマンスが大幅に低下します。たとえば、多くの特定の中国語の慣用句や俗語は英語翻訳ではカバーできず、機械翻訳ではこれらの領域でエラーが発生することが多く、タスクのパフォーマンスに影響を与えます。 現在、コミュニティには大規模で公開されている中国のデータセットが不足しており、コミュニティの発展を妨げているだけでなく、各作業が他の作業と公平に比較できない驚異的なパフォーマンスを達成するために、プライベートで大規模なデータセットを使用することを余儀なくされています。 このギャップを埋めるため、ファーウェイ・ノアズ・アーク・ラボの研究者たちは、「Wukong」と呼ばれる大規模な中国語クロスモーダルデータセットを公開しました。このデータセットには、インターネットから収集された1億件の画像とテキストのペアが含まれています。多様性と一般化を確保するため、Wukongデータセットは20万語の高頻度中国語単語のリストから収集されました。本論文では、画像ベースとテキストベースのフィルタリング戦略を用いてWukongデータセットをさらに改良し、これまでで最大の中国語視覚言語クロスモーダルデータセットを実現しました。研究者たちはこのデータセットを分析し、幅広い視覚的およびテキスト的概念をカバーしていることを実証しました。
研究者らはまた、異なるアーキテクチャ(ResNet/ViT/SwinT)と異なる手法(CLIP、FILIP、LiT)を用いた大規模な事前学習済みモデルのセットを公開しました。本論文の主な貢献は以下の通りです。
「Wukong」データセット研究者たちは、ウェブから収集された1億点の画像とテキストのペアを含む「Wukong」という新しいデータセットを作成しました。視覚的概念を十分に多様な範囲でカバーするために、Wukongデータセットは20万語のクエリリストから作成されました。この基本クエリリストは、Yan Songらによる論文「Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings」から引用され、Huaweiの膨大なニューステキストコーパスに出現する中国語の単語やフレーズの頻度に基づいてフィルタリングされています。 クエリリストを作成した後、研究者らは各クエリをBaidu Imagesで検索し、画像のURLと対応するタイトル情報のリストを取得しました。異なるクエリ結果間のバランスを保つため、1つのクエリにつき最大1,000件のサンプルを検索しました。その後、以前に取得した画像URLを使用して画像をダウンロードし、最終的に1億6,600万件の画像とテキストのペアを収集しました。その後、慣例に従い、以下に説明する一連のフィルタリング戦略を用いて最終的なWukongデータセットを構築しました。図2は、Wukongデータセットのいくつかのサンプルを示しています。 画像ベースのフィルタリング研究者たちはまず、画像のサイズとアスペクト比に基づいてデータをフィルタリングしました。縦または横が200ピクセルを超え、アスペクト比が3以下の画像のみが保持されました。この手法により、小さすぎる、縦に高すぎる、または横に広すぎる画像は除外されました。これらの画像は、事前学習中のアップサンプリングや正方形切り取りなどの画像強調技術によって解像度が低下している可能性があるためです。 テキストベースのフィルタリング次に、選択されたサンプルに画像に対応する高品質な中国語の説明が含まれていることを確認するため、研究者らは付随テキストの言語、長さ、頻度に基づいてデータをさらにフィルタリングしました。具体的には、まず言語と長さをチェックし、中国語の文字数が1文字以上32文字未満の文を残しました。「000.jpg」のような意味のない画像の説明も削除しました。次に、「ソースページを表示」「テキストを展開」「写真コミュニティ」など、画像に付随するテキストは、通常、画像の内容とは無関係です。実際には、研究者らはこの閾値を10に設定し、収集したコーパス全体で10回以上出現する画像とテキストのペアを削除しました。 研究者たちは、テキスト中の個人のプライバシーを保護するため、名前を特別なマーカー「<人名>」に置き換えました。さらに、中国語のセンシティブな単語のリストを作成し、センシティブな単語を含むテキストと画像のペアも削除しました。 上記のフィルタリング戦略を適用した結果、研究者らは最終的に約1億組のペアからなるデータセットを取得しました。下の表2はデータセットの統計を示しています。データセットのテキストには20,442個の固有トークンが含まれており、各説明に含まれるトークンの平均数は22です。 下の図3では、研究者らはデータセット内の単語(1つ以上のトークンで構成)の分布を視覚化しました。その後、中国語テキストセグメンテーションツールJiebaを用いて単語を抽出し、データセットのワードクラウドを構築しました。 メソッドアーキテクチャテキストと画像のジョイントアライメント最近検証された手法と同様に、研究者らは図1に示すような対照的な事前学習済みアーキテクチャを採用しました。彼らは、Transformerベースのテキストおよび画像エンコーダーを備えた2ストリームモデルを使用しました。これらの2つのエンコーダーは、テキストと視覚入力トークンを同じ次元の埋め込みに変換します。この学習された結合埋め込み空間内で、研究者らは対照損失を用いて、画像とテキストのペアが類似した埋め込みを持つように促し、ペアになっていないペアは異なる埋め込みを持つようにしました。 モデルアーキテクチャ視覚モダリティとテキストモダリティのエンコーダは分離されているため、これら2つのモダリティに対して異なるエンコーダアーキテクチャを検討することができます。研究者たちは、3種類の視覚エンコーダ(ResNet、Vision Transformer、Swin Transformer)と単一のBERT型テキストエンコーダを用いて、中国語VLPモデルの学習実験を行いました。 事前トレーニングの目標クロスモーダル対照学習は、画像とテキストのペアデータからモデルを学習する上で特に効果的な手法であり、ペアサンプルと非ペアサンプルを区別することで、両方のモダリティの表現を同時に学習することができます。研究者らは、FILIP (Yao et al., 2022) の公式表記法に従い、… 画像サンプルセットを定義し、同時に テキストデータを表します。画像サンプルが指定されます。 テキストサンプル このモデルの目的は、結合マルチモーダル空間内でペアになっている画像とテキストの表現を近づけ、ペアになっていない表現を遠く離すことです。 この研究では、研究者らは画像とテキストの類似性を測定する2つの手法を検討しました。学習された画像とテキストの表現は、以下のようにラベル付けされています。 そして ここで、n_1 と n_2 は、各画像とテキスト内の (未入力の) 単語トークンの数です。 LiTチューニング最近提案された微調整パラダイム、LiT-tuning (Locked-image Text tuning) にヒントを得て、固定重みの画像エンコーダーと学習可能なテキストエンコーダーが VLP モデルで最高のパフォーマンスを発揮することが実証されました。研究者は、対照学習設定で同じアプローチを採用し、画像エンコーダーの重みを更新せずにテキストエンコーダーの重みのみを更新しました。 具体的には、研究者らはLiTチューニング法を用いて、英語データセットで事前学習済みの既存の画像エンコーダから適切な表現を読み取れるよう、中国語テキストエンコーダを学習させました。また、各エンコーダにオプションの学習可能な線形変換層を追加し、両モードの表現を同じ次元にマッピングしました。LiTチューニングは、画像特徴と視覚言語アライメントの学習に使用されるデータソースと手法を切り離すため、効果的に機能します(Zhai et al., 2021b)。さらに、画像記述子は、比較的クリーンな画像、または(半)手動でラベル付けされた画像を用いて適切に事前学習されています。 研究者たちはこの考え方を多言語データソースに拡張し、英語データソースで事前学習済みの固定画像エンコーダーと学習可能な中国語テキストエンコーダーを整合させることを試みました。さらに、LiTチューニング法は視覚エンコーダーの勾配計算を必要としないため、学習プロセスを大幅に加速し、メモリ要件を削減しました。 実験結果以下の表 3 に、モデル パラメータとビデオ エンコーダの詳細を示します。 ゼロショット画像分類。研究者らは、17のゼロショット画像分類タスクで事前学習済みモデルを評価しました。ゼロショット画像分類の結果は、以下の表5に示されています。研究者らは、異なるビジュアルエンコーダー(CLIPまたはSwin Transformerから既存のビジュアルエンコーダーを読み込み、学習中に重みを固定する)を用いた複数のLiTチューニングモデルを比較しました。結果は、トークンレベルの類似性を用いた場合、グローバルな類似性を用いた場合よりも大幅な改善が得られることを示しました。 画像テキスト検索タスク。研究者らは、画像からテキストへの検索とテキストから画像への検索という2つのサブタスクでモデルを評価しました。以下の表6と表7は、それぞれゼロショット設定と微調整可能な画像テキスト検索設定の結果を示しています。ゼロショット設定では、Wukong_ViTは4つのデータセットのうち3つで他のモデルと比較して最高の結果を達成しましたが、Wukong_ViT-500Mはより大きなMUGEデータセットで最高の結果を達成しました。微調整設定では、Wukong_ViT-500MはAIC-ICCを除くすべてのデータセットで最高の結果を達成し、その中でWukong_ViTが最も優れたパフォーマンスを示しました。 語彙タイルのアライメントの可視化。研究者らは、事前学習済みモデルWukong_ViTとWukong_Swinを用いて可視化を行いました。図4に示すように、6つの中国語ImageNetタグ(トンボ、救命ボート、ハチドリ、タブレット端末、教会、扇風機)の画像が可視化されています。次に、FILIP (Yao et al., 2022)と同じ可視化手法を用いて、テキストとタイルトークンをアライメントします。 下の図4に示すように、研究者たちは両方のモデルが対象物体の画像パッチを予測できることを発見しました。画像パッチの数が多いWukong_ViTの場合、この語彙パッチのアライメントはWukong_Swinよりもきめ細やかです。 |