視覚事前学習手法としてのマスク画像モデリング(MIM)は、近年急速に発展しています。BEiT以降、SimMIM、MAE、MVPといった一連の新しい手法が設計され、この分野は大きな注目を集めています。しかし、数十億のパラメータを持つ視覚事前学習済みモデルの中でも、ViT-g、SwinV2、CoCaといった最も競争力のあるモデルは、依然として教師あり学習または弱教師あり学習と、公開されていない数億ものラベル付きデータポイントに大きく依存しています。 理想的には、視覚的な事前トレーニングには単純な操作のみが必要です。たとえば、意味学習と幾何学的構造学習という 2 つの重要なポイントに焦点を当てるだけで、ほとんどの視覚タスクを処理できます。 ZhiyuanのCao Yueチームによって開発された最新のオープンソース視覚事前学習モデルであるEVAは、最強の意味学習(CLIP)と最強の幾何学的構造学習(MIM)を組み合わせたものです。標準的なViTモデルと、それを10億パラメータ(1-Billion)に拡張したモデルのみを学習に使用すれば、最強の10億レベルの視覚基盤モデルであるEVAが得られます。 具体的には、EVAのトレーニング方法はMVPやMILLANに似ており、マスク画像モデリングのためにCLIP機能を再構築します。図に示すように、CLIPモデルは完全な画像を入力として受け取り、EVAモデルはマスク画像を入力として受け取ります。トレーニングプロセスでは、EVAモデルのマスク部分の出力を使用して、CLIPモデルの対応する位置の出力を再構築します。これにより、EVAモデルは、CLIPに対する最強のセマンティック学習能力とMIMに対する最強の幾何学的構造学習能力を、シンプルかつ効率的に同時に持つことができます。従来の方法とは異なり、EVAはこのトレーニングアプローチにより、モデルを10億レベルまで拡張し、このパラメータスケールで幅広いダウンストリームタスクで優れたパフォーマンスを実現できることを実証しました。 要約すると、EVA には次の特徴があります。 1. 高効率 EVAは、オープンソースの純粋な画像データのみを用いてマスク予測タスクを実行できます。事前学習中のセマンティック再学習や、膨大な量のラベル付きペアデータを必要としません。一方、主流のベンチマークモデル(ViT-g、SwinV2、CoCaなど)は、依然として長時間の教師あり学習または弱教師あり学習と、公開されていない数億ものラベル付きデータに依存しています。 2. シンプル EVAは特別に設計されたネットワーク構造を必要としません。標準のViT-gというシンプルなネットワーク構造を採用し、特別に設計されたオペレータを追加することなく、幅広い下流タスクへの移行を容易にし、他のモダリティとの共有も可能です。 実験現在、EVA の主流ミッション評価におけるパフォーマンスは非常に高く評価されています。 1. 複数の重要な視覚知覚タスクにおいて最先端のパフォーマンスを達成しました。 ImageNet 画像分類でトップ 1 の精度 89.7%、Kinetics-700 ビデオ アクション認識でトップ 1 の精度 82.9%、COCO オブジェクト検出で 64.7 mAP、インスタンス セグメンテーションで 55.5 mAP、LVIS インスタンス セグメンテーションで 55.0 mAP、COCO-stuff セマンティック セグメンテーションで 53.4 mIoU、ADE-20K で 62.3 mIoU を達成しました。 2. パラメータの変更によりパフォーマンスの質的な変化が生まれます。LVIS で非常に優れたパフォーマンスを発揮し、CLIP トレーニングを安定させ、加速させることができるため、これまでで最も強力なオープンソース CLIP モデルが生成されます。 まず、LVIS(1000クラス以上)のインスタンスセグメンテーションタスクでのパフォーマンスはCOCO(80クラス)と同等であり、以前の最先端手法であるMAEを5.8ポイント上回っています。次に、CLIPトレーニングの初期化にEVAを使用すると、ランダムに初期化されたCLIPトレーニングを大幅に上回ります。下の図に示すように、数十億のパラメータを使用し、公式のOpen CLIPとまったく同じトレーニング方法を使用すると、ほぼすべてのゼロショットベンチマークで大幅なパフォーマンスの向上が見られます。さらに、EVAは巨大CLIPのトレーニングと最適化プロセスを大幅に安定化させることができ、トレーニングプロセスにはFP16混合精度のみが必要です。全体として、EVAは現在利用可能な最も強力で最大のオープンソースCLIPモデルのトレーニングに役立ち、一部のチームはすでにそれを使用してAIGCモデルの生成品質を向上させようとしています。 重要なポイント: EVA ファミリー全体がオープン ソースです。10 億のパラメータを持つ事前トレーニング済みモデル、ImageNet 画像分類、Kinetics ビデオ アクション認識、COCO および LVIS オブジェクト検出とセグメンテーション、ADE20K セマンティック セグメンテーション、最も強力な CLIP モデルなどのダウンストリーム アプリケーションはすべてオープン ソースです。 ご興味のある方はぜひお試しください! |