DUICUO

マイクロソフトがFlorence-2をオープンソースとして正式に発表し、基本的なビジョンモデルを統一しました!中国チームによって開発されました。

視界を統一する基礎モデルがついにオープンソース化されました!

最近、Microsoft チームが Florence-2 の重みとコードをひっそりとリリースしたので、誰でも試すことができます。

昨年11月にFlorence-2が初めてリリースされたとき、その驚くべき機能はインターネット上で大きな話題を巻き起こしました。

ヒントだけで、モデルにキャプションの作成、オブジェクトの検出、セグメンテーションなど、さまざまな CV および CV 言語のタスクを完了するように指示できます。

Figure 社の CEO はこれを「コンピュータービジョンの分野における大きな進歩」と呼んだ。

ほとんどのベンチマークにおいて、Florence-2 は Phi-3 と同様に数十億ドル規模のモデルのほとんどよりも優れたパフォーマンスを示し、データ品質の重要性を実証しました。

現在、モデルのウェイトコードはすべてオープンソースプラットフォームのHugging Faceに配置されており、MITライセンスも付与されているため、いつでも使用できます。

これを試したネットユーザーらは、これは非常に高い精度だけでなく爆発的なスピードも備えており、多くの視覚タスクにとって画期的なものだと述べています。

この画面表示の注釈機能を見れば、驚くほど強力であることがわかります。

鏡も認識できます。

さらに素晴らしいデモ

Florence-2のその他の例を以下に示します。高密度の領域アノテーションにより、複雑な領域内の詳細なコンテンツを識別することができます。

プロンプトに基づいて対応するコンテンツを見つけることができます。

OCR認識も非常に正確です。

映画ポスターの内容認識。

領域分割により、画像の内容を正確に分離できます。

字幕作成タスクにおける GPT-4V などの高度なマルチモーダル モデルとの比較。

フローレンス2号は、写真に基づいて短いエッセイを書くこともできます。

統合ビジョン基盤モデル

Microsoft チームによるこの論文は、CVPR 2024 での口頭発表として採択されました。

Florence-2 はもともと、幅広い知覚機能を可能にする基本的な視覚モデルを作成するために設計されました。

テキスト プロンプトをタスクの指示として使用し、キャプション、オブジェクトの検出、セグメンテーションなど、必要な結果をテキスト形式で生成します。

論文リンク: https://arxiv.org/pdf/2311.06242

この目標を達成するために、研究者らは FLD-5B データセット (1 億 2,600 万枚の画像に対する 54 億の包括的な視覚的注釈) で単一の統合モデルをトレーニングしました。

次に、Florence-2 の設計アーキテクチャとパフォーマンスを見てみましょう。

フィレンツェ2の建築

視覚の多機能な基礎モデルを開発するために、研究者は、視覚理解の特定の側面に対応するようにそれぞれが調整された、一連のマルチタスク学習目標を策定しました。

マルチタスク学習法には、それぞれ異なるレベルの粒度と意味理解に対応する 3 つの異なる学習目標が組み込まれています。

- 画像レベルの理解

- 領域/ピクセルレベルの認識

- 細粒度視覚意味アライメントタスク

これら 3 つの学習目標をマルチタスク学習フレームワークに組み合わせることで、基本モデルはさまざまなレベルの詳細と意味理解を処理することを学習できます。

この戦略的な調整により、モデルはさまざまな空間の詳細を処理し、理解の詳細レベルを区別し、表面レベルの認識を超えて、最終的に視覚的な理解のための一般的な表現を学習できるようになります。

下の図 2 に示すように、Florence-2 はシーケンスツーシーケンス学習パラダイムを採用し、共通の言語目標の下で上記のすべてのタスクを統合します。

モデルは画像とタスクプロンプトを入力として受け入れ、目的の結果をテキスト形式で生成します。

Florence-2 は、ビジュアル エンコーダーを使用して画像をビジュアル トークンの埋め込みに変換し、それをテキストの埋め込みと組み合わせ、Transformer ベースのマルチモーダル エンコーダー/デコーダーで処理して応答を生成します。

データエンジン

Florence-2 モデルをトレーニングするには、研究者はさまざまな画像データを網羅する包括的で大規模、かつ高品質のマルチタスク データセットを必要とします。

このデータの不足を考慮して、研究者たちはまったく新しいマルチタスク画像データセット FLD-5B を作成しました。

このデータセットには、さまざまなタスクにわたる 1 億 2,600 万枚の画像、5 億のテキスト注釈、13 億のテキスト画像領域注釈、および 36 億のテキストフレーズ画像領域注釈が含まれています。

Florence-2 データ エンジンは、次の 3 つの主要コンポーネントで構成されています。

1) プロフェッショナルモデルを使用した初期アノテーション

2) データのフィルタリング、エラー修正、無関係な注釈の削除。

3) 反復的なデータ最適化プロセス

これは、FLD-5B データセットからの例の画像とそれに対応する注釈です。

FLD-5B の各画像には、Florence データ エンジンによってテキスト、画像領域とテキストのペア、テキスト フレーズと画像領域のトリプルが注釈付けされており、複数の空間レベル、一般から詳細までの段階的な粒度、および複数のセマンティクスをカバーしているため、モデルはさまざまな観点からより包括的な視覚的理解機能を実現できます。

これは、テキスト フレーズと画像領域のラベル付けの例です。

表 1 では、研究者らはデータセットと既存のトレーニング ベース モデル データセットの比較を示しています。

以前のデータセットと比較して、FLD-5B データセットには、注釈の総数と画像あたりの注釈の数が非常に多いという利点があります。

さらに重要なのは、FLD-5B データセットの注釈が複数の空間的および意味的な細分化された側面をカバーしており、より幅広く深い視覚理解機能を実現するためのモデルのトレーニングに役立つことです。

表 3 は、FLD-5B データセット内の意味要素の平均数とそれに対応する複雑さに関する統計を示しています。

最先端のモデルを上回るパフォーマンスを刷新

このような大規模なデータセットでトレーニングした後、Florence-2 のパフォーマンスはどのようになるのでしょうか?

その後、研究者たちは主に3つの部分からなる実験を実施しました。

- さまざまなタスクでモデルのゼロショットパフォーマンスを評価し、タスク固有のデータに対する追加の微調整なしで複数のタスクを処理できる汎用モデルの固有の能力を実証します。

- 追加の教師データによるさらなる微調整により、Florence-2 の適応性と最適なパフォーマンスが実証されました。

- ダウンストリームタスクのバックボーン ネットワークとしての優れたパフォーマンスは、Florence-2 事前トレーニング メソッドの有効性を実証しています。

ゼロショットマルチタスク評価では、画像レベルのタスクについて、Florence-2-L は、Flamingo モデルのパラメータ (800 億パラメータ) の約 1% のみを使用して、COCO キャプション ベンチマークで CIDEr スコア 135.6 を達成しました。

地域レベルの地面の動きと指示表現の理解タスクについては、Florence-2-L が最先端技術 (SOTA) を更新しました。

Flickr30k Recall@1 では、16 億パラメータの Kosmos-2 モデルよりも 5.7 倍優れており、Refcoco、Refcoco+、Refcocog では、それぞれ絶対値で約 4%、8%、8% 優れています。

シンプルなデザインで強力なパフォーマンスを発揮します。

Florence-2 は、特別な設計を必要とせず、標準的なマルチモーダル Transformer エンコーダー/デコーダー アーキテクチャを採用しており、特に領域レベルおよびピクセル レベルのタスクでパフォーマンスが飛躍的に向上します。

たとえば、RefCOCO ポインター表現理解タスクとポインター表現セグメンテーション タスクでは、Florence-2-L は、PolyFormer モデルと比較して、mIOU をそれぞれ 3.0 [email protected] と 3.54 向上させました。

さらに、Florence-2-L は LLM を必要とせずに競争力のあるパフォーマンスを実現し、多様なタスクを処理する際に効率性とコンパクトで高性能なモデルを組み合わせる利点を実証しています。

たとえば、COCO キャプション Karpathy テスト セットでは、Florence-2-L は CIDEr スコア 140.0 を達成し、80 億のパラメータを持つ Flamingo (CIDEr スコア 138.1) などの大幅に多くのパラメータを持つモデルを上回りました。

表 6 は、地域タスクにおけるエキスパート モデルとジェネラリスト モデル (Florence-2-L と Florence-2-B) のパフォーマンスを示しています。

エキスパート モデルは各タスクに特化して微調整されたモデルですが、ジェネラリスト モデルはタスクに依存しない方法で微調整され、すべてのタスクに適用できる単一のモデルです。

COCO オブジェクト検出とセグメンテーション、および ADE20K セマンティック セグメンテーション タスクのモデル トレーニング効率は次のとおりです。

表 7 は、Mask-RCNN フレームワークを使用した COCO オブジェクト検出およびインスタンス分割の結果と、DINO-4scale フレームワークを使用した COCO オブジェクト検出の結果を示しています。

COCO および ADE20K データセットのダウンストリーム タスクにおける微調整されたモデルのパフォーマンス。

研究者らは、Florence-2 モデルの 3 つの異なるバージョンを使用して実験を実施しました。各バージョンは、画像レベル、画像と領域レベル、画像、領域、ピクセル レベルの異なるレベルの画像注釈付きデータでトレーニングされました。

次に、これらのモデルの転移学習パフォーマンスを、COCO キャプション、COCO オブジェクト検出、Flickr30k グラウンディング、Refcoco 参照セグメンテーションの 4 つのダウンストリーム タスクで評価しました。

具体的な症状は以下の通りです。

要約すると、Florence-2は複数の知覚能力を備えた基本的な視覚モデルです。大規模なマルチラベルデータセットFLD-5Bを構築し、マルチタスクの事前学習を行うことで、モデルに強力なゼロショットおよびタスク転移能力が付与されます。

Florence-2 は、幅広い視覚タスクにおいて非常に優れたパフォーマンスを発揮し、基本的な視覚モデルの開発を前進させました。