DUICUO

GPT-4を超える!中国チームのInstructBLIPが話題に、画像ベースチャットをリード。オープンソースプロジェクトが複数の最先端技術を席巻。

GPT-4 の画像チャット機能はまだリリースもされていないのに、すでに追い抜かれています。

最近、中国のチームが、BLIP2 モデルを微調整したマルチモーダル ベース モデル InstructBLIP をオープンソース化しました。

BLIPファミリーに新しいメンバーが追加されました: InstructBLIP

報告によると、InstructBLIP モデルは「見る」、「推論する」、「話す」の能力に優れており、複雑な画像を理解し、推論し、説明することができ、また、複数ターンの対話もサポートします。

たとえば、下の画像に示すシーンでは何が起こったのでしょうか?

InstructBLIP は、ハリケーンやその他の厳しい気象条件が原因であると推測しています。

この絵について教えてください。

複数回の対話の実施

研究者らは、InstructBLIP がより良く「見える」のは強力な BLIP-2 のおかげだと言います。

最も重要なのは、InstructBLIP が複数のタスクで最先端のパフォーマンスを実現し、画像の解釈と推論において GPT4 を上回っていることです。

なんでこんなに強いんですか?

新しい王:InstructBLIP

InstructBLIP の主な意義は、視覚言語の指示を微調整するという課題に対処し、目に見えないデータやタスクに対する一般化を改善するモデルの能力に関する体系的な研究を実施することにあります。

論文リンク: https://arxiv.org/pdf/2305.06500.pdf

論文では、研究者らはまず指示の微調整データの構築を紹介し、次に具体的なトレーニングプロセスを紹介した。

次に、命令の微調整性能を向上させる2つの手法について、それぞれモデルとデータの観点から説明しました。

アクセシビリティを考慮しながら命令の微調整データの多様性を確保するために、研究者は公開されている視覚言語データセットを大量に収集し、それらを命令の微調整形式に変換しました。

下の図では、研究者は最終的に 11 のタスク カテゴリと 28 のデータセットをカバーするデータを収集しました。

これらには、画像キャプション、読解力のある画像キャプション、視覚的推論、画像による質問への回答、知識ベースの画像による質問への回答、読解力のある画像による質問への回答、画像による質問の生成(QA データセットとは対照的)、ビデオによる質問への回答、視覚的対話による質問への回答、画像分類、LLaVA-Instruct-150K が含まれます。

研究者は各タスクについて、自然言語を用いて10~15種類の指示テンプレートを作成します。これらのテンプレートは、指示の微調整データを構築するための基礎となり、タスクを明確にし、目標を定義します。

本質的に短い応答に偏っている公開データセットの場合、研究者は、モデルが常に短い応答を生成するリスクを軽減するために、対応する指示テンプレートの一部でより短い用語を使用します。

LLaVA-Instruct-150K データセットの場合、これは自然に構造化された命令形式であるため、研究者は追加の命令テンプレートを追加しませんでした。

BLIP-2 を含む既存のゼロサンプル画像からテキストを生成する方法では、視覚的特徴を抽出する際に指示に依存しない方法を採用しています。

言い換えれば、LLM の視覚入力は指示を認識しないため、さまざまなタスクにおけるモデルの柔軟性には役立ちません。

対照的に、指示を認識する視覚モデルは、さまざまな指示から学習するモデルの能力を向上させることができます。

たとえば、2 つのシナリオを考えてみましょう。同じ画像が与えられた場合、モデルは 2 つの異なるタスクを完了するように求められます。また、2 つの異なる画像が与えられた場合、モデルは同じタスクを完了するように指示されます。

最初のケースでは、指示を認識する視覚モデルは、指示に基づいて同じ画像からさまざまな特徴を抽出し、さまざまなタスクを解決するときにより多くの情報特徴を提示できます。

2 番目のシナリオでは、命令を認識する視覚モデルが、命令に組み込まれた共有知識を活用して 2 つの異なる画像から特徴を抽出し、画像間での情報転送を改善できます。

InstructBLIP は、BLIP-2 モデルの Q-Former アーキテクチャを最大限に活用して、指示を考慮した視覚特徴抽出方法を提案します。

上の図に示すように、Q-Former は、凍結された画像エンコーダーの出力から視覚的な特徴を抽出するように設計されています。

BLIP-2論文によると、Q-Formerは2段階の事前学習を経ており、事前学習を通じてLLMで理解可能なテキスト配置の視覚的特徴を抽出できるようになった。

推論プロセス中、視覚的なキューに指示が添付され、LLM が指定されたとおりにさまざまなタスクを実行するようにガイドします。

InstructBLIP では、命令テキストは LLM への入力としてだけでなく、QFormer にも入力されます。

トレーニング データセットの数が多く、サイズもばらつきが大きいため、これらのデータセットを均一に混合すると、モデルが小さいデータセットでは過剰適合し、大きいデータセットでは不足適合になる可能性があります。

この問題を軽減するために、研究者たちはデータセットのサイズ(つまり、トレーニングサンプルの数)に応じてサンプリングを行い、平方根平滑化を行うことを提案しています。一般的に、D個のデータセットのサイズを考えると、以下のようになります。

トレーニング中にデータセットdからデータサンプルが選択される確率は次のように表される。

この重み付けの式に加えて、研究者らはいくつかのデータセットの重みを手動で微調整し、収束性を改善しました。

これは必要なステップです。さまざまなデータセットとタスクの間には固有の違いがあるため、サイズが同じであっても、異なるレベルのトレーニング強度が必要になるためです。

具体的には、研究者らは A-OKVQA(多肢選択式)の重みを減らし、OKVQA の重みを増やしました。

実験結果

ゼロサンプル評価

研究者らはまず、13 のデータセットで InstructBLIP モデルを評価し、それを従来の最先端モデルである BLIP-2 および Flamingo と比較しました。

表に示されているように、InstructBLIP はすべてのデータセットでゼロ サンプルの新しい最先端 (SOTA) 結果を達成しました。

さらに、すべての LLM において BLIP-2 を上回るパフォーマンスを示し、視覚指示の微調整の有効性を実証しました。

さらに、命令の微調整により、ビデオ QA などの未知のタスク カテゴリのゼロ ショット一般化機能が向上します。

時間変動ビデオ データでトレーニングされたことがないにもかかわらず、InstructBLIP は MSRVTT-QA で以前の最先端技術に比べて 47.1% の改善を達成しました。

最後に、研究者らは、共有された評価データセット 6 つすべてで最小の InstructBLIP FlanT5XL (4B) を評価し、平均相対改善率 24.8% で Flamingo-80B を上回りました。

命令調整のアブレーション研究

指示を考慮した視覚的特徴抽出とデータセットバランス戦略の影響を調査するために、研究者らは、指示の微調整中にこれらの特徴を個別に削除するアブレーション研究を実施しました。

あらゆるデータセットにおける視覚的特徴に対する指示認識の欠如は、パフォーマンスの著しい低下につながります。この低下は、空間的視覚推論(ScienceQAなど)や時間的視覚推論(iVQAなど)を含むデータセットではさらに顕著です。

これらのデータセットでは、Q-Former に指示を入力することで、より多くの情報を含む画像の埋め込みに重点を置くように指示できます。

データバランス戦略に関しては、データセットによって最適なパフォーマンスが著しく異なるトレーニングステップで達成されるため、これを削除するとトレーニングパターンが不安定になります。したがって、この不安定性は全体的なパフォーマンスに悪影響を及ぼします。

定性評価

さらに、研究者らは、より多様な画像と説明を使用して、Instruct-BLIP の定性的な研究を実施しました。

例えば、GPT-4 の技術レポートにある図を考えてみましょう。「この図のどこが間違っているのでしょうか?」

提供された回答は、InstructBLIP が GPT-4 よりも包括的で、LLaVA よりも視覚的で、MiniGPT-4 よりも論理的であることを示しています。

「モナ・リザを描いたのは誰か」と尋ねられたとき、InstructBLIP は非常に簡潔な答えを返しました。

ここで研究者たちは、長い応答が必ずしも望ましいわけではないと主張しています。Instruct-BLIPは、応答の長さを適応的に調整することで、ユーザーの意図に直接対応することができます。

他のモデルは、より長い段落と関連性の低い文を生成する傾向があります。

Instructlip は、多様な命令チューニング データと効果的なアーキテクチャ設計の使用を通じてこれらの利点を実現します。

さらに、研究により、モデルのゼロショット一般化能力を向上させるには、指示の調整が鍵となることが明らかになりました。

BLIP-2 FlanT5XLに基づく命令チューニングとマルチタスクトレーニングの比較

さらに、研究者らはInstructBLIPモデルを微調整し、特定のデータセットの学習におけるパフォーマンスを研究しました。

これまでのほとんどの方法 (Flamingo、BLIP-2 など) と比較して、InstructBLIP は命令の微調整中に同じ画像解像度 (224×224) を維持し、微調整中にビジュアル エンコーダーをフリーズしたままにします。

これにより、トレーニング可能なパラメータの数が 12 億から 1 億 8,800 万に大幅に削減され、微調整の効率が大幅に向上します。

著者紹介

戴文亮

ウェンリャン・ダイは、香港科技大学の博士課程に在籍し、パスカル・フォン教授の指導を受けています。それ以前は、ユニバーシティ・カレッジ・ロンドンで修士号、ノッティンガム大学でコンピュータサイエンスの学士号を取得しています。

ジュンナン・リー

Salesforce Research Asiaの科学者。香港大学で電子工学の理学士号、シンガポール国立大学でコンピュータサイエンスの博士号を取得。主な研究分野は、コンピュータビジョンとディープラーニング、教師なし学習、弱教師学習、転移学習、社会情景理解。

その他のSOTA

ネットユーザーは、InstructBLIPに類似した最近提案された他のマルチモーダルモデルとして、MiniGPT-4やLLaVAなどがあると指摘した。

MiniGPT-4は写真を見ながらチャットすることもできます。例えば、シーフード料理の写真をアップロードして、レシピを直接入手することも可能です。

MiniGPT-4 はこのような優れた結果を達成できるにもかかわらず、実装は複雑ではありません。

画像エンコーダーをオープンソースの言語モデル Vicuna と統合し、両方のパラメータのほとんどを固定することで、トレーニングが必要なのはごく一部になります。

さらに、チームは MiniGPT-4 および ChatGPT と連携して、3,500 枚の画像とテキストからなる高品質なデータセットを作成し、これもオープンソース化しました。

小規模なマルチモーダル指示データセットでトレーニングされた LLaVA もありますが、いくつかの例では、マルチモーダル モデル GPT-4 と非常によく似た推論結果を示しています。