|
著者紹介:本論文の著者はByteDanceとメリーランド大学に所属しています。筆頭著者はメリーランド大学博士課程のTianyi Xiongで、主な研究分野はコンピュータービジョンとマルチモーダル基礎大規模モデルです。責任著者はChunyuan Li(https://chunyuan.li/)です。 この記事の著者には、メリーランド大学の博士課程学生である Xiyao Wang 氏、ByteDance の研究者である Dong Guo 氏、Qinghao Ye 氏、Haoqi Fan 氏、Quanquan Gu 氏、およびメリーランド大学の教授である Heng Huang 氏も含まれています。 はじめに:必要なのは評価だけ既存のインターネット データによる事前トレーニングが成熟するにつれて、OpenAI o1 のリリースからも明らかなように、研究は事前トレーニングから事後トレーニングへと移行しています。 学習後の評価の核心は評価にあります。信頼性の高いAI評価は、複雑なタスクを評価するためのスケーラブルなソリューションを提供し、手作業を削減するだけでなく、効果的な報酬信号を生成し、強化学習における推論プロセスを導くことができます。
ByteDanceとメリーランド大学の研究チームは、コミュニティに大規模モデル用の汎用評価ツールの開発を促すことを目的に、マルチタスク評価用の最初のオープンソース・マルチモーダル大規模モデルであるLLaVA-Criticをリリースしました。
まず、研究チームは、多様な評価シナリオと採点基準を網羅する批評家の指示に従うデータセットを構築しました。次に、このデータセットを用いてLLaVA-Criticを学習させ、モデルの応答に対する合理的な判断と根拠を学習させました。さらに、マルチモーダル評価(LMMを審査員とする)と選好学習という2つのシナリオにおいて、LLaVA-Criticの有効性を検証しました。 評価の指示はデータセットに従ってくださいチームはまず、複数の複雑な評価シナリオをカバーし、評価プロンプトに基づいて対応するスコアとスコアの理由を提供することを目的とした、高品質の評価指示コンプライアンス データセットを構築しました。 この論文では、AI モデル (GPT など) を評価者として使用するオープンエンドのマルチモーダル評価タスクを 2 つのタイプに分類しています。 1. ポイントごとのスコアリング: 評価プロンプトに基づいて個々のモデル応答をスコアリングします。 2. ペアワイズランキング: 2 つの (ペアの) モデル応答について、それらの間の部分的な順序関係を示すか、同点であると宣言します。 LLaVA-Critic-113kには、主に2つの評価設定(単一点スコアリングとペアワイズランキング)が含まれています。どちらの評価においても、LLaVA-Criticでは、ユーザーは与えられた画像、質問、モデルの応答、そして評価プロンプトに示されたスコアリング基準に基づいて、モデルの応答をスコアリングし、その根拠を示す必要があります。 シングルポイントスコアリングでは、8つのマルチモーダルデータセットから入力指示(画像質問)を収集し、13のLMMを用いてモデル応答を生成し、7つの一般的に使用されているオープンベンチマークから評価プロンプトをコンパイルして評価サンプルを取得しました。各評価サンプルについて、GPT-4oに評価クエリを実行し、判断スコアと推論を取得しました。 ペアワイズランキングについては、研究チームは3つの選好データセットからモデル応答を収集しました。これらのデータセットには、人間またはGPT-4Vによる選好ランキング結果が既に含まれています。次に、各モデル応答のペアと既知の半順序関係をGPT-4oに入力し、半順序関係の解釈を得ました。 これに基づいて、研究者らは、異なる形式と採点基準を持つ 30 個の評価プロンプト テンプレートを設計し、[画像質問入力、2 つのモデル応答、部分順序関係、説明] を複数の評価シナリオをカバーする評価指示コンプライアンス データにパッケージ化しました。 こうして、合計46,000枚の画像と113,000個の評価データサンプルを含むLLaVA-Critic-113kデータセットが構築されました。以下の図は、具体的なデータ統計を示しています。 LLaVA-Critic-113kデータセットの統計情報。チームは、複数の評価タスクと領域をカバーする幅広い入力指示とモデル応答を収集しました。上記のデータはすべてオープンソースの指示追従学習データから取得したものであり、実際の評価ベンチマークとは重複していないことにご注意ください。 LLaVA批評家一般的な評価機能を備えた最初のオープンソースのマルチモーダル大規模モデルモデルに汎用的な評価能力を持たせるため、研究チームは、既に強力な指示追従能力を備えた事前学習済みの大規模マルチモーダルモデルの指示を微調整しました。これは非常に重要な点です。複雑な視覚タスクを高品質で処理するモデルの能力は、その評価能力の基盤であり、評価能力は追加の識別能力として、この上にさらに発展していくからです。 LLaVA-Criticは、トレーニング中に、マルチモーダル指示入力、モデル応答、およびオプションの参照応答を含む評価プロンプトを受け取ります。評価プロンプト内の採点基準に基づいて、定量スコアまたはペアワイズランキングを予測し、詳細な推論を提供します。 研究チームは、評価結果(スコアまたは半順序関係)と推論の両方にクロスエントロピー損失を適用することでモデルを学習しました。実験では、LLaVA-OneVision (OV) 7B/72Bの事前学習済みモデルをベースに、LLaVA-Critic-113kデータセットを用いて一度微調整を行い、LLaVA-Criticモデルを取得しました。 シナリオ 1: マルチモーダル大規模モデルを審査員として利用する (LMM-as-a-Judge) 研究チームはまず、複数のマルチモーダル評価タスクにわたって、LLaVA-Critic モデルと GPT-4o および人間のスコアとの一貫性を検証しました。 スコアの全体的な分布と応答モデルの順位付けの両方において、LLaVA-Critic は GPT-4o と一貫性を示しました。 上の図に示すように、単一ポイントの評価評価タスクでは、LLaVA-Critic はベースモデルの LLaVA-OneVision を大幅に上回っており、評価の一貫性とモデルのランキングは、複数の自由形式の質問応答評価ベンチマークにおいて GPT-4o と非常に一致しています。 上の表は、ペアワイズランキングにおける異なる評価者と人間の好みの一貫性を比較したものです。LLaVA-Critic-72Bは73.6%(同点を除く)の精度を達成し、GPT-4V/4oを上回りました。他の2つの指標でも、市販のGPTモデルとほとんど差はありませんでした。 LLaVA-Critic-7Bは、モデルパラメータが大幅に削減されたにもかかわらず、同点判定ありで59.6%、同点判定なしで72.2%の評価精度を達成しています。これは、リソースが限られた環境でLLaVA-Criticを導入するための現実的なソリューションとなります。 上の表は、学習データには見られなかったより広範な評価シナリオを含むMLLM-as-a-JudgeベンチマークにおけるLLaVA-Criticのパフォーマンスを示しています。この新しい評価タスクにおいて、LLaVA-CriticはオープンソースモデルとGPT-4o/4Vとの評価精度の差を大幅に縮め、その汎用性と汎用性を十分に実証しました。 上記の実験結果では、72B モデルが 7B モデルよりも優れたパフォーマンスを示し、Critic-7B も弱められた評価データでトレーニングされた Critic-7B (v0.5) よりも優れたパフォーマンスを示しました。これは、汎用評価ツールを構築する上で、モデルのスケーリングとデータのスケーリングが重要であることをさらに強調しています。 このペアワイズランキングの例では、LLaVA-Critic は入力画像の内容(手書きの数字「7」)を正確に認識し、回答の違いに基づいて判断を下しました。これにより、人間の評価者と整合性のあるランキングと明確な根拠が提示されました。後者(評価の根拠)は、信頼性の高い人工知能を構築する上で極めて重要であり、LLaVA-Critic の評価プロセスの透明性を高め、結果の信頼性を高めます。 シナリオ2:嗜好学習 LLaVA-Criticの評価機能は、ペアワイズモデル応答の品質比較にも使用でき、RLHFやDPOなどの強化学習アルゴリズムの報酬信号として機能します。研究チームは実験において、反復的直接選好最適化(反復DPO)アルゴリズムでLLaVA-Criticを以下のように使用しました。 事前トレーニング済みの LMM と一連の画像質問入力が与えられると、LMM は最初に各画像質問入力に対して K = 5 個の候補応答を生成し、Kx(K-1) = 20 個のペア応答を構築します。 次に、LLaVA-Critic を使用して 20 個の応答ペアを並べ替え、最良と最悪の応答を選択して、ペアワイズ フィードバック データセットを形成しました。 次に、このデータセットを使用して、直接選好最適化 (DPO) を使用した事前トレーニング済みの LMM をトレーニングしました。 これに基づいて、漸進的な反復プロセスは M ラウンドを経て実行され、そのたびに最新のトレーニング済みモデルを使用して候補の応答が生成され、最終的に LLaVA-Critic フィードバックと整合したモデルが生成されます。 研究チームはLLaVA-OneVisionを初期LMMとして用い、3ラウンドの反復的なDPO学習を実施し、最終的に学習済みモデルをLLaVA-OneVision-Chatと名付けました。その後、最終モデルのパフォーマンスを複数の自由回答形式の質問応答ベンチマークでテストし、LLaVA-Criticのパフォーマンスを他の報酬モデルと比較しました。 上の表に示すように、LLaVA-Critic (AI フィードバック) は、7B と 72B の両方のベース モデルで LLaVA-RLHF (人間のフィードバック) を上回り、6 つのマルチモーダル自由回答形式の質問応答ベンチマークでベース モデルのパフォーマンスを大幅に向上させました。 下の棒グラフは、LLaVA-Critic のフィードバックが LLaVA-OneVision モデルのビジュアル質問応答におけるパフォーマンス向上に及ぼす影響をさらに示しています。効果的な報酬シグナルを提供するスケーラブルなソリューションである LLaVA-Critic は、コストのかかる手動フィードバックへの依存を軽減するだけでなく、AI 生成のフィードバックを通じてモデルの嗜好アライメントをさらに最適化することが明らかです。 結論はLLaVA-Criticは、複数のオープン・マルチモーダルシナリオにおけるモデル性能を評価できる、初の汎用オープンソース・マルチモーダル大規模モデル評価ツールです。この目標を達成するために、研究チームは多様な評価タスクと評価基準を網羅する、高品質な評価指示準拠データセットを綿密に構築しました。 実験では、LLaVA-Critic が 2 つの主要領域で有効であることが実証されました。 1.汎用評価ツールであるLLaVA-Criticは、評価が必要なモデル応答に対して、単一点スコアとペアワイズランキングを提供できます。これらのスコアとランキングは、人間やGPT-4oの好みと非常に一致しており、大規模なマルチモーダルモデルのオープンレスポンスを自動的に評価するための実用的なオープンソースの代替手段となります。 2.嗜好学習の観点から見ると、LLaVA-Critic が提供する嗜好信号は、マルチモーダル大規模モデルの視覚対話機能を効果的に向上させ、さらには人間のフィードバックに基づく LLaVA-RLHF 報酬モデルを上回ることができます。 この研究は、オープンソースのマルチモーダル大規模モデルに固有の評価機能を活用する上で大きな前進となります。この基盤を基に、よりスケーラブルで人間のようなアライメントフィードバックメカニズムを探求するさらなる研究が進み、マルチモーダル大規模モデルの開発が進展することを期待しています。 |