|
本日は、視覚強化の微調整のための画期的なオープンソース プロジェクトである Visual-RFT (Visual Reinforcement Fine-Tuning) を強くお勧めしたいと思います。 論文リンク: https://arxiv.org/abs/2503.01785 コードアドレス: https://github.com/Liuziyu77/Visual-RFT Visual-RFTは、DeepSeek-R1とOpenAIのReinforcement Fine-Tuning(RFT)パラダイムの背後にあるルールベース報酬強化学習手法を、純粋なテキストベースの大規模言語モデルから視覚言語モデル(LVLM)へと拡張することに成功しました。Visual-RFTは、細粒度画像分類や物体検出といったタスクに対応するルール報酬を設計することで、DeepSeek-R1手法がテキスト、数学的推論、コードといった限られた領域に限定されているという認識を打ち破り、視覚言語モデルの学習に全く新しい道を切り開きます。 図1は、多数のポケモンが描かれた画像を用いてこのプロセスを示しています。Visual-RFTを用いてマルチモーダル強化学習の微調整を行ったモデルに、どのポケモンがサンダーボルト技を繰り出せるかを尋ねると、モデルは<think>推論プロセスを通じてピカチュウの対応する座標ボックスを正確に見つけ、モデルの汎化能力を実証しました。 図 1. Visual-RFT は、強化された微調整機能をマルチモーダル モデルに移行した最初の実装であり、思考プロセスとルールベースの監視を通じて、わずか 10 ~ 1000 のデータ ポイントを持つ大規模なマルチモーダル モデルのパフォーマンスを向上させます。 R1からVisual-RFTへ:強化学習におけるマルチモーダルなブレークスルーOpenAIのo1モデルの核となる強みは、強化学習の微調整能力にあり、少数のサンプルで新しいタスクに移植することができます。最近、DeepSeek-R1は、o1モデルの強力な推論能力は、検証可能な報酬/ルールベースの検証に基づく強化学習戦略に由来すると説明しました。しかし、このルールベースの報酬アプローチは、数学的推論やコーディングなど、検証が容易な少数のタスクにのみ適しているというのが一般的な理解です。Visual-RFTでは、この戦略を視覚言語モデルに移植しました。微調整や物体検出などのタスクに対応する検証可能なルール報酬を確立することで、視覚領域における従来の手法の限界を克服し、少数の微調整サンプルで、より効率的で一般化された視覚理解と推論能力を実現しました。 従来の視覚的指示チューニング(SFT)では、モデルの微調整に膨大なデータが必要であり、データが限られている場合(例えば、データ収集が困難な特定の被験者固有のシナリオなど)の改善効果は限定的でした。しかし、私たちが提案する視覚的強化微調整は、少量学習能力と強力な汎化能力を備えており、データが限られているシナリオにおいて、指示ベースの微調整に比べて大きな利点を提供します。 Visual-RFT(Visual Enhancement Fine-tuning)の一般化能力と汎用性を検証し、視覚領域を包括的にカバーすることを目指し、検出、分類、グラウンディングを含む複数の視覚知覚タスクでVisual-RFTを検証しました。これらのうち、Visual-RFTは、オープン語彙と少数ショット学習の設定下で、ごく少量のデータで大幅な性能向上を達成し、容易に能力転移を実現し、SFTのファインチューニング手法よりも大幅に優れた結果を示しました。推論グラウンディングテストでは、Visual-RFTは強力な視覚推論能力を示しました。評価結果を図2に示します。詳細な実験情報は論文に記載されています。 図 2. Visual-RFT (Visual Enhancement Fine-tuning) は、オブジェクト検出 (OD)、開いたオブジェクトの検出 (OVD)、少数ショットの検出と分類 (FSOD/IC)、推論のグラウンディングなど、さまざまなタスクで SFT を大幅に上回ります。 図 3. フレームワーク図: Visual-RFT (視覚強化微調整) は、IoU と cls 報酬および強化学習ポリシー (GRPO など) を介してモデル パラメータを更新します。 視覚マルチモーダル領域における検証可能な報酬の役割を検証するために、検出や接地などのタスクには IoU ベースの検証済み報酬を使用し、分類タスクには正しい分類判断に基づく CLS 報酬を使用することを提案します (図 3 を参照)。 図 4. 部分的な推論と位置特定結果から、思考プロセスと強化学習戦略 Visual-RFT (マルチモーダル強化微調整) を導入することで、SFT を大幅に上回り、より正確にオブジェクトを特定できることがわかります。 図5. 推論の部分的な細粒度分類結果。思考プロセスと強化学習戦略を導入することで、Visual-RFT(マルチモーダル強化微調整)はSFTを大幅に上回り、より正確に物体の位置を特定します。 いくつかのモデルの出力結果を図4と図5に示します。従来の視覚指示/教師あり微調整と比較して、Visual-RFT(視覚強化微調整)は強化学習手法を通じてより優れた推論性能を実現し、問題に対して詳細な思考分析を実行します。これは、従来の指示微調整(SFT)手法に対する大幅な改善を示しています。たとえば、水中でクリアな視界を維持するためにアスリートが着用する必要がある物体を尋ねられた場合、従来の指示微調整手法ではアスリート全体の輪郭を描くだけです。しかし、Visual-RFTは推論プロセスを導入することで、防水ゴーグルとその位置を正確に指摘し、正確な輪郭を描きます。 Visual-RFT実験結果Visual-RFT(Visual Enhancement Fine-Tuning)は、様々な画像およびテキスト認識タスクにおいて強力なパフォーマンスを実証しています。私たちの実験は主に、大規模な視覚言語モデル基盤であるQWen2-VL 2B/7Bモデルに焦点を当て、従来の教師ありファインチューニング手法と比較しています。Visual-RFTは、オープンオブジェクトの検出、少数ショットの検出、細粒度分類、および推論位置推定タスクにおいて、SFTよりも包括的なパフォーマンス向上を実現します。特に、テストデータには、COCOやLVISなどの一般的なシナリオと、インターネットから収集した漫画キャラクターなどのオープンシーンデータの両方が含まれています。わずか数十のデータポイントで、モデルはVisual-RFTを使用して特定のアニメのスライムキャラクターを検出することを学習できます。実験結果は、Visual-RFTの優れたパフォーマンスと堅牢性を広範囲に検証しています。 図 5. 部分的な実験結果から、Visual-RFT が SFT を大幅に上回り、モデルの微調整のための新しいパラダイムを確立していることがわかります。 Visual-RFT がオープンソースになりました!ぜひご参加ください! 私たちはオープンソースの力を強く信じており、Visual-RFTプロジェクトは完全にオープンソースです(学習・評価コード、データを含む)。マルチモーダルモデル、強化学習、視覚言語理解にご興味をお持ちでしたら、ぜひ一緒に可能性を探求してみませんか? プロジェクトアドレス: https://github.com/Liuziyu77/Visual-RFT |