O1 レプリケーション用の最初のオープンソース RL フレームワークである OpenR が、UCL、上海交通大学、およびその他の大学の共同チームによってリリースされました。

OpenR 研究チームのメンバーは、ユニバーシティ・カレッジ・ロンドン (UCL) のコンピュータサイエンス教授でアラン・チューリング研究所のチューリングフェローである Jun Wang 教授と、UCL の博士課程 1 年目の学生 Yan Song、リバプール大学の Meng Fang 助教授、上海交通大学コンピュータサイエンス学部の教授、博士課程の指導教官、学科副部長である Weinan Zhang 教授、上海交通大学ジョン・ホップクロフトコンピュータサイエンスセンターの准教授 Ying Wen、および上海交通大学 Apex およびマルチエージェント研究所の博士課程学生 Ziyu Wan、Muning Wen、Jiachen Zhu です。Weinan Zhang 教授と Ying Wen 助教授は、Jun Wang 教授の指導の下、UCL で博士号を取得しました。香港科技大学（広州）の初代学長、香港科学アカデミー会員で香港科技大学（広州）の教授であるライオネル・M・ニ氏、香港科技大学（広州）の情報ハブ学部長で教授であるレイ・チェン氏も参加しています。香港科技大学（広州）の博士課程1年生である劉安潔氏と龔子琴氏は、西湖大学工学部の王俊教授と楊臨怡博士、そして楊臨怡助教授（研究）の共同指導を受けました。

OpenAIの推論分野における最新モデルであるo1は、推論タスクにおけるGPT-4oの性能を大幅に向上させ、人間の平均的なレベルを凌駕しています。o1の背後にある技術とは一体何でしょうか？OpenAIの技術レポートで強調されている、推論フェーズにおける強化学習とスケーリング則はどのように実装されているのでしょうか？

これらの疑問に答えるために、ユニバーシティ・カレッジ・ロンドン（UCL）、上海交通大学、リバプール大学、香港科技大学（広州）、西湖大学は共同で、O1ライクな初のフルチェーン学習フレームワーク「OpenR」をオープンソース化しました。これは、ユーザーが独自の複雑な推論モデルを迅速に構築するのに役立つオープンソースのコードライブラリです。このプロジェクト全体はUCLの王軍教授によって開始・指導され、実験は主に上海交通大学のチームによって実施されました。

大規模言語モデル (LLM) の複雑な推論機能を強化するために設計された、プロセス報酬モデル (PRM) トレーニング、強化学習、および複数の検索フレームワークを統合した、o1 のような最初のオープンソースフレームワークである OpenR を紹介します。

論文リンク: https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf
コードリンク: https://github.com/openreasoner/openr
チュートリアルリンク: https://openreasoner.github.io/

OpenRは、データ取得、強化学習トレーニング（オンラインおよびオフライントレーニングを含む）、非自己回帰デコードを統合プラットフォームに統合します。OpenAIのo1モデルの成功に着想を得たOpenRは、従来の自己回帰手法を凌駕するモデルベースのアプローチを採用しています。公開データと検索手法を活用し、MATHデータセットでの評価を通じてOpenRの有効性を実証しました。予備実験では、相対的なパフォーマンスが大幅に向上することが示されています。推論分野におけるオープンソースコミュニティの発展を促進することを目指し、コード、モデル、データセットを含むOpenRフレームワークをオープンソース化しました。関心のある実務家の皆様は、ぜひ私たちのオープンソースコミュニティにご参加ください。コード、ドキュメント、チュートリアルはhttps://openreasoner.github.ioでご覧いただけます。

図1: システム設計図

システム設計。プロセス報酬モデル（PRM）は、LLMポリシーを2つの主要な方法で強化します。まず、トレーニング中に、PRMはポリシー最適化技術（上図に示すポリシー反復）を通じてLLMポリシーを改善します。次に、デコードフェーズにおいて、PRMはLLMの探索プロセスをガイドし、より効率的な結果へと推論を導きます（上図に示す）。次に、LLMポリシーが欠落している中間推論ステップの特定にも役立ち、それがPRMのさらなるトレーニングと改善につながることを示します。上図に示すように、この反復的な相互作用により、LLMとPRMの両方が推論を改善する潜在能力を継続的に発揮できるようになります。

図2 コード構造図

データ拡張。LLMを推論に使用する際、最終的な答えからのフィードバックだけに頼るのではなく、より詳細なフィードバック手法を用いて、段階的にデータを収集し、ラベル付けします。これにより、特定のエラー箇所を特定し、問題解決中にフィードバックを提供できるため、モデルの学習と改善が向上します。

MATH-APS。合成サンプルを自動生成することでデータを拡張します。高価でスケーラブルな手動アノテーションに依存するPRM800kデータセットとは異なり、新しいデータセットであるMATH-APSを導入します。このデータセットはMATHデータセットに基づいており、OmegaPRMなどの自動化手法を使用してサンプルを生成することで、手動アノテーションへの依存を減らし、大規模なデータ収集を容易にします。OmegaPRM、Math-Shepherd、MiPSなどの自動化手法は、高品質のプロセス監視データを効率的に収集できます。Math-ShepherdとMiPSはプロセス監視のための自動アノテーションを提供しますが、多数のポリシー呼び出しを必要とするため、計算コストが高くなります。OmegaPRMは、ソリューションを反復的に分割し、分析をバックトラックし、モデル推論における最初のエラーステップを特定することで、このプロセスを改善します。

合成サンプルを自動生成することで、データを拡張します。高価でスケーラブルな手動アノテーションに依存するPRM800kデータセットとは異なり、新しいデータセットであるMATH-APSを導入します。このデータセットはMATHデータセットに基づいており、OmegaPRMなどの自動化された手法を使用してサンプルを生成するため、手動アノテーションへの依存が低減し、大規模なデータ収集が容易になります。OmegaPRM、Math-Shepherd、MiPSなどの自動化された手法は、高品質のプロセス監視データを効率的に収集できます。Math-ShepherdとMiPSはプロセス監視のための自動アノテーションを提供しますが、多数のポリシー呼び出しが必要となり、計算コストが高くなります。OmegaPRMは、ソリューションを反復的に分割し、分析をバックトラックし、モデル推論における最初のエラーステップを特定することで、このプロセスを改善します。

PRMの教師あり学習。プロセス報酬モデル（PRM）の主な目的は、解決プロセスのステップが正しい軌道に乗っているかどうかを判断することです。そのため、PRMは、現在の解決プロセスの正しさを示す指標として、0から1の間のスコアを出力します。具体的には、問題とその解決ステップのシーケンスが与えられた場合、PRMは各ステップのスコアを計算します。これは、正解か不正解かという2値分類タスクと見なすことができます。私たちは、正解または不正解の判断を分類ラベルとして用い、大規模言語モデル（LLM）の教師ありファインチューニングによってPRMを学習します。さらに、LLMを用いて各ステップの次のラベルを予測します。

Math-psa PRMは、LLMを用いた教師ありファインチューニングによって学習され、正解/不正解の区別が分類ラベルとして使用されます。PRM800K、Math-Shepherd、そして独自のMATH-APSデータセットなどのデータセットを用いて、Math-psaと呼ばれるPRMを学習します。これらのデータセットは、問題、プロセス、ラベルの3つの部分で構成されています。入力は問題とプロセスを連結したものです。このプロセスでは、ソリューションは複数のステップに分解され、各ステップは各ステップの終了点を示す特別なステップラベルで区切られ、PRMはここで予測を行うことができます。ラベルはプロセス全体を分類し、ソリューションの正誤に基づいて各ステップを+または-でマークします。

トレーニング中、モデルは各ステップにラベルが付与された後、正または負のラベルを予測します。入力連結形式には、質問と各ステップ間のマーカーが含まれます。ラベルはステップマーカーの位置にのみ付与され、損失の計算では無視されます。このアプローチにより、モデルはトレーニング中にステップマーカーに惑わされることなく、入力シーケンスに主に焦点を当てることができるため、識別と分類の精度が向上します。

LLMの戦略学習。数学の問題を言語強化された意思決定プロセスに変換し、段階的に解決します。このプロセスはマルコフ決定プロセス（MDP）と呼ばれ、状態、行動、報酬から構成されます。このフレームワークでは、各数学の問題が初期状態となり、モデルは推論ステップを行動として生成し、現在の状態と行動に基づいて次の状態を決定します。

モデルがステップを完了するたびに、そのステップが正しかったかどうかを評価するための報酬またはフィードバックを受け取ります。この報酬は、モデルが正しい方向に進んでいるかどうかを判断するのに役立ちます。このプロセスが繰り返され、モデルは可能な限り多くの肯定的なフィードバックまたは報酬を得ることを目標に、推論経路を継続的に調整します。

このMDPは、OpenAIのGym環境に似た強化学習環境として実装されています。ここでは、各数学の問題がタスクとして扱われ、モデルは一連の連続した推論ステップを通じてこれらの問題を解きます。正しいステップには報酬が与えられ、誤ったステップにはペナルティが課されます。このように、モデルは継続的な試行錯誤を通じて戦略を最適化し、数学の問題を解く能力を徐々に向上させることができます。

オンライン強化学習トレーニング。強化学習を用いて大規模言語モデル（LLM）をトレーニングする場合、生成される言語出力を期待されるアクションと整合させるために、通常、近似ポリシー最適化（PPO）が使用されます。PPOは、モデルが文脈に適切かつ目標指向的な応答を生成するのに役立ち、言語理解とアクション出力のギャップを埋めます。本稿では、従来のPPOと、より効率的な変種であるグループ相対ポリシー最適化（GRPO）を紹介します。主な違いは、優位性の計算方法にあります。PPOはネットワークを用いて状態値を推定し、一般化優位性推定（GAE）を用いて優位性値を計算します。一方、GRPOは標準化された報酬信号を直接用いてアクションの優位性を推定することでこのプロセスを簡素化し、トレーニングリソースの消費を削減し、報酬モデルの安定性に重点を置きます。

デコーディング：推論中のガイド付き検索と計画

各解ステップの精度を評価するために、プロセス報酬モデル（PRM）を使用します。高品質なPRMモデルを学習した後、言語モデルと組み合わせることで、デコードプロセスに統合し、ガイド付き検索や複数世代の評価・投票が可能になります。

PRMをバリデータとして使用するために、LLMによって生成された解の正しさを評価する方法を定義し、各ステップのスコアを最終スコアに変換します。主な方法は2つあります。

PRM-Min: すべてのステップの中で最も低いスコアを最終スコアとして選択します。
PRM-Last: 最終スコアとして最後のステップのスコアを選択します。この方法は、PRM-Minと同等のパフォーマンスを示すことが示されています。

拡張推論によって複数の回答を生成した後、スコアに基づいて最適な回答を選択する必要があります。私たちは以下の3つの戦略を採用しました。

1. 多数決：最も頻繁に表示される回答が最終的な回答として使用されます。

2. RM-Max: 結果報酬モデルに基づいて、最終報酬が最も高い回答を選択します。

3. RM-Vote: 結果報酬モデルに基づいて、総報酬が最も高い回答を選択します。

これらの戦略を組み合わせることで、PRM-LastとRM-Maxを組み合わせて選択を行うPRM-Last-Maxなど、様々な重み付け手法を形成できます。私たちのフレームワークでは、ビームサーチ、ベスト・オブ・N、モンテカルロ木探索など、様々な探索アルゴリズムから選択できます。各アルゴリズムは、PRMの品質において独自の利点を持っています。複雑な探索アルゴリズムは、より困難なタスクを扱う際に優れたパフォーマンスを発揮する可能性がありますが、ベスト・オブ・Nなどのより単純な手法は、それほど難しくないタスクで優れたパフォーマンスを発揮することがよくあります。

デコード段階におけるスケーリング則

テスト時間のスケーリング法則では、OpenAI o1 と DeepMind の論文「LLM テスト時間の計算を最適にスケーリングすると、モデルパラメータをスケーリングするよりも効果的になる可能性がある」と同様の傾向が見られました。以下を参照してください。

図 3. 推論フェーズにおける新しいスケーリング係数の実験結果。

図3(a)は、推論プロセス中のこれらの検索方法と投票方法のパフォーマンスを比較しています。y軸はMATH500データセットでのテスト精度を表し、x軸は生成予算（質問あたりの平均ラベル数）を示しており、各質問の計算コストまたはラベルの使用を反映しています。この図は、生成予算が増加するにつれて、最良のN選択法とバンドル検索法が多数決よりも大幅に優れており、以前の調査結果と同様のパターンを示していることを示しています。推論の計算予算が低い場合、最良のN選択法はバンドル検索よりも優れていますが、バンドル検索はより高い計算予算で同様のパフォーマンスを達成しています。一方、図(b)は、PRM（Math-aps）がすべてのテスト計算予算で最高のテスト精度を達成していることを示しています。これは確かに、PRMトレーニングがプロセス監督を効果的に学習することを検証しています。

詳細なドキュメントはこれで終わりです。OpenRは、わずか数行のコードでPRMのトレーニング、強化学習のトレーニング、そして様々なデコード手法をサポートしており、ユーザーは簡単に実験とテストを行うことができます。また、詳細なコードドキュメントも提供していますので、ぜひご参照ください。https://openreasoner.github.io/ をご覧ください。サポートしているアルゴリズムは次の図に示されています。

図4. オープンソースコードアルゴリズム実装のブロック図

図5. OpenR技術ドキュメント図

DUICUO

O1 レプリケーション用の最初のオープンソース RL フレームワークである OpenR が、UCL、上海交通大学、およびその他の大学の共同チームによってリリースされました。

デコーディング：推論中のガイド付き検索と計画

デコード段階におけるスケーリング則

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ