|
360 Brainは2025年3月4日、Light-R1-32Bモデルと全ての学習データおよびコードをオープンソース化しました。学習はわずか12台のH800マシンでわずか6時間で完了します。長い思考連鎖を持たないQwen2.5-32B-Instructをベースとし、わずか7万点の数学データポイントを用いてLight-R1-32Bを実現しました。AIME24ベンチマークでは76.6点、AIME25ベンチマークでは64.6点を達成しました。これはオープンソースの数学的評価において、DeepSeek-R1-Distill-Qwen-32Bの72.6点と54.9点を大幅に上回り、ゼロからのブレイクスルーを達成した初めての事例となります。 360 Brainは1週間前、北京大学と共同でTinyR1-32B-Previewをオープンソース化しました。DeepSeek-R1-Distill-Qwen-32Bで学習させたこのモデルは、本格的なDeepSeek-R1と比較して、数学、科学、コードにおいてほぼ完璧なパフォーマンスを達成しました。一方、Light-R1-32BはDeepSeek-R1-Distillに依存していません。複雑な思考プロセスを持たないモデルから出発し、DeepSeek-R1-Distill-Qwen-32Bを数学的に再現し、ゼロから凌駕しました。360 Brainは、この研究がオープンソースコミュニティの発展に貢献することを期待しています。 注:この表は64サンプルの平均スコアを示しており、16サンプルの平均スコアよりも安定しています。その他のオープンソースモデルは、オープンソースレポートから取得されています。そのようなモデルが利用できない場合は、64サンプルの平均スコアが使用されます。
低コスト、専門性を活かしたゼロからのブレイクスルーDeepSeek-R1 モデルのリリース以来、多くのオープンソース作業が 72B 以下のモデルで長い思考チェーンを使用して DeepSeek-R1 のパフォーマンスを再現しようと試みてきましたが、AIME24 などの難しい数学コンテストで DeepSeek-R1-Distill-Qwen-32B の 72.6 に近いスコアを達成したものはまだありません。 360 Smart BrainのオープンソースLight-R1-32Bが画期的な進歩を遂げました。長い思考連鎖を伴わないQwen2.5-32B-Instructからの学習から開始し、AIME24で76.6、AIME25で64.6という高スコアを達成しました。いずれもDeepSeek-R1-Distill-Qwen-32Bを大きく上回りました。 H800のレンタル価格をベースにゼロから構築したLight-R1-32Bトレーニングソリューションは、トレーニングコストがわずか約1,000ドルです。わずか7万個の数学データポイントを使用し、SFTとDPOの2段階学習コースを経ることで、DeepSeek-R1-Distill-Qwen-32Bを凌駕し、12台のH800マシンのトレーニングに6時間未満(約4時間 + 0.5時間 + 0.5時間)で完了します。 モデルの長期思考能力は数学的データのみを用いて学習されたにもかかわらず、GPQA Diamondタスクにおける優れた結果は、Light-R1の学習アプローチの汎用性と有効性を確信させるものでした。現在社内で開発中の強化学習ルートと比較して、Light-R1のSFT+DPO学習法は、学習プロセス全体を通してより合理化され、費用対効果に優れています。学習および推論技術の継続的な発展により、長期思考モデルは今後さらに普及していくでしょう。Light-R1は、ドメイン特化型推論モデルを低コストかつ迅速に学習するための重要なリファレンスとなります。 完全にオープンソースで、シンプルで使いやすいLight-R1 は、オープンソースの初日に、トレーニングおよび評価資産全体をリリースしました。
信頼性と再現性を確保するため、初日から完全オープン。360 Brainは継続的なトレーニングのための強化学習も検討しており、今後さらにパフォーマンスが向上することが期待されます。 Light-R1-32Bは、Qwenトークナイザーに基づいて特定の特殊トークンを追加します。Light-R1-32Bモデルを使用する場合、その長い思考連鎖機能は現時点では数学的データのみを使用して学習されているため、すべてのユーザー入力に対して長い思考連鎖を出力するわけではありません。DeepSeekの推論提案に従い、チャットテンプレートに<think>トークンをハードコードすることで、思考を強制します。推論には、vLLMまたはSGLangの新しいバージョンを使用することをお勧めします。 SFT+DPOコース、着実な進歩データ準備 トレーニング問題は、OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME(2023年現在)などの複数のオープンソース数学データセットからのものであり、AIME、MATH、GPQAなどのベンチマークテストからデータ漏洩を除去することで問題は浄化されています。 数学の問題の解答はDeepSeek-R1の結果から取得され、検証とフィルタリングが行われました。同時に、DeepScaleR-1.5B-Previewを用いてサンプリングを行い、解答の正確性に基づいて問題の難易度を推定しました。 SFT+DPOコース学習 Qwen2.5-32B-Instruct に基づいて、Post-Training が順番に実行されます。
モデル融合 最終的に、AIチームは、SFTステージ2、DPO、そしてモデルの別のDPOバージョン(AIME24スコア74.7)をArceeチームのmergekitツールを用いて統合し、Light-R1-32Bを作成しました。これらの2つのDPOバージョンは、トレーニングデータとハイパーパラメータがわずかに異なります。 訓練プロセス全体を通して、各ステップにおける改善は上記の表に反映されています。訓練を実施しなかったGPQA科学関連質問評価では、数学に特化した訓練によって若干の忘却が見られましたが、Light-R1-32Bは依然として高い汎化能力を示しました。 データ重複排除はオープンソース エコシステムに役立ちます。ベンチマークスコアは重要ですが、限界もあります。事前学習段階でのベンチマークデータの混入を完全に回避することは困難ですが、学習後段階では学習セット内のテストデータを厳密に重複排除することで、データの混入を厳格に防止する必要があります。360 Brainは開発中に、オープンソースデータセットはAIMEには混入しないものの、MATH-500とGPQAにはある程度の混入を示すことを発見しました。Nグラムや純粋な文字マッチング検出では、元の問題や、数値のみが変更された計算問題を識別できます。この問題に対処するため、Light-R1-32Bでは学習中に厳格な重複排除を実装しました。 オープンソースコミュニティにおいて、Light-R1-32BはDeepSeek-R1-Distill-Qwen-32Bを上回るためにゼロから学習された最初のモデルです。Light-R1-32Bは、オープンソースモデルQwen2.5-32B-InstructとDeepSeek-R1、そして複数のオープンソースデータセットに基づいています。オープンソースフレームワーク360-LLaMA-Factoryを用いて学習され、オープンソースプロジェクトDeepScaleRとVerlを用いて評価されています。360は、Light-R1-32Bと先週オープンソース化されたTinyR1、そしてその他の取り組みを通じて、オープンソースエコシステムの発展に貢献し、中国におけるAI開発を加速させることを期待しています。 注: この記事で「ゼロから」とは、長い思考連鎖のないモデルからトレーニングを開始することを意味します。 チームメンバー:Liang Wen、Fenrui Xiao、Xin He、Yunke Cai、Qi An、Zhenyu Duan、Yimin Du、Junchen Liu、Lifu Tang、Xiaowei Lv、Haosheng Zou、Yongchao Deng、Shusheng Jia、Xiangzheng Zhang |