DUICUO

国際的に認められた権威!DeepSeek は 150 万以上のモデルを誇り、最も人気のあるオープンソースの大規模モデル ライブラリとなっています。

本日午前3時、世界最大級のオープンソースプラットフォームの一つであるHuggingfaceの共同設立者兼CEOであるクレメント・デラング氏が最新データを公開した。

中国のオープンソースの大型モデル「DeepSeek-R1」は、150万のモデルの中でプラットフォーム上で最も人気のあるオープンソースの大型モデルとなり、1万件以上の「いいね!」を獲得した。

クレメント氏は少し前に、DeepSeek-R1のダウンロード数が1,000万回を超え、ハグフェイスプラットフォーム史上最も人気のあるモデルになったことを祝うメッセージを投稿した。

Clement 氏も DeepSeek の成功から恩恵を受けているようで、DeepSeek を心から愛し、称賛し続けています。

特筆すべきは、R1 がわずか数週間で、ChatGPT のようなオープンソースの先駆者である Meta がリリースした Llama シリーズ、中国の主要なオープンソース モデルである Qwen シリーズ、Microsoft の Phi シリーズ、Google の Gemma シリーズを上回ったことです。

オープンソースのテキスト画像変換モデルのダークホースであるFLUX.1や、この分野のリーダーであるStable-Diffusionシリーズでさえ、R1に勝つことはできませんでした。多くのオープンソースの巨匠たちを乗り越えて、この1位を獲得したのは当然のことです。

一部のネットユーザーは、R1 のオープンソースの性質が AI 分野を完全に変えたとコメントしています。

今週、Deepseek は多数の新機能を発表しました。きっとご期待ください!

今週はオープンソースに関するさらなるサプライズが待っています!

Deepseekの功績は計り知れません。彼らはオープンソースを再び偉大なものにしてくれました。彼らはゲームの流れを完全に変え、あらゆるクローズドソースモデルにプレッシャーをかけました。

Perplexity、Azure、AWS などのクラウド プラットフォームでも、Sonar、OpenAI、Anthropic のモデルへの独自の投資よりも Deepseek を使用する傾向があります。

DeepSeek-R1の簡単な紹介

R1を開発する以前、DeepSeekは純粋な強化学習バージョンであるR1-Zeroを開発しました。これは従来の教師ありファインチューニングに依存せず、GRPOアルゴリズムを採用していました。学習済みバージョンは良好なパフォーマンスを示しましたが、可読性が低く、言語の混在という問題がありました。

したがって、R1 モデルは、合計 4 つのトレーニング フェーズで構成される R1-Zero に基づいてトレーニングされました。

コールド スタート トレーニング フェーズ: R1-Zero とは異なり、ベース モデルから開始する強化学習トレーニングの不安定なコールド スタート フェーズを回避するために、R1 は少量の長い思考チェーン データを構築して収集し、DeepSeek-V3-Base モデルを初期の強化学習参加者として微調整します。

研究チームは、データ収集の際、長い思考の連鎖を伴う少数のサンプルの手がかりを例として使用したり、反省と検証によって詳細な回答をモデルに直接生成するよう指示したり、R1-Zero出力を読み取り可能な形式で収集し、手動注釈による後処理を通じて最適化したり、数千のコールドスタートデータを収集してモデルを微調整したりするなど、さまざまな方法を検討しました。

推論指向の強化学習フェーズ:このフェーズでは、コーディング、数学、科学、論理的推論など、問題と解決策が明確に定義されている推論集約型のタスクを実行するモデルの能力を向上させることに重点が置かれます。

訓練中、特に強化学習の手がかりが複数の言語を含む場合、思考連鎖において言語の混合の問題が観察されました。この問題を軽減するために、思考連鎖におけるターゲット言語の単語の割合で測定される言語一貫性報酬が導入されました。アブレーション実験では、この調整によりモデルのパフォーマンスがわずかに低下することが示されましたが、人間の好みと一致し、読みやすさも向上しています。

最後に、推論タスクの精度と言語一貫性の報酬が直接加算されて最終報酬が形成され、微調整されたモデルは推論タスクが収束するまで強化学習を使用してトレーニングされます。

棄却サンプリングと教師あり微調整フェーズ:推論駆動型強化学習が収束した後、得られたチェックポイントを用いて、以降のラウンドの学習のための教師あり微調整データを収集します。主に推論に重点を置く初期のコールドスタートデータとは異なり、

このフェーズでは、他のドメインからのデータを統合し、ライティング、ロールプレイング、その他の一般的なタスクにおけるモデルの能力を強化します。推論データに関しては、推論の手がかりが慎重に作成され、前述の強化学習を用いて訓練されたチェックポイントの棄却サンプリングを通じて推論軌跡が生成されます。

フルシーン強化学習フェーズ: R1モデルを人間の好みにより適合させるため、2つ目の強化学習フェーズが実装されました。このフェーズでは、主にモデルの有用性と無害性を向上させ、推論能力をさらに最適化しました。

このモデルは、報酬信号と多様な手がかり分布を組み合わせることで学習されます。推論データについては、R1-Zeroで使用されているアプローチを採用し、ルールベースの報酬を活用して、数学、コーディング、論理的推論の領域における学習プロセスを導きます。

一般的なデータについては、複雑かつ微妙なシナリオにおける人間の嗜好を捉えるために報酬モデルが用いられます。DeepSeek-V3ワークフローに基づき、類似した嗜好ペアとトレーニングキューの分布を採用しています。有用性の評価では、最終的な要約のみを考慮することで、基礎となる推論プロセスへの干渉を最小限に抑えながら、ユーザーの使いやすさと関連性に焦点を当てた評価を実現しています。

無害性を評価する際には、推論プロセスや要約を含む評価モデルの応答全体が評価され、生成プロセス中に発生する可能性のある潜在的なリスク、バイアス、または有害なコンテンツが特定され、軽減されます。

オープンソースアドレス: https://huggingface.co/deepseek-ai/DeepSeek-R1