DUICUO

DeepSeek オープンソースの進捗状況 2/5: MoE モデルのトレーニングと推論のための最初の EP 通信ライブラリ、DeepEP。

2 月 25 日のニュース: DeepSeek の「Open Source Week」イベントは 2 日目に入り、本日リリースされるのは、MoE モデルのトレーニングと推論のための最初のオープンソース EP 通信ライブラリである DeepEPです。

IT Home はオープンソース アドレスを提供しています: https://github.com/deepseek-ai/DeepEP

公式の説明によれば、次のような特徴があるそうです。

  • 非常に効率的で最適化されたフルツーフル通信方式
  • ノード内およびノー​​ド内通信をサポートし、NVLink および RDMA テクノロジーと互換性があります。
  • 高スループットのカーネルを提供し、トレーニングと推論の初期段階での充填効率を向上させます。
  • 推論とデコードの速度を最適化するために低レイテンシのカーネルを提供します。
  • FP8データ形式のスケジューリングを完全にサポート
  • 柔軟な GPU リソース管理を提供し、計算と通信の重複実行をサポートします。

詳細な紹介の要点は次のとおりです。

DeepEPは、ハイブリッドエキスパート(MoE)およびエキスパートパラレル(EP)演算向けに特別に設計された通信ライブラリです。高スループットかつ低レイテンシのオールツーオールGPUカーネルを提供し、MoEのディスパッチおよびマージ演算で広く使用されています。また、FP8を含む低精度計算もサポートしています。

DeepSeek-V3論文で提案されたグループ制限ゲーティングアルゴリズムとの互換性を確保するため、DeepEPは、NVLinkドメインからRDMAドメインへのデータ転送など、非対称帯域幅転送に最適化されたカーネルを提供します。これらの最適化されたカーネルは高いスループットを提供し、学習および推論における事前入力タスクに適しているだけでなく、SM(ストリーミングマルチプロセッサ)カウント制御もサポートしています。

レイテンシに敏感な推論およびデコードタスク向けに、DeepEPは純粋なRDMA技術を採用してレイテンシを最小限に抑える低レイテンシカーネルを提供します。さらに、このライブラリはフックベースのアプローチを採用しており、SMリソースを消費することなく通信と計算をオーバーラップさせます。

必要:

  • Hopper GPU (将来的にはさらに多くのアーキテクチャやデバイスをサポートする可能性があります)
  • Python 3.8以上
  • CUDA 12.3以上
  • PyTorch バージョン 2.1 以上
  • ノード間通信にNVLinkを使用する
  • RDMAネットワークに基づくノード間通信