DeepSeek オープンソースの進捗状況 2/5: MoE モデルのトレーニングと推論のための最初の EP 通信ライブラリ、DeepEP。

2 月 25 日のニュース: DeepSeek の「Open Source Week」イベントは 2 日目に入り、本日リリースされるのは、MoE モデルのトレーニングと推論のための最初のオープンソース EP 通信ライブラリである DeepEPです。

IT Home はオープンソースアドレスを提供しています: https://github.com/deepseek-ai/DeepEP

公式の説明によれば、次のような特徴があるそうです。

非常に効率的で最適化されたフルツーフル通信方式
ノード内およびノード内通信をサポートし、NVLink および RDMA テクノロジーと互換性があります。
高スループットのカーネルを提供し、トレーニングと推論の初期段階での充填効率を向上させます。
推論とデコードの速度を最適化するために低レイテンシのカーネルを提供します。
FP8データ形式のスケジューリングを完全にサポート
柔軟な GPU リソース管理を提供し、計算と通信の重複実行をサポートします。

詳細な紹介の要点は次のとおりです。

DeepEPは、ハイブリッドエキスパート（MoE）およびエキスパートパラレル（EP）演算向けに特別に設計された通信ライブラリです。高スループットかつ低レイテンシのオールツーオールGPUカーネルを提供し、MoEのディスパッチおよびマージ演算で広く使用されています。また、FP8を含む低精度計算もサポートしています。
DeepSeek-V3論文で提案されたグループ制限ゲーティングアルゴリズムとの互換性を確保するため、DeepEPは、NVLinkドメインからRDMAドメインへのデータ転送など、非対称帯域幅転送に最適化されたカーネルを提供します。これらの最適化されたカーネルは高いスループットを提供し、学習および推論における事前入力タスクに適しているだけでなく、SM（ストリーミングマルチプロセッサ）カウント制御もサポートしています。
レイテンシに敏感な推論およびデコードタスク向けに、DeepEPは純粋なRDMA技術を採用してレイテンシを最小限に抑える低レイテンシカーネルを提供します。さらに、このライブラリはフックベースのアプローチを採用しており、SMリソースを消費することなく通信と計算をオーバーラップさせます。

必要：

Hopper GPU (将来的にはさらに多くのアーキテクチャやデバイスをサポートする可能性があります)
Python 3.8以上
CUDA 12.3以上
PyTorch バージョン 2.1 以上
ノード間通信にNVLinkを使用する
RDMAネットワークに基づくノード間通信

DUICUO

DeepSeek オープンソースの進捗状況 2/5: MoE モデルのトレーニングと推論のための最初の EP 通信ライブラリ、DeepEP。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ