|
2 月 25 日のニュース: DeepSeek の「Open Source Week」イベントは 2 日目に入り、本日リリースされるのは、MoE モデルのトレーニングと推論のための最初のオープンソース EP 通信ライブラリである DeepEPです。 IT Home はオープンソース アドレスを提供しています: https://github.com/deepseek-ai/DeepEP 公式の説明によれば、次のような特徴があるそうです。 - 非常に効率的で最適化されたフルツーフル通信方式
- ノード内およびノード内通信をサポートし、NVLink および RDMA テクノロジーと互換性があります。
- 高スループットのカーネルを提供し、トレーニングと推論の初期段階での充填効率を向上させます。
- 推論とデコードの速度を最適化するために低レイテンシのカーネルを提供します。
- FP8データ形式のスケジューリングを完全にサポート
- 柔軟な GPU リソース管理を提供し、計算と通信の重複実行をサポートします。
詳細な紹介の要点は次のとおりです。 DeepEPは、ハイブリッドエキスパート(MoE)およびエキスパートパラレル(EP)演算向けに特別に設計された通信ライブラリです。高スループットかつ低レイテンシのオールツーオールGPUカーネルを提供し、MoEのディスパッチおよびマージ演算で広く使用されています。また、FP8を含む低精度計算もサポートしています。 DeepSeek-V3論文で提案されたグループ制限ゲーティングアルゴリズムとの互換性を確保するため、DeepEPは、NVLinkドメインからRDMAドメインへのデータ転送など、非対称帯域幅転送に最適化されたカーネルを提供します。これらの最適化されたカーネルは高いスループットを提供し、学習および推論における事前入力タスクに適しているだけでなく、SM(ストリーミングマルチプロセッサ)カウント制御もサポートしています。 レイテンシに敏感な推論およびデコードタスク向けに、DeepEPは純粋なRDMA技術を採用してレイテンシを最小限に抑える低レイテンシカーネルを提供します。さらに、このライブラリはフックベースのアプローチを採用しており、SMリソースを消費することなく通信と計算をオーバーラップさせます。
必要: - Hopper GPU (将来的にはさらに多くのアーキテクチャやデバイスをサポートする可能性があります)
- Python 3.8以上
- CUDA 12.3以上
- PyTorch バージョン 2.1 以上
- ノード間通信にNVLinkを使用する
- RDMAネットワークに基づくノード間通信
|