DUICUO

DeepSeekオープンソース進捗状況5/5:高性能並列ファイルシステム3FSが6.6 TiB/sの総スループットを達成

2月28日、DeepSeekはオープンソースウィーク5日目に3FS(Fire-Flyer File System)をリリースしました。これは、最新のSSDとRDMAネットワークの帯域幅を最大限に活用するように設計された並列ファイルシステムで、驚異的なデータアクセス性能を誇り、ディープラーニングなどのデータ集約型アプリケーションを強力にサポートします。

IT Home はオープンソース アドレスを提供しています: https://github.com/deepseek-ai/3FS

Smallpond、3FS ベースのデータ処理フレームワーク: https://github.com/deepseek-ai/smallpond

3FSパフォーマンスハイライト

  • 高いクラスター スループット: 180 ノードのクラスターでは、3FS は最大 6.6 TiB/s の合計読み取りスループットを実現します。
  • 優れたベンチマーク結果: 25 ノード クラスターでの GraySort ベンチマーク テストでは、3FS は 3.66 TiB/分のスループットを達成しました。
  • ノードあたりの高パフォーマンス:ピーク KVCache ルックアップ スループットは、クライアント ノードあたり 40 GiB/秒を超えます。
  • 高度なアーキテクチャ: 3FS は分散型アーキテクチャを採用し、強力な一貫性セマンティクスを備えています。

3FSアプリケーションシナリオ

3FS(Fire-Flyer File System)は、AIトレーニングおよび推論ワークロードの課題に対処するために設計された高性能分散ファイルシステムです。最新のSSDとRDMAネットワークを活用して共有ストレージ層を提供し、分散アプリケーションの開発を簡素化します。

その主な利点は、高性能、強力な一貫性、使いやすさにあり、データの準備、データの読み込み、チェックポイントの設定、推論のキャッシュなど、さまざまな AI ワークロードを効果的にサポートできます。

3FS は DeepSeek の V3/R1 バージョンで広く使用されており、トレーニング データの前処理、データセットの読み込み、チェックポイントの保存/再読み込み、埋め込みベクトル検索、推論中の KVCache 検索などの重要な側面をカバーしています。

スモールポンド

さらに、DeepSeekは3FSをベースとしたデータ処理フレームワーク「Smallpond」をオープンソース化しました。Smallpondは、DuckDBと3FSをベースとした軽量なデータ処理フレームワークです。高性能なデータ処理能力を誇り、ペタバイト規模のデータセットにも対応可能で、長時間稼働のサービスを必要としない使いやすさも魅力です。