DUICUO

Alibaba DAMO Academyの最新フレームワーク、FederatedScopeが登場!フェデレーテッドラーニングを、使いやすさから高度な効果へと進化させます。

Alibaba DAMO Academyは、新たなフェデレーテッドラーニングフレームワーク「FederatedScope」をリリースしました。このフレームワークは、大規模かつ高効率な非同期フェデレーテッドラーニングトレーニングをサポートし、さまざまなデバイスの動作環境に対応し、豊富な機能モジュールを提供することで、プライバシー保護コンピューティング技術の開発と導入の難易度を大幅に低減します。このフレームワークは現在、世界中の開発者向けにオープンソースとして公開されています。

プライバシー保護はデジタル経済の基盤です。ユーザーデータのプライバシーを守りながら、高品質な接続サービスを提供することは、デジタル経済時代における重要な技術課題となっています。プライバシー保護とデータ活用のジレンマを解決するため、「データは静止し、モデルは移動する」というコンセプトに基づく連合学習フレームワークが登場し、近年、プライバシー保護コンピューティングの最も主流のソリューションの一つとなっています。

具体的には、フェデレーテッドラーニングフレームワークは、「データは利用可能だが、データは見えにくい」という概念を巧みに実現しています。ユーザー自身のデータは、自身の携帯電話や自動車の中に留まり、「ドメイン外へ」出ることは決してありません。一方、機械学習モデルの学習に必要な情報(勾配など)は、様々な方法(暗号化、ノイズの追加、分割など)で保護され、クラウドサーバーに集約されてモデルの学習に使用されます。そして、クラウドは更新されたモデルを携帯電話や自動車にプッシュします。このインタラクティブで反復的なプロセスを通じて、サービスプロバイダーは、ユーザーデータのプライバシーを保護しながら、ユーザーにサービスを提供するための高性能モデルを学習することができます。

現在、オープンソースのフェデレーテッドラーニングフレームワークには、TensorFlow Federated (TFF) と FATE があります。これらのフレームワークは、フェデレーテッドアグリゲーション、差分プライバシー、準同型暗号化など、フェデレーテッドラーニングに関連する基本コンポーネントと実装方法を提供し、フェデレーテッドラーニングに関連するコミュニティ研究と産業アプリケーションの両方をサポートします。

しかし、現実世界における応用シナリオの多様化と、フェデレーテッドラーニングタスクの異質な特性(データの異質性、システムリソースの異質性、行動の異質性など)は、フェデレーテッドラーニングフレームワークに新たな課題をもたらしています。既存のフェデレーテッドラーニングフレームワークは、現実世界におけるますます複雑化する計算ニーズに柔軟かつ効率的に対応することができず、「使いやすさ」重視から「使いやすさ」重視への転換が求められています。

まず、連合学習において参加者間で交換される情報の形式ははるかに豊富になり、モデルパラメータや勾配といった均質な情報に限定されなくなりました。例えば、グラフデータにおける連合学習では、参加者はノードの埋め込み表現などの情報も交換します。垂直連合学習のシナリオでは、参加者は公開鍵や暗号化された中間結果も交換します。このような多様な情報に対応するには、連合学習フレームワークがさまざまな種類の情報交換を柔軟にサポートする必要があります。

第二に、連合学習における参加者の行動はより多様化しており、「サーバー側での集約とクライアント側でのローカルトレーニング」という従来のモデルに限定されなくなりました。例えば、クロスデバイス連合学習のシナリオでは、端末デバイスの操作要件を満たすためにサーバー側でモデルを圧縮する必要があり、端末デバイス側では受信したモデルを微調整することでより良い結果を得ることがよくあります。参加者の多様な行動に対応するため、連合学習フレームワークは様々なカスタム行動を柔軟にサポートする必要があります。

一方、フェデレーテッドラーニングの参加者の応答速度と信頼性は様々であり、従来の同期トレーニング手法を用いると、トレーニング効率の低下やシステム利用率の低下につながる可能性があります。そのため、フェデレーテッドラーニングフレームワークでは、開発者がアプリケーションシナリオに基づいて異なる非同期トレーニング戦略を採用できるようにすることで、トレーニングの有効性を確保しながらトレーニング効率を向上させる必要があります。

さらに、現実世界のアプリケーションでは、フェデレーテッドラーニングの参加者はそれぞれ異なるモデルトレーニング環境を備えている場合があります。例えば、バックエンド環境としてPyTorchを使用するデバイスもあれば、TensorFlowを使用するデバイスもあります。そのため、フェデレーテッドラーニングフレームワークは、クロスプラットフォームのフェデレーテッドラーニング設定をサポートし、ユーザーがすべての参加者の環境を適応させるのに時間と労力を費やす必要がないように、高い互換性を備えている必要があります。

最後に、フェデレーテッド ラーニング フレームワークは、研究者や開発者のさまざまなアプリケーション ニーズを満たし、シミュレーションから展開への移行の難しさを軽減し、フェデレーテッド ラーニングと学術研究および産業アプリケーション間のギャップを狭めるために、単一マシン シミュレーションと分散展開のための統一されたアルゴリズム記述とインターフェイスを提供する必要があります。

これらの課題に対処するため、DAMO アカデミー インテリジェント コンピューティング ラボは Federated Scope フレームワークを開発し、5 月 5 日に正式にリリースされ、オープンソース化されました。

FederatedScopeは、イベント駆動型プログラミングパラダイムを採用し、実世界のシナリオにおけるフェデレーテッドラーニングアプリケーションの非同期トレーニングをサポートします。分散機械学習の研究成果に基づき、非同期トレーニング戦略を統合することでトレーニング効率を向上させます。具体的には、FederatedScopeはフェデレーテッドラーニングを参加者間でメッセージを送受信するプロセスと捉え、メッセージの種類とメッセージ処理動作を定義することでフェデレーテッドラーニングプロセスを記述します。

FederatedScope は、フェデレーションプロセス(異なる参加者の調整など)とモデルトレーニング動作(トレーニングデータのサンプリングや最適化など)を分離します。これにより、開発者は、異なる参加者を順次実行という観点からどのように連結するかを考えることなく、参加者が受信したメッセージを処理する方法のカスタマイズに集中できます。例えば、従来の FedAvg アルゴリズムの実装では、ユーザーは、ユーザーからモデルパラメータ情報を受け取った後のアグリゲータの集約動作と、アグリゲータからブロードキャストされた新しい一連のモデルパラメータを受け取った後のユーザーのローカルトレーニング動作を定義するだけで済みます。

異種メッセージパッシングや高度なメッセージ処理動作を伴うフェデレーテッドラーニングタスクにおいて、FederatedScope はユーザーがメッセージタイプや処理動作を追加することでカスタマイズできます。さらに、FederatedScope には多数の組み込みメッセージタイプと対応するメッセージ処理動作が用意されており、様々なシナリオにおけるフェデレーテッドタスクに適切に対応できるため、開発者とユーザーの学習曲線を大幅に短縮できます。

一方、DAMOアカデミーチームは、FederatedScopeトレーニングモジュールを抽象化し、特定のディープラーニングバックエンドから独立させ、PyTorchやTensorflowなどのさまざまなデバイス動作環境と互換性を持たせました。これにより、科学研究や実用アプリケーションにおけるフェデレーテッドラーニングの開発難易度とコストが大幅に削減されます。

図1. 従来の連合学習

図2. イベント駆動型

FederatedScopeは、様々なアプリケーションシナリオへの適応性を高めるため、自動パラメータチューニング、プライバシー保護、パフォーマンス監視、エッジモデルのパーソナライゼーションなど、様々な機能モジュールを統合しています。FederatedScopeでは、開発者が設定ファイルを通じて統合モジュールを簡単に呼び出すことができ、また、登録を通じてこれらのモジュールに新しいアルゴリズム実装を追加することも可能です。具体的には以下のとおりです。

(1) 自動ハイパーパラメータチューニングは、最適なハイパーパラメータの探索にかかる時間とリソース消費を大幅に削減します。FederatedScopeは、開発者が直接利用できる最新の連合学習自動ハイパーパラメータチューニングアルゴリズムを提供します。同時に、自動ハイパーパラメータチューニングモジュールは自動ハイパーパラメータチューニングアルゴリズムのフレームワークを抽象化することで、研究者による新しいハイパーパラメータチューニングアルゴリズムの開発を容易にします。

(2) プライバシー保護は、あらゆるシナリオにおいて普遍的な要件です。FederatedScopeのプライバシー保護モジュールは、セキュアなマルチパーティ計算、準同型暗号化、差分プライバシーといった、主流のプライバシー保護メカニズムを提供します。さらに、プライバシー保護モジュールは、開発者がプライバシー保護の強度を検証できるよう、主流のプライバシー評価アルゴリズムも提供します。

(3)パフォーマンスモニタリングは、開発者がトレーニングの進捗状況をいつでも把握し、トレーニングの異常をタイムリーに検出するのに役立ちます。FederatedScopeのパフォーマンスモジュールは、各ユーザーのトレーニング結果や集計終了時の評価など、トレーニングプロセスのさまざまな中間情報をユーザーフレンドリーなインターフェースで表示できます。

(4) フェデレーテッドラーニングの参加者間でデータ分布やデバイス性能に大きな差があるため、エッジモデルのパーソナライゼーションはアプリケーションシナリオにおいて重要な要件となっています。FederatedScopeのエッジモデルパーソナライゼーションモジュールは、差別化されたトレーニング構成、カスタマイズされたトレーニングモジュール、参加者のトレーニング行動のパーソナライズ、グローバルモデルとパーソナライズされたローカルモデルの維持などの機能を実装し、エッジクラウド連携を実現します。同時に、エッジモデルパーソナライゼーションモジュールは、開発者が利用できる豊富なパーソナライゼーションアルゴリズムを提供します。

従来のフェデレーテッド ラーニング フレームワークと比較すると、FederatedScope は、次の例に示すように、特に使いやすいです。

(1) フェデレーテッドラーニングを初めて使用するユーザー向けに、FederatedScopeは詳細なチュートリアル、ドキュメント、実行スクリプトを提供しており、フェデレーテッドラーニングを迅速に開始できるようにガイドします。また、FederatedScopeには、一般的に使用されるモデルアーキテクチャの実装が含まれており、一部のベンチマークデータセットに対して統一された前処理とカプセル化が提供されるため、ユーザーは実験を便利に行うことができます。

(2) 従来の連合学習を、異なるデータやモデルアーキテクチャを使用するなど、異なる下流タスクに適用したい開発者向けに、FederatedScope は、登録することで、事前に準備された新しいデータセットとモデルアーキテクチャを利用でき、他の詳細を変更する必要はありません。さらに、FederatedScope は、タスクの種類に応じて異なるパフォーマンス監視および評価メトリクスをカスタマイズできます。

(3) 連合学習アルゴリズムの深層研究開発を行うユーザーにとって、連合学習において異種情報交換や多様な処理動作を追加できる十分な自由度が必要です。FederatedScopeでは、メッセージの種類とそれに対応する処理機能のみを定義すれば済みます。既存の連合学習フレームワークと比較したFederatedScopeの利点は、開発者が連合学習プロセスを逐次実行の観点から完全に記述する必要がなく、イベント駆動型で新しいメッセージの種類とメッセージ処理動作を追加するだけで済むことです。このシステムは、自動パラメータチューニングと効率的な非同期トレーニングの完了を支援し、必要な開発作業量と複雑さを軽減します。

全体として、イベント駆動型プログラミングパラダイムを採用し、フェデレーテッドラーニングを異種メッセージの伝送と処理に抽象化し、豊富なアルゴリズム戦略と機能モジュールを統合することで、FederatedScopeはフェデレーテッドラーニングアプリケーションの異種特性に効果的に対応し、さまざまなフェデレーテッドラーニングアプリケーションシナリオの多様なニーズに柔軟に対応し、使いやすく開発しやすいという特徴を備えています。既存のフェデレーテッドラーニングフレームワークと比較して、FederatedScopeは開発者にとっての利用難易度を大幅に低減します。

DAMOアカデミーインテリジェントコンピューティングラボのプライバシー保護コンピューティングチームリーダー、ディン・ボーリン氏は次のように述べています。「データは生産において重要な要素となっており、プライバシー保護コンピューティングは、この要素を効果的に機能させるための重要な技術です。最新のフェデレーテッドラーニングフレームワークをオープンソース化することで、研究と生産におけるプライバシー保護コンピューティングの広範な応用を促進し、医薬品研究開発、政府の相互運用性、ヒューマンコンピュータインタラクションといったデータ集約型分野の発展をより安全かつ円滑に実現したいと考えています。」

ガートナーのレポートによると、2025年までに大企業の約60%が少なくとも1つのプライバシー保護コンピューティング技術を導入すると予想されています。DAMOアカデミーの2022年トップ10テクノロジートレンドでも、プライバシー保護コンピューティングが重要なトレンドとして挙げられており、この技術は少量データを扱うシナリオから包括的な保護へと移行し、デジタル時代における新たな生産性を刺激すると考えています。