DUICUO

Alibaba DAMO Academy が新しいフレームワークをオープンソース化: プライバシー保護コンピューティングの分野に参入し、フェデレーテッド ラーニングが主要プレーヤーを迎え入れます。

この記事は、AI関連ニュースメディアQuantumBit(WeChat ID: QbitAI)の許可を得て転載しています。転載の許可については、元の情報源にお問い合わせください。

誰も自分のプライバシーを簡単に譲り渡したくはありません。

Appleが「App Tracking Transparency」プライバシー保護機能を正式にリリースしたとき、アプリによるアクティビティの追跡を許可することを選択したユーザーはわずか16%でした。

しかし、Apple が指摘しているように、利便性やサービスの質を得るためには、プライバシーデータを犠牲にしなければならない場合もある。

そして 1 年後、データ分析会社 Adjust によれば、この数字は25%まで上昇しました。

言い換えれば、より多くのユーザーがパーソナライズされたコンテンツを受け取ることの価値を再発見したということです。

インターネット プラットフォームがユーザーのプライバシーを厳重に保護しながら、ユーザーに高品質のサービスを提供できるようにし、両方の長所を活かす方法はあるでしょうか?

はい、本当にあります。

現在最も主流のソリューションは、機械学習モデルの構築に使用されるアルゴリズム フレームワークであるフェデレーテッド ラーニングです。

フェデレーテッドラーニングのフレームワークでは、ユーザー自身のデータは最初から最後まで、ユーザー自身の携帯電話、車、さまざまな IoT デバイスに残ります。

一方、機械学習モデルの学習に必要な情報は、暗号化、ノイズの追加、分割などの手段で保護され、モデル更新のためにクラウドサーバーに集約されます。その後、クラウドは更新されたモデルをユーザー端末にプッシュします。

このインタラクティブで反復的なプロセスを通じて、サービス プロバイダーは、ユーザーのデータのプライバシーを保護しながら、ユーザーにサービスを提供するための高性能モデルをトレーニングできます。

フェデレーテッドラーニングは、2016 年に Google によって初めて提案され、それ以来人気の研究分野となっています。

学術界では、発表される論文の数が急増しています。

△清華大学「2021年 フェデレーテッドラーニングに関する世界的研究・応用動向レポート」より

このオープンソース フレームワークは、中国と海外の多くの大企業も結集しています。

△GithubリポジトリAwesome-Federated-Machine-Learningより

Google の Tensorflow-Federated水平連合学習の代表例です。

ローカル モデルとクラウド ベース モデルは機能を共有しますが、サンプル データを共有しないため、同じ企業が消費者側の複数のユーザーにサービスを提供する状況に適しています。

WeBank の Yang Qiang 教授が開発した FATE フレームワークは、垂直連合学習の代表的な例です。

モデルの機能に一貫性がなく、サンプル データが重複しているため、2 つの企業が顧客グループを共有しながらも異なる機能に重点を置いている場合など、B2B アプリケーションに適しています。

さらに、上記 2 つの特徴を組み合わせ、参加者間で特徴やサンプルの重複が少ない状況に適した、連合転移学習があります。

つい最近、もうひとつの大手企業が静かにこの競争に参入した。Alibaba DAMO Academy が、新しい連合学習フレームワークであるFederatedScope をオープンソース化したのだ。

△https://federatedscope.io

すると次のような問題が発生します。

新しいフレームワークと以前のフレームワークの違いや競争上の優位性は何ですか?DAMOアカデミーが今この時期に市場参入を決めた理由は何ですか?

まず、フェデレーテッド ラーニングの現状と FederatedScope フレームワーク自体の特徴を見て、理解を深めましょう。

今、どのような連合学習フレームワークが必要なのでしょうか?

5G、IoT、クラウドコンピューティング技術の発展に伴い、フェデレーテッドラーニングに関わるデバイスの応用シナリオはますます多様化しています。

異種性は、従来の連合学習にとって最大の課題となっています。

異なるデバイス間の計算能力、ストレージ容量、通信機能の違いは、システム リソースの異質性と呼ばれます。

異なるデバイス上のローカル データが独立して分散されていないと、データの異質性が生じる可能性があります。

異なるアプリケーション シナリオによって動作の異質性が生じる可能性があります。


これらの異質性は、連合学習に新たな課題をもたらします。

まず、連合学習の参加者間で交換される情報の形式はより豊富になり、モデルパラメータや勾配などの同質の情報に限定されなくなります。

金融業界や通信業界で一般的に使用されている連合学習では、参加者はノードの埋め込み表現などの情報も交換します。

△「Federated Graph Learning - A Position Paper」より

情報の種類が多様であるため、連合学習フレームワークは、さまざまな種類の情報の配信を柔軟にサポートする必要があります。

第二に、クロスデバイス連合学習は、「サーバーが集約を担当し、ユーザーがローカルトレーニングを担当する」という従来のモデルに限定できなくなりました。

サーバー側では、端末デバイスの動作要件を満たすためにモデルを圧縮する必要がある場合が多くあります。また、端末デバイス側では、受信したモデルを微調整してより良い結果を得る役割も担っています。

利害関係者の多様な行動には、さまざまなカスタム行動を柔軟にサポートする連合学習フレームワークが必要です。

デバイス間のインタラクションでは、参加者間で応答速度と信頼性に一貫性がないという問題も発生するため、開発者が現実のシナリオに基づいてさまざまな非同期トレーニング戦略を採用できる連合学習フレームワークが必要になります。

デバイス間の参加者であっても、異なるバックエンド環境を使用する場合があります。たとえば、一部のデバイスでは PyTorch を使用し、他のデバイスでは TensorFlow を使用します。

これには、フェデレーテッド ラーニング フレームワークの互換性を高め、クロスプラットフォームのフェデレーテッド ラーニングをサポートし、ユーザーがすべての参加者の環境を適応させるために時間と労力を費やす必要がないようにする必要があります。

最後に、連合学習が研究の最前線から産業用アプリケーションへと移行するにつれて、研究者や開発者のさまざまなアプリケーションニーズを満たし、シミュレーションからデプロイメントへの移行の難しさを軽減するために、単一マシンシミュレーションと分散デプロイメント用の統一されたアルゴリズム記述とインターフェースを提供する連合学習フレームワークが必要になります。

DAMO アカデミー インテリジェント コンピューティング ラボによってオープンソース化された新しい連合学習フレームワークである FederatedScope は、これらの新しい課題に対処するために作成されました。

メッセージ タイプとカスタム動作の場合、FederatedScope はフェデレーション ラーニングを参加者間でメッセージを送受信するプロセスとして見なします。

これにより、メッセージ タイプとメッセージ処理動作を定義してフェデレーテッド ラーニング プロセスを記述できるようになり、また、ユーザーが追加のメッセージ タイプと処理動作を追加してカスタマイズすることも可能になります。

FederatedScope は、フェデレーション プロセス (さまざまな関係者の調整など) をモデル トレーニング動作 (トレーニング データのサンプリング、最適化など) から分離し、開発者が関係者の動作のカスタマイズに集中できるようにします。

既存の連合学習フレームワークと比較して、FederatedScope では、順次実行の観点から異なる参加者をどのようにリンクするかを考慮する必要がないため、開発の複雑さと必要なコード量が削減されます。

△従来の連合学習

△FederatedScopeモード

非同期トレーニングの場合、FederatedScope はイベント駆動型プログラミングパラダイムを採用し、分散機械学習の関連研究結果を利用して非同期トレーニング戦略を統合し、トレーニング結果を改善します。

クロスプラットフォームのバックエンドサポートのために、FederatedScope はトレーニング モジュールを抽象化します。これにより、コアフレームワークはあらゆるディープラーニング バックエンドから独立し、さまざまなデバイスの動作環境と互換性を持つようになり、実際のシナリオでフェデレーテッド ラーニングを展開する際の難しさやコストが大幅に削減されます。

FederatedScope は、これらの課題に対処するだけでなく、さまざまなシナリオへのフレームワークの適用性開発者にとっての使いやすさにも細心の注意を払っています。

FederatedScope は、自動パラメータ調整、プライバシー保護、パフォーマンス監視、エッジ モデルのパーソナライズなど、複数の機能モジュールを統合してこの問題に対処します。

また、開発者が構成ファイルを通じて統合モジュールを簡単に呼び出すこともサポートしており、これらのモジュールに新しいアルゴリズムの実装を追加し、登録を通じて呼び出すことも可能です。

たとえば、準備された新しいデータセットとモデル アーキテクチャを登録して使用することで、他の詳細を変更することなく、従来のフェデレーテッド ラーニングをさまざまな下流タスクに簡単に適用できます。

フェデレーテッド ラーニングを初めて使用する初心者でもすぐに始められるように、FederatedScope では包括的なチュートリアル、ドキュメント、実行スクリプトを提供しています。

FederatedScope には、一般的に使用されるモデル アーキテクチャの実装も含まれており、一部のベンチマーク データセットに対して統合された前処理とカプセル化が提供され、ユーザーが簡単に実験を行えるようになります。

プライバシー保護コンピューティングはどの段階に達していますか?

要約すると、DAMO アカデミーの連合学習フレームワークに関する考慮事項は、利便性と幅広い適用性に重点を置いていることは明らかです。

このような状況が生じた理由は、実は全体的な環境の変化によるものです。

昨年以来、プライバシー保護コンピューティング業界は活況を呈しています。

IDCの最近のレポートによると、中国のプライバシー保護コンピューティング市場の規模は2021年に8億6000万人民元を超え、今後の成長率は110%を超えると予想されています。

ガートナーは、2025年までに大企業の約60%が少なくとも1つのプライバシー保護コンピューティング技術を採用すると予測しており、アリババDAMOアカデミーの2022年トップ10テクノロジートレンドでもプライバシー保護コンピューティングが重要なトレンドとして挙げられています。

クォンタムビットシンクタンクの推計によると、今年3月時点で中国にはプライバシー保護コンピューティング関連事業を展開する企業が約150社あるという。

この分野全体は、サードパーティのスタートアップ、大手インターネット企業、AI ソフトウェア開発者、変革中の企業、独自の AI ソリューションを開発しているクライアントが参加する「戦場」となっています。

市場が活況を呈するにつれ、政府や社会もプライバシー保護コンピューティングに一層注目するようになっています。

2020年、州はデータを生産要素として含め、土地、労働、技術などの従来の要素と同等に位置付けました。

2021年には「中華人民共和国データセキュリティ法」、「中華人民共和国個人情報保護法」、「自動車データセキュリティ管理に関する若干の規定(試行)」が相次いで施行された。

このように、政府は過去2年間、データベース資源市場の育成に力を入れており、同時に関連規制の整備も加速させている。

プライバシーを保護するコンピューティングに対する需要は社会レベルでも高まっています。

特にここ2年間は、健康コードや顔認証などのアプリケーションがデータ流通の価値を世間に示してきた一方で、プライバシー漏洩によるセキュリティインシデントも相次いで発生している。

これにより、プライバシー データの合理的かつ準拠した使用に対する一般の需要が高まり、プライバシーを保護するコンピューティング業界に対する需要とシナリオがさらに促進されました。

実際、QuantumBit Think Tank の分析によると、プライバシー保護コンピューティング業界の非常に重要な価値層は、社会に生産性を提供することから生まれます。

QuantumBit シンクタンクの分析によると、プライバシー保護コンピューティングの価値は次の 3 つの層に分けられます。

  • 第一段階:業界独自の開発
  • 第2レベル:産業の相乗効果と発展
  • 第3層:データ要素の流れを促進し、社会的生産性を高める。

2030年までに、わが国のプライバシー保護コンピューティング産業の総市場規模は1,134億人民元に達すると予測されています。

3 番目の層が最も高い値を占め、62% に達します。1 番目と 2 番目の層はそれぞれ 11% と 27% を占めます。

一方、学術研究でも、過去 2 年間でフェデレーテッド ラーニングとプライバシー保護コンピューティングへの注目が高まっています。

ガートナーは昨年7月、2021~2025年のサイクルではフェデレーテッドラーニングが主流となり、プライバシー保護コンピューティングの商用化が促進されると予測した。

清華大学人工知能研究所などが共同で発表した「2021年 フェデレーテッドラーニングに関する世界的な研究と応用動向レポート」でも、フェデレーテッドラーニング研究の全体的な人気が年々高まっていると言及されている。

中国と米国は、研究論文の発表数と特許出願の受理数の両方でトップを占めています。

中国は2016年から2020年の間に連邦学習に関する論文を666本発表し、同期間において世界第1位となった。

連合学習における引用数の多い論文の半分は中国と米国からのものであり、この分野の学者は主にこの 2 か国に集中しています。

明らかに、科学研究コミュニティと産業界の間に協力と相互進歩の傾向が現れています。

△清華大学「2021年 フェデレーテッドラーニングに関する世界的研究・応用動向レポート」より

このような背景から、DAMO アカデミーがオープンソース プラットフォームを使用して、この時期にプライバシー保護コンピューティングの分野に参入している理由は理解しやすいでしょう。

しかし、なぜ基盤となるテクノロジーから始めることにしたのでしょうか?DAMOアカデミーの技術専門家に意見や回答を伺いました。

理由の 1 つは、DAMO アカデミーの固有の性質です。

テクノロジー業界の主要企業として、DAMO アカデミーは当然のことながら、最先端テクノロジーの価値と将来性を重視しています。

一方、これは、DAMO アカデミーのプライバシー保護コンピューティングに関する長期にわたる洞察からも生まれています。

DAMOアカデミーのインテリジェントコンピューティングラボのシニアテクニカルエキスパートであるディン・ボーリン氏は、プライバシー保護コンピューティング研究において10年以上の経験を有しています。会話の中で彼は、過去2年間で連合学習に関する研究成果が数多く発表され始めたと述べました。

技術者として、この研究の波を加速させるためのツールから始めることを考えるのは自然なことでした。

「また、軽量で使いやすいプラットフォームをオープンソース化することで、誰もがより共同研究を実現し、より多くの学術成果を生み出し、産業革新をさらに促進できるようにしたいと考えています。」

たとえば、現在多くのサービスプロバイダーは、ユーザーにプライバシーデータへのアクセスを許可することを要求していますが、プライバシー保護に関する要件はそれぞれ異なります。

誰もがデータを提供したがらない場合、継続的な製品最適化をどのように実現できるでしょうか?

これには学界と産業界の共同の探究が必要です。

FederatedScope オープンソース プラットフォームは、そのためのシミュレーション環境を提供し、複数の関係者間の共同開発をサポートします。

調査の最終結果は、後続の開発者による繰り返し作業を回避するために、DAMO アカデミーによってオープンソース フレームワーク ツールの形式で固定されます。

DAMO アカデミーのインテリジェント コンピューティング ラボの上級技術専門家である Li Yaliang 氏が、FederatedScope のオープンソース化を担当しました。

同氏は、オープンソース プラットフォームの現在のバージョンは主に技術開発のサポートを目的としており、次のフェーズでは産業展開の考慮にさらに重点を置くことになると述べました。

DAMO アカデミーは、フェデレーテッド ラーニングに加えて、プライバシー保護コンピューティングの他の領域 (マルチパーティの安全なコンピューティングや信頼できる実行環境など) にも展開しています。

DAMO アカデミーインテリジェントコンピューティングラボは、データセキュリティとプライバシー保護の技術開発を綿密に監視しており、データの収集、データの共有、データの提示の各段階におけるユーザーのプライバシーとセキュリティ保護の問題の研究に重点を置くとともに、データ損失の削減とデータ分析機能の向上に関する研究にも注目しています。

技術と規制のギャップをどう埋めることができるでしょうか?

DAMO アカデミーの 2 人の技術専門家との会話の中で、 「コンプライアンス」という言葉が 20 回以上使われたことは特筆に値します。

関連する内容は、技術開発が規制圧力によって制限されるということではなく、むしろ規制の推進力によって技術開発が繁栄するということです。

プライバシー保護コンピューティングの分野で10年以上の研究開発経験を持つディン・ボーリン氏は、プライバシー保護コンピューティング技術の主な価値はコンプライアンスの促進にあると述べました。

これは、プライバシーを保護するコンピューティング サービスの設計および開発段階で最初に考慮すべき問題です。

つまり、コンプライアンス遵守の下で技術革新を実現し、データ流通の価値を最大化することが、プライバシー保護コンピューティング技術の本来の目的の一つです。

では、コンプライアンスとは何でしょうか?そして、テクノロジーの境界線は一体どこにあるのでしょうか?

この標準的な回答は業界で長い間待望されていました。

実際、我が国は近年、データプライバシー関連の法律や政策を数多く導入しているだけでなく、その法規制は世界でも最も厳格な水準にあります。これにより、我が国のプライバシー保護コンピューティング市場は、比較的遅れて始まったにもかかわらず、ある程度は急速に発展することができました。

ディン・ボーリン氏は、明確にすべき境界には、「いかなる状況でも収集できないデータ」、「技術的ソリューションを通じて安全に収集および適用できるデータ」、「コンプライアンス規定に基づいて構築されたセキュリティ モデルを通じてテストできる技術的ソリューションと、それらを使用できるシナリオ」という複数のレベルが含まれると考えています。

近年、規制により第 1 レベルの境界が徐々に明確化されてきましたが、第 2 レベルと第 3 レベルの境界については、政府部門が産業界、学界、研究機関と協力して依然として検討する必要があります。

これには、学術界が最も中核的かつ最先端の技術進歩を提供する必要があり、また産業界は実際の技術応用からケーススタディを抽出して、境界を精緻化するための参考資料を提供する必要があります。

境界が明確になるにつれて、技術の探求と産業の発展のペースが加速し、それによってデータプライバシー保護技術の進歩が継続的に推進され、データアプリケーションの価値が実現されます。

最後に、記事の冒頭に戻りましょう。

プライバシーと利便性は共存できるかどうかという問題について、あなたの意見は何ですか?

FederatedScope オープンソース アドレス:
https://github.com/alibaba/FederatedScope