|
Ant Groupは7月4日、信頼できるプライバシーコンピューティングフレームワーク「Hidden Language」を世界中の開発者に正式にオープンソース化したと発表した。 Hidden Languageは、Ant Groupが6年かけて独自に開発した信頼性の高いプライバシーコンピューティング技術フレームワークであり、セキュリティとオープン性を中核設計コンセプトとしています。主流のプライバシーコンピューティング技術のほぼすべてをカバーしています。 報道によると、Hidden Language(HIL)は、MPC、TEE、準同型コンピューティングといった様々な暗号化コンピューティング仮想デバイスを統合し、複数の連合学習アルゴリズムと差分プライバシーメカニズムを提供します。階層化設計とすぐに利用可能なプライバシー保護データ分析・機械学習機能により、開発者の技術的障壁を効果的に低減し、AIやデータ分析などの分野へのプライバシーコンピューティングの適用を可能にし、プライバシー保護やデータサイロといった業界の課題を解決します。 Ant Groupの大規模事業や外部の金融・ヘルスケア分野で既に導入実績のあるHidden Languageは、セキュリティとパフォーマンスのバランスを実現します。発表イベントでは、Ant GroupがHidden Languageの多くの機能を紹介しました。 プライバシーコンピューティングにはどのようなオープンソースフレームワークが必要ですか?プライバシー保護コンピューティングは、暗号学、機械学習、ハードウェア、BI分析などを含む、新興の学際分野です。マルチパーティセキュアコンピューティング(MPC)、フェデレーテッドラーニング(FL)、信頼実行環境(TEE)、信頼暗号計算(TECC)、準同型暗号化、差分プライバシーといった様々な技術的アプローチが含まれ、多数の専門的な技術スタックが関わっています。 プライバシーコンピューティングは、データセキュリティとデータ循環のバランスをとる重要な技術であり、データプロバイダーが元のデータを開示することなくデータを分析および計算できるため、循環と統合のプロセスで「使用可能だが見えない」および「計算可能だが認識できない」データを実現します。 過去数年間の業界経験から、プライバシーコンピューティング技術は多様であり、様々なシナリオに適したソリューションが複数存在し、多くの分野にまたがるため、複数の分野の専門家による連携が必要であることが明らかになっています。実務家にとって、プライバシーコンピューティングの学習曲線は急峻であり、プライバシーコンピューティングの経験がないユーザーにとっては使いこなすのが困難です。 実際の技術開発において、プライバシー保護コンピューティングソリューションは、多くの場合、複数の技術的アプローチの組み合わせであり、多くの反復作業を伴います。例えば、開発者がフェデレーテッドラーニングを利用したい場合、開発にはフレームワークAを使用する必要があります。マルチパーティセキュアコンピューティング(MPC)を利用したい場合、フレームワークBを使用する必要があります。また、信頼できるハードウェアを利用したい場合、実際に使用を開始する前に、選択したハードウェアのアーキテクチャを理解する必要があります。しかし、実際のビジネスニーズでは、複数の技術を組み合わせて使用することが求められることが多く、その結果、退屈で反復的な開発作業が発生します。本来であれば技術革新であるべきものが、技術的な「サイロ化」の問題を引き起こしているのです。 さらに深刻なのは、クロステクノロジーソリューションにおいて、基盤となる新しいテクノロジーの導入が上位レベルの作業全体に影響を与え、技術の反復を阻害する可能性があることです。新しいテクノロジーの導入は、必然的に上位レベルの多くの変更を伴い、ユーザーにとってはすべての導入を何度も繰り返す必要が生じ、結果として非常に悪いユーザーエクスペリエンスにつながる可能性があります。 現在、TensorFlow Federated (TFF)、FATE、FederatedScope、Rosetta、FedLearner、Primihubといったオープンソースのプライバシーコンピューティングフレームワークは、ほぼ全てが単一のプライバシーコンピューティングアプローチに焦点を当てています。これらのフレームワークは、プライバシーコンピューティング関連のコミュニティ研究や産業アプリケーションに一定の支援を提供してきました。しかしながら、現実世界のシナリオにおけるアプリケーションニーズの多様化や、技術自体の限界により、既存のプライバシーコンピューティングフレームワークには新たな課題が生じています。 たとえば、「フェデレーテッドラーニング」技術を初めて提案し、TensorFlow の開発元でもあるテクノロジー大手の Google は、最近 JAX と呼ばれる新しいプラットフォームへの投資を増やしており、この動きにより業界では TensorFlow が徐々に置き換えられるだろうとの憶測が広がっています。 Google の回答は次のとおりです。
プライバシーコンピューティングのためのオープンソースフレームワークの課題を解決するアント・グループの隠されたメッセージは業界の現状を反映しており、プライバシー・コンピューティングの一般化への道を切り開くものである。 アント・グループのプライバシー・インテリジェント・コンピューティング部門のゼネラル・マネージャーであり、Hidden Languageフレームワークの責任者である王磊氏は、アント・グループがHidden Languageに取り組み始めたのは2016年で、これは純粋にテクノロジーと社内で培われた実験によって推進された将来を見据えた構想だったと語った。 暗号技術の進化は行列変換から始まり、信頼できる実行環境(TEE)へと進み、さらにセキュアなマルチパーティコンピューティングや連合学習へと発展しました。社内外のアプリケーションシナリオを通して洗練され、その性能は大規模データセットをサポートできるようになりました。また、金融と医療の分野でも大規模な導入実績を誇り、上海浦東発展銀行における機関間データフローや、浙江省の一流病院における医療保険のDRG(診断関連グループ)改革を支援しました。中国情報通信研究院(CAICT)の「ギャラクシー事例」賞、中国中央電信基金(CCF)科学技術優秀進歩賞、中国サイバースペースセキュリティ協会の「データセキュリティ実践典型事例」などの賞を受賞しています。さらに、工業情報化部の2021年ビッグデータ産業発展パイロット実証プロジェクトリストにも選出されました。 6 年間の技術の蓄積、包括的な技術システムと成熟した実装経験を経て、正式にオープンソース化された Hidden Language の利点は何でしょうか? Hidden Languagesの設計目標は、データサイエンティストや機械学習開発者が、基盤となる技術的詳細を理解することなく、プライバシー保護コンピューティング技術をデータ分析や機械学習モデリングに容易に利用できるようにすることです。全体的なアーキテクチャは、下から上に向かって5つの層で構成されています。 最下層はリソース管理層です。この層は主に2つの役割を担います。1つ目は、ビジネスデリバリーチームを支援し、異なる組織間で基盤となるインフラストラクチャの違いによる影響を軽減し、導入・保守コストを削減することです。2つ目は、異なる組織間でリソース管理を統合することで、大規模なビジネスオペレーションに伴う高可用性と安定性の問題に対処することです。 その上に、平文/暗号文計算デバイスとプリミティブ層があります。この層は、統一されたプログラマブルなデバイス抽象化を提供し、Multi-Party Secure Computation(MPC)、準同型暗号(HE)、Trusted Hardware Existence(TEE)といったプライバシー保護計算技術を暗号化デバイスとして、また片側ローカル計算を平文デバイスとして抽象化します。同時に、Differential Privacy(DP)やSecure Aggregationなど、デバイス抽象化には適さないいくつかの基本アルゴリズムも提供します。将来、新たな暗号化計算技術が登場した場合でも、この疎結合設計を通じてプライバシーフレームワークに統合することができます。 上位層には、平文・暗号文ハイブリッドスケジューリング層があります。この層は、上位層への平文・暗号文ハイブリッドプログラミングのためのインターフェースを提供するとともに、デバイススケジューリングのための統一された抽象化を提供します。この層は、上位層のアルゴリズムを有向非巡回グラフとして記述します。このグラフでは、ノードは特定のデバイス上の計算を、エッジはデバイス間のデータフローを表します。これは論理計算グラフです。分散フレームワークは、この論理計算グラフをさらに分解し、物理ノードにスケジューリングします。この点において、Hidden Languageは、ニューラルネットワークをデバイス上の演算子とデバイス間のテンソルフローで構成される計算グラフとして表現する、主流のディープラーニングフレームワークの考え方を借用しています。 AI & BIプライバシーアルゴリズムレイヤーについてですが、このレイヤーの目的は、プライバシーコンピューティングの概念を維持しながら、プライバシーコンピューティングの技術的詳細を隠蔽することです。プライバシーコンピューティングアルゴリズムの開発ハードルを下げ、開発効率を向上させることを目指しています。プライバシーコンピューティングアルゴリズムの開発ニーズを持つ企業は、それぞれのシナリオやビジネス特性に基づいて、セキュリティ、計算性能、計算精度のバランスを実現するための専用アルゴリズムを設計できます。このレイヤーでは、Hidden Language自体も、MPC向けのLR/XGB/NN、フェデレーテッドラーニングアルゴリズム、SQL機能など、一般的なアルゴリズム機能を提供しています。 最上層はユーザーインターフェース層です。Hidden Languageの目標は、エンドツーエンドの製品を開発することではなく、様々な企業がHidden Languageを迅速に統合し、包括的なプライバシーコンピューティング機能を獲得できるようにすることです。そのため、Hidden Languageは、比較的薄い製品API層と、アトミックなフロントエンドおよびバックエンドSDKを提供することで、企業がHidden Languageを統合する際のコストを削減します。 Hidden Languageの最も明白な利点は、現在主流となっているプライバシーコンピューティング技術を統合し、特定のシナリオのニーズに合わせて柔軟なアセンブリオプションを提供できることです。このフレームワークの中核は、開発者に多様な選択肢を提供することで、専門分野での実験と反復作業を可能にし、より費用対効果が高く迅速に技術検証を実施できるようにします。同時に、検証済みの技術は、他の技術分野の開発者にも活用できます。Wang Lei氏は、Hidden Languageは開発者のためのプラットフォームであり、異なる強みを持つ開発者を結びつけるものであり、オープンソースの精神に合致すると考えています。 詳細な内訳により、照明モジュールを含む、画像に示されているように、この隠し言語の最初のオープンソース バージョンのハイライトが明らかになります。 1. MPCデバイス。NumPy APIのほとんどをサポートし、自動微分、LRおよびNN関連のデモ、Pade高精度固定小数点フィッティングアルゴリズム、ABY3およびCheetahプロトコルをサポートします。ユーザーは、MPCプロトコルを理解せずに、従来のアルゴリズムプログラミング手法を用いてMPCプロトコルに基づくAIアルゴリズムを開発できます。 2. HEデバイス。Paillier準同型暗号アルゴリズムをサポートし、上位層にNumPyプログラミングインターフェースを提供します。これにより、ユーザーはNumPyインターフェースを用いて行列の加算や平文・暗号文間の行列乗算を実行できます。また、HEデバイスとMPC暗号化デバイス間のデータ転送も可能です。 3. 差分プライバシーセキュリティプリミティブ。複数の差分プライバシーノイズメカニズム、安全なノイズジェネレータ、およびプライバシーオーバーヘッド計算機が実装されました。 4. 平文と暗号文の混合プログラミング。集中型プログラミングモードをサポートし、@deviceアノテーションを使用して平文と暗号文の混合デバイス計算グラフを構築し、計算グラフに基づいて並列かつ非同期のタスクスケジューリングを実行します。 5. データ前処理。水平シナリオ向けにデータの標準化、離散化、ビニング機能を提供し、垂直シナリオ向けには相関係数行列とWOEビニング機能を提供します。既存のデータフレームとシームレスに統合し、sklearnと一貫性のあるユーザーエクスペリエンスを提供します。 6. AI & BI プライバシーアルゴリズム - セキュアなマルチパーティコンピューティング。水平シナリオ向けにXGBoostアルゴリズムを提供し、垂直シナリオ向けにHESS-LRアルゴリズムを追加します。さらに、差分プライバシーを組み合わせることで、分割学習におけるプライバシー保護を強化します。 7. AI & BI プライバシーアルゴリズム - フェデレーテッドラーニング。SecureAggregation、MPC Aggregation、PlaintextAggregationなど、様々なセキュリティモードで、フェデレーテッドラーニングモデルの構築と勾配集約を提供します。ユーザーはモデル構築時に参加者リストと集約手法を指定するだけで済み、その後のデータ読み取り、前処理、モデルトレーニングは従来のプレーンテキストプログラミングとほぼ同じです。 要約すると、要点は次のとおりです。
技術的な経験を通して磨かれた独自のスキル王磊氏は、コードの開発には長年の技術的蓄積が必要だったと説明した。技術を深く理解した上で初めて、普遍的で不変の要素と、洗練・抽象化が必要な要素が明らかになった。これは本質的に技術の帰納と演繹であり、需要がなければ、共通のコンテンツを構成する要素を抽象化することは難しい。 例えば、MPCの開発中、Hidden Languageチームは、実験期間を経て、MPCとFederated Learningが実際には相互に関連していることを発見しました。彼らは、平文と暗号文の混合計算という共通点を抽象化しました。この発見は、Hidden Languageのイノベーションの一つ、すなわち暗号化コンピューティングデバイスであるSPUへと繋がりました。 SPUはSecretflow Processing Unitの略です。SecretflowプラットフォームのSecretflowコンピューティングユニットとして、Secretflowにセキュアなコンピューティングサービスを提供します。SPUはSecretflow内の以下のマークされた位置に配置されます。 近年、高密度計算(MPC/HE)は計算能力において著しい進歩を遂げていますが、高密度計算の計算能力はAIのアルゴリズム要件を満たすことが困難です。計算能力がアルゴリズムに追いつかない場合、セキュリティとパフォーマンスのバランスをとる直接的なアプローチとして「平文・暗号文ハイブリッド化」が挙げられます。例えば、連合学習では、アルゴリズムの特定のサブステップをセキュアコンピューティングを用いて実装することで、ローカルセキュリティを犠牲にしてパフォーマンスを向上させています。 Hidden言語は、平文エンジンや暗号文エンジンを制限することなく、非常に柔軟な平文・暗号文ハイブリッドプログラミングパラダイムを提供します。開発者は使い慣れたフレームワークを使用してコードを開発し、一部を平文エンジンで実行し、別の部分をSPUで実行するように指定できます。例えば、 図の MPC デバイスは SPU によって実装されます。 対照的に、安全性とパフォーマンスの観点から、TFE / CrypTen / SPDZなどは、このバランスを実現することが困難です。 SPUはデプロイメント透過性を備えており、コードの変更は不要です。開発者のモデルは、前述のいずれのデプロイメントシナリオにおいても、安全かつ正確に実行できます。さらに、AIプラットフォームをベースとしたプライバシー保護コンピューティングフレームワークと比較して、SPUランタイムは非常に軽量で、Pythonランタイムを必要とせず、容易にデプロイおよび統合できます。 AI 開発者は、セキュリティに関する知識がなくても、既存のモデルをマルチソース データに安全に適用できます。 セキュリティ開発者として、AIの知識は必要ありません。基本的なセキュアコンピューティング演算子を実装するだけで、複数のフロントエンドフレームワークをサポートできます。さらに、導入と保守も容易で、セキュリティとパフォーマンスのトレードオフを考慮しながら最適な実装ソリューションを見つけることができます。 王磊氏は、プライバシーコンピューティング技術の開発ハードルが非常に高いことを強調しました。暗号言語の統合は、単一のチームだけで達成できるものではなく、多くのチームが共同開発に参加してきました。アントグループ内では、これはオープンアーキテクチャ、つまり社内オープンソースシステムとなっています。「今後は、暗号言語を外部にオープンソース化し、外部のチームも共同開発に参加できるようにしたいと考えています。」 正式にオープンソース化する前に、Hidden Language は Alibaba Gemini Labs の Cheetah Protocol との共同構築など、ターゲットを絞ったオープンソース化作業も行っていました。 Cheetahプロトコルは現在、業界最速の二者間セキュアコンピューティングプロトコルです。CheetahはHidden Languageにプロトコルを提供し、非常に深いコラボレーションを可能にしています。 現在、業界におけるプライバシー保護計算のシナリオのほとんどは、二者間計算を伴います。アリス(データ要求者)はボブ(データソース)のデータを活用してビジネス能力を強化したいと考えていますが、ボブは自分のデータを直接提供したくありません。したがって、この問題を解決するには、安全な二者間計算(2PC)を効率的に実装することが不可欠となります。 この問題に対処するため、アリババのGemini Security LabsはCheetahセキュア2者間計算フレームワークを開発し、2者間計算の根本的なボトルネックを複数解消することで、2者間計算の全体的なパフォーマンスを大幅に向上させました。これは、これまでの最高記録であるMicrosoft CryptFLOW2 (CCS20) を5倍以上上回る性能です。 Cheetah Mobileは、Hidden Languageにおいてより優れた最適化(30~40ビットの秘密分散をサポートする公開コードと比較して、Cheetah MobileのHidden Language実装は64ビットといったより大規模な秘密分散をサポート)と、論文では公開されていないいくつかのアルゴリズムを実装しています。最も重要なのは、この実装がHidden Languageの上位レベルのビジネスロジックに対して透過的であることです。つまり、既存のHidden Languageロジックコードを変更して適応させる必要はありません。 この協業により、Gemini Labsのプロトコルはシンプルなインターフェースを介してHidden Languageに実装可能となり、上位レベルのHidden Language内のすべてのアルゴリズムで利用できるようになります。これにより、トップダウンのレプリケーションが不要になり、迅速な価値実現が可能になります。Hidden Languageにとって、このシステム統合は、既存の上位レベルのアルゴリズムに一切変更を加えることなく、大幅なパフォーマンス向上を可能にします。これは、Hidden Languageのもう一つの革新的なハイライトです。 オープンソースの「隠し言語」が完全準備完了なぜこのような強力なフレームワークをオープンソース化することにしたのかと尋ねられた王磊氏は、オープンソース化は研究コミュニティと業界コミュニティの両方にとって重要な問題であると説明しました。 研究機関にとって、オープンソースのプライバシーコンピューティングフレームワークは実験や研究に活用でき、研究成果や論文を生み出すことができます。プライバシーコンピューティング技術全体の発展を促進するという観点から、一社だけで業界全体の発展を牽引することは困難です。Hidden Languageはこの点について深く検討し、多様なバックグラウンドを持つ人々からの貢献をどのように引き出すかを検討してきました。様々なバックグラウンドを持つユーザーに対応できるよう、階層化されたアーキテクチャを設計し、より適切な開発・統合モデルを提供しています。これは困難な課題ではありますが、着実に前進していきたいと考えています。 技術そのものに関して、王磊氏は、クローズドソースモデルでは、技術の真正性、実装の詳細、そしてその信頼性は、公開されている論文からしか判断できないと考えている。さらに重要なのは、その安全性と性能を判断するには、理論的な検証と、実際の実装が理論と異なるかどうかの検証の両方が必要となる点だ。この観点から見ると、クローズドソース環境では技術がどの程度実現されているかを判断するのは非常に困難であり、損失が大きくなる可能性がある。 「オープンソースを通じて、より多くのシナリオを創出したいと考えています。」現在、プライバシーコンピューティングの応用は主に金融リスク管理に集中していますが、ヘルスケア、エネルギー、産業など、他のシナリオでも応用ニーズがあります。実際、現在プライバシーコンピューティングに取り組んでいる専門家は多くなく、全員が単独で作業を続けるのは業界全体にとって大きな無駄です。私たちは、限られた数の高度な技術人材を集めて協力体制を築き、真の技術革新を実現したいと考えています。 王磊氏は、アントグループは常にオープンソースを非常に真剣に捉えてきたと述べた。それは単にコードを公開するだけでなく、より重要なのは、健全なアーキテクチャ設計を通じてより多くの人々の参加を促していくことだ。プライバシーコンピューティングの様々な分野で蓄積してきた経験と専門知識、そしてオープンソースコラボレーションという目標を組み合わせることで、アントグループはオープンソースの「Hidden Language」が高品質でスケーラブルな技術フレームワークであることを保証できる。そして、より多くの優秀な開発者とユーザーがHidden Languageコミュニティに参加してくれることを期待している。 詳細については、SecretFlow をご覧ください。ドキュメントウェブサイト: https://secretflow.readthedocs.io オープンソースアドレス: https://github.com/secretflow https://gitee.com/secretflow |