香港大学の大規模オープンソースグラフモデルである OpenGraph は、強力な一般化機能と新しいデータを予測するための前方伝播を誇ります。

グラフ学習の分野におけるデータ不足問題を軽減する新しいトリックがあります!

グラフベースの基礎モデルである OpenGraph は、さまざまなグラフデータセットでのゼロショット予測用に特別に設計されています。

この研究の背後には、香港ビッグデータインテリジェンスラボの所長であるチャオ・ホアン氏が率いるチームがあります。彼らはまた、グラフモデルの新しいタスクへの適応性を向上させるための、プロンプトと調整の手法も提案しました。

この作業は現在 GitHub で公開されています。

報告によると、この研究は主にグラフモデルの一般化能力を高める戦略を探求しています（特にトレーニングデータとテストデータに大きな違いがある場合）。

OpenGraph は、一般的なグラフ構造パターンを学習し、順方向伝播のみで予測を行うことで、まったく新しいデータに対するゼロショット予測を実現することを目指しています。

目標を達成するために、チームは次の 3 つの課題に取り組みました。

データセット間のトークンの違い: 異なるグラフデータセットには異なるグラフトークンのセットが存在することが多く、データセット間で予測を行えるモデルが必要です。
ノード関係モデリング: 一般的なグラフモデルを構築する場合、モデルのスケーラビリティと効率性に関連するため、ノード関係を効果的にモデリングすることが重要です。
データ不足: データ取得の課題に対処するために、大規模な言語モデルを使用してデータ拡張を行い、複雑なグラフ構造をシミュレートし、モデルトレーニングの品質を向上させます。

OpenGraph は、トポロジーを考慮したグラフトークナイザーやアンカーベースのグラフトランスフォーマーなどの一連の革新的な方法を通じて上記の課題に効果的に対処し、複数のデータセットでのテスト結果によってモデルの優れた一般化能力が実証されています。

OpenGraphモデル

OpenGraph モデルアーキテクチャは、次の 3 つのコア部分で構成されています。

統合グラフトークナイザー。
スケーラブルなグラフトランスフォーマー。
大規模言語モデルに基づく知識蒸留技術。

まずは Unified Graph Tokenizer から始めましょう。

異なるデータセット間のノードとエッジの違いに対応するために、チームはグラフデータをトークンのシーケンスに標準化する統合グラフトークナイザーを開発しました。

このプロセスには、高次隣接行列のスムージングとトポロジを考慮したマッピングが含まれます。

高次隣接行列スムージングは、隣接行列の高次累乗を使用してスパース接続の問題を解決し、トポロジ認識マッピングは隣接行列をノードのシーケンスに変換し、高速特異値分解 (SVD) を使用して情報損失を最小限に抑え、より多くのグラフ構造情報を保持します。

次に、スケーラブルなグラフ Transformer があります。

トークン化後、OpenGraph は Transformer アーキテクチャを使用してノード間の依存関係をシミュレートし、主に次の手法を使用してモデルのパフォーマンスと効率を最適化します。

1 つのアプローチはトークンシーケンスサンプリングです。これにより、モデルが処理する必要がある関係の数が減少し、トレーニングの時間と空間の複雑さが軽減されます。

第二に、アンカーポイントサンプリングによる自己注意メカニズムがあります。この手法は、ノード間の情報伝達を段階的に学習することで、計算量をさらに削減し、モデルの学習効率と安定性を効果的に向上させます。

最後に、大規模言語モデルの知識蒸留が行われます。

一般的なグラフモデルのトレーニング時に直面するデータのプライバシーと多様性の課題に対処するために、チームは大規模言語モデル (LLM) の知識と理解機能からインスピレーションを得て、LLM を使用してさまざまなグラフ構造データを生成しました。

このデータ拡張メカニズムは、現実世界のグラフの特性をシミュレートすることにより、データの品質と使いやすさを効果的に向上させます。

チームはまず、特定のアプリケーションに適応したノードのセットを生成し、各ノードにエッジを生成するためのテキスト記述を持たせました。

電子商取引プラットフォームなどの大規模なノードセットに直面した場合、研究者はノードをより具体的なサブカテゴリに分割して対処します。

たとえば、「電子製品」から「携帯電話」や「ラップトップ」などの具体的な用語に絞り込むプロセスは、詳細が現実世界の例に可能な限り正確になるまで繰り返されます。

ヒントツリーアルゴリズムは、ノードをさらにツリー構造に分割し、より詳細なエンティティを生成します。

「製品」などの一般的なカテゴリから始めて、ツリーは徐々に特定のサブカテゴリに細分化され、最終的にノードツリーが形成されます。

エッジ生成に関しては、研究者はギブスサンプリングを使用して、すでに生成されたノードのセットに基づいてエッジを形成しました。

計算負荷を軽減するために、LLM を使用してすべての可能なエッジを直接走査するのではなく、最初に LLM を使用してノード間のテキスト類似性を計算し、次に単純なアルゴリズムを使用してノード間の関係を決定します。

これに基づいて、チームはいくつかの技術的な調整を導入しました。

動的確率標準化:動的に調整することで、類似性はサンプリングに適した確率範囲にマッピングされます。
ノードの局所性:局所性の概念を導入し、実際のネットワークの局所性をシミュレートするために、ノードのローカルサブセット間でのみ接続が確立されます。
グラフトポロジパターンの注入:グラフ畳み込みネットワークを使用してノード表現を修正し、グラフ構造の特徴に適応して分布バイアスを減らします。

上記の手順により、生成されたグラフデータが豊富で多様になるだけでなく、現実世界の接続パターンや構造特性に非常に似たものになります。

実験検証と性能分析

この実験は、LLM によってのみ生成されたデータセットを使用して OpenGraph モデルをトレーニングし、ノード分類やリンク予測などのタスクをカバーするさまざまな現実世界のデータセットでテストすることに重点を置いていることに注意することが重要です。

実験設計は次のとおりです。

ゼロサンプル設定。

OpenGraphの未知データに対するパフォーマンスを評価するため、生成されたトレーニングセットでモデルをトレーニングし、その後、全く異なる実際のテストセットで評価しました。これにより、トレーニングデータとテストデータのノード、エッジ、および特徴量が重複しないことが保証されました。

小さなサンプルサイズの設定。

多くの手法ではゼロショット予測を効果的に実行するのが困難であることを考慮して、ベースラインモデルを事前トレーニングデータで事前トレーニングし、その後 k ショットサンプルを使用して微調整する、数ショット設定を導入します。

2 つのタスクと 8 つのテストセットの結果から、ゼロショット予測において OpenGraph が既存の方法よりも大幅に優れていることがわかります。

さらに、既存の事前トレーニング済みモデルは、クロスデータセットタスクで最初からトレーニングされたモデルよりもパフォーマンスが低下することがあります。

トークナイザー設計の影響に関する研究

同時に、チームはグラフトークナイザーの設計がモデルのパフォーマンスにどのように影響するかを調査しました。

まず、実験により、隣接行列を平滑化しない (平滑化次数 0) とパフォーマンスが大幅に低下することが示され、平滑化の必要性が実証されました。

次に研究者らは、トポロジー認識のいくつかのシンプルな代替案、つまりデータセット全体にわたるワンホットエンコードされた ID、ランダムマッピング、ノード次数ベースの表現を検討しました。

実験結果は、これらの代替ソリューションのパフォーマンスが理想的ではないことを示しています。

具体的には、データセット間の ID 表現のパフォーマンスは最も悪く、次数ベースの表現のパフォーマンスも悪く、ランダムマッピングはわずかに優れているものの、そのパフォーマンスは最適化されたトポロジ対応のマッピングよりも大幅に劣っています。

データ生成技術の影響

チームは、LLM ベースの知識蒸留法を使用して生成されたデータセットやいくつかの実際のデータセットなど、さまざまな事前トレーニング済みデータセットが OpenGraph のパフォーマンスに与える影響を調査しました。

実験で比較した事前トレーニング済みデータセットには、チームが生成した方法から特定の手法を取り除いたデータセット、テストデータセットとは無関係の実際のデータセット2つ（Yelp2018とGowalla）、およびテストデータセットに類似した実際のデータセット1つ（ML-10M）が含まれていました。

実験結果では、生成されたデータセットがすべてのテストセットで優れたパフォーマンスを示すことが示されており、3 つの生成手法の削除はパフォーマンスに大きな影響を与え、これらの手法の有効性を検証しています。

テストセットとは無関係の実際のデータセット(Yelp や Gowalla など)を使用してトレーニングする場合、パフォーマンスが低下することがあります。これは、異なるデータセット間の分布の違いが原因である可能性があります。

ML-10M データセットは、 ML-1M や ML-10M などの類似のテストデータセットで最先端のパフォーマンスを達成し、トレーニングデータセットとテストデータセット間の類似性の重要性を浮き彫りにしました。

変圧器サンプリング技術の研究

実験のこの部分では、研究チームは Graph Transformer モジュールで使用される 2 つのサンプリング手法を調査しました。

トークンシーケンスサンプリング (Seq) とアンカーサンプリング (Anc)。

彼らは、両方のサンプリング方法について詳細なアブレーション実験を実施し、モデルのパフォーマンスに対する具体的な影響を評価しました。

実験結果によると、トークンシーケンスサンプリングとアンカーサンプリングはどちらも、学習およびテスト中のモデルの空間的および時間的複雑さを効果的に削減できることがわかりました。これは特に大規模なグラフデータの処理において重要であり、効率を大幅に向上させることができます。

パフォーマンスの観点から見ると、トークンシーケンスサンプリングはモデル全体のパフォーマンスにプラスの影響を与えます。このサンプリング戦略は、キートークンを選択することでグラフ表現を最適化し、複雑なグラフ構造を処理するモデル能力を向上させます。

対照的に、ddiデータセットを用いた実験では、アンカーサンプリングがモデルのパフォーマンスに悪影響を与える可能性があることが示されています。アンカーサンプリングは、特定のノードをアンカーとして選択することでグラフ構造を簡素化しますが、このアプローチでは重要なグラフ構造情報が見落とされる可能性があり、モデルの精度に影響を与える可能性があります。

結論として、どちらのサンプリング手法にも利点はありますが、実際のアプリケーションでは、特定のデータセットとタスクの要件に基づいて適切なサンプリング戦略を慎重に選択する必要があります。

研究の結論

この研究の目的は、さまざまなグラフ構造の複雑な位相パターンを正確に識別して解決できる、適応性の高いフレームワークを開発することです。

研究者らは、提案されたモデルの機能を最大限に活用することで、さまざまな下流アプリケーションを含むゼロショットグラフ学習タスクにおけるモデルの一般化能力を大幅に強化することを目指しています。

このモデルは、スケーラブルなグラフトランスフォーマーアーキテクチャと LLM 強化データ拡張メカニズムのサポートを利用して構築され、OpenGraph の効率性と堅牢性を向上させます。

複数の標準データセットに対する広範なテストを通じて、チームはモデルの優れた一般化パフォーマンスを実証しました。

グラフベースのモデルを構築する最初の試みとして、チームの今後の作業は、ノイズの多い接続を自動的に識別し、反事実的学習を実行するなど、フレームワークの自動化機能の向上に重点を置くものと理解されています。

一方、チームは、さまざまなグラフ構造から一般的な転送可能なパターンを学習して抽出し、モデルの適用範囲と有効性をさらに拡大する予定です。

参考リンク:

[1] 論文: https://arxiv.org/pdf/2403.01121.pdf.

[2] ソースコードリポジトリ: https://github.com/HKUDS/OpenGraph.

DUICUO