DUICUO

インテリジェント エージェント ワークフローを自動生成するオープン ソース ツールである MetaGPT は、GPT-4o と比較して 4.55% のコスト削減を誇ります。

AFLOWの著者チームは、MetaGPTオープンソースコミュニティから構成されています。AFLOW論文の共同筆頭著者は、香港科技大学(広州)の博士課程学生であるJiayi Zhang氏と、DeepWisdomの研究員であるJingyu Xiang氏です。共同責任著者は、DeepWisdomの創設者兼CEOであるChenglin Wu氏(MetaGPTコードの著者であり、論文の責任著者)、および香港科技大学(広州)の助教授であるYuyu Luo氏です。その他の著者には、中国人民大学のZhaoyang Yu氏、Fengwei Teng氏、Xin Cheng氏、南京大学LAMDAラボの博士課程学生であるXiong Hui Chen氏、復旦大学のJiaqi Chen氏とBingnan Zheng氏、キングアブドラ科技大学の博士課程学生であるMing​​chen Zhuge氏(MetaGPT論文の共同筆頭著者)が含まれます。 DeepWisdom の研究者である Sirui Hong (MetaGPT 論文の共同第一著者)、Jinlin Wang、およびモントリオール大学および MILA ラボの助教授である Bang Liu。

LLM担当者にとって、LLMを導入し、効果的に運用するには、Agentic Workflowsを手動で構築し、繰り返しデバッグする必要があります。これは間違いなく面倒な作業です。類似のコードを繰り返し修正し、プロンプトをデバッグし、手動でテストを実行して結果を確認する必要があり、異なるLLMを使用するとシステムが故障する可能性があるため、人件費が高額になります。多くの企業では、この作業を行うために専任のプロンプトエンジニアを雇用しています。

現在、Agentic Workflow には独自の自動最適化ツールもあります。

MetaGPTは、MCTSを用いてAgentic Workflowの自動検索を行うAFLOWをオープンソース化しました。AFLOWはAgentic Workflowの問題を自動的に構築・最適化できるため、手作業によるコーディングやデバッグ作業が不要になります。

AFLOW は、モンテカルロ ツリー検索を通じてワークフローを最適化し、非常に低コストで GPT-40 レベルの機能を実現します。

これは自動プロンプト最適化のさらなる探求です。モンテカルロ木探索を通じて、Agentic Workflowの生成と最適化プロセスを完全に引き継ぎ、そのパフォーマンスは他の自動ワークフロー最適化作業をはるかに上回り、比較対象となるすべての手動ワークフローのベースラインさえも凌駕します。

  • 論文タイトル: AFlow: エージェントによるワークフロー生成の自動化
  • 論文リンク: https://arxiv.org/abs/2410.10762
  • プロジェクトアドレス: https://github.com/geekan/MetaGPT/tree/main/examples/aflow

自動化されたワークフロー最適化の問題とは何ですか?

既存のエージェントワークフロー自動生成手法は、効果的なワークフローを生成することが困難であり、初期設定に手動介入が必要となることが多く、タスク完了に必要な多様なワークフローを十分に捉えることができません。これらの課題を克服するために、研究者らはAFLOWフレームワークを提案しました。このフレームワークは、モンテカルロ木探索(MCTS)を用いてLLMワークフローを体系的に探索・最適化します。AFLOWは、ワークフローをコードで表現可能なノードとエッジとして定義することで、LLM呼び出し間の複雑な相互作用を効果的に捉えます。演算子の概念を導入することで、AFLOWは探索空間をさらに簡素化し、探索効率を向上させます。複数のベンチマークデータセットを用いた実験結果から、AFLOWはワークフローを自動的に発見・最適化し、タスク実行性能を大幅に向上させながら、手動介入への依存を低減できることが実証されています。

AFLOWの動的なデモンストレーション。反復的な選択、拡張、評価、バックプロパゲーションを通じて、ワークフローの生成と最適化を自動化します。

AFLOWはまず、ワークフロー最適化問題を探索問題として再構築します。ワークフローはコード化されたノードのシーケンスとして表現され、各ノードはLLM(Liquid Mover)の特定の操作を表し、ノード間のエッジは操作のロジック、依存関係、および実行フローを定義します。この表現により、ワークフローは検索可能かつ最適化可能なグラフ構造に変換されます。具体的には、ワークフローWはLLM呼び出しノードのシーケンスとして定義され、各ノードにはモデルM 、キューP 、温度、出力形式F (例:XML、JSON、Markdown、Raw)の4つのパラメータが含まれます。ノードはエッジで接続され、エッジはニューラルネットワークやコードなど、様々な構造で表現できます。

自動ワークフロー最適化の目的は、タスクTと評価関数Gが与えられた場合、G(W,T)を最大化するワークフローWを見つけることです。これは、アルゴリズムAが探索空間Sを探索して最適なワークフロー構成を決定するという探索プロセスとして定式化できます。探索空間Sには、すべての可能なノードパラメータとエッジ構造の構成が含まれます。

ノード、演算子、エッジの例。このセクションでは、ノードのオプションパラメータ、演算子の一般的な構造、エッジの一般的な表現を示します。

AFLOW はどのようにしてワークフローを自動的に最適化するのでしょうか?

AFLOWは、モンテカルロ木探索(MCTS)を用いて、エージェントワークフローを自動生成・最適化します。AFLOWフレームワークにおいて、オペレーターは重要な役割を果たします。オペレーターは、一般的なエージェント操作(レビュー、投票、生成など)を表す、定義済みの再利用可能なノードの組み合わせです。これらのオペレーターは、ワークフローを構築するための基本的な構成要素として、探索空間に統合されており、探索プロセスにおいて既知の効果的なエージェント操作パターンを活用できるようにします。オペレーターの導入により、AFLOWフレームワークの探索効率とワークフロー最適化が大幅に向上し、広大な探索空間における盲目的な探索を削減します。

AFLOWの目標は、タスクと評価関数が与えられた場合に、タスクのパフォーマンスを最大化するワークフローを発見することです。AFLOWアルゴリズムは、LLMノードの呼び出しと演算子の使用を含む基本的なワークフローフレームワークを提供する初期化テンプレートワークフローから始まります。その後、アルゴリズムはMCTSの4つの主要ステップ、すなわち選択、拡張、評価、およびバックプロパゲーションを反復処理します。

AFLOWの全体的なフレームワーク:柔軟なプロンプトパラメータ、指定された演算子セット、およびエッジを表すコードのみを持つノードで構成される探索空間を設定することで、AFLOWはこの空間内でMCTSベースの探索を実行します。ワークフロー最適化のために設計されたMCTSの亜種を通じて、AFLOWはソフトハイブリッド確率的選択、LLMベースの拡張、評価、および経験的バックプロパゲーションのループを、最大反復回数に達するか収束基準を満たすまで反復的に実行します。

選択フェーズでは、AFLOWはソフトハイブリッド確率的選択メカニズムを用いて拡張対象ノードを選択します。このメカニズムは、均一確率分布とスコアベースの重み付き確率分布を組み合わせることで、探索と活用のバランスを取り、局所最適解に陥ることを回避します。選択プロセスにおいて、AFLOWは候補ノードのスコアと探索の必要性を考慮し、探索価値を持ちつつパフォーマンス向上の可能性を秘めたノードを選択します。

拡張フェーズでは、 AFLOWはLLM(ローカル管理モデル)を最適化器として用いて新しいワークフローを生成します。最適化器は選択されたワークフローの経験を活用し、新しいヒントを生成したり、コードを変更してノードの接続を変更したりすることで、新しいワークフローバリアントを生成します。これらの新しいワークフローバリアントは、ノードやエッジの追加、変更、削除など、既存のワークフローへの微調整によって実現されます。

評価フェーズでは、AFLOWは生成されたワークフローを直接実行し、フィードバックを取得します。推論タスクには明確に定義された評価関数があるため、AFLOWは検証セットに対してワークフローを複数回実行し、平均スコアと標準偏差を計算することで、より正確な最適化フィードバックを得ることができます。

バックプロパゲーションフェーズでは、ワークフローのパフォーマンス情報がMCTSツリー構造にバックプロパゲーションされ、ノードスコアを更新して将来の検索反復の指針となります。この情報には、ワークフローの実行結果と、親ワークフローに対する最適化が成功したかどうかが含まれます。このようにして、AFLOWは各反復から学習し、ワークフローのパフォーマンスを徐々に向上させることができます。

最適化が限界に達した後も実行を継続することで生じる不要なコストを回避するために、AFLOW は、上位 k 個のスコア優先ワークフローが数ラウンド連続して改善されなかった場合、上記の反復プロセスを停止します。

AFLOWがもたらすエージェントワークフロー革命

AFLOWは、コード(HumanEval、MBPP)、数学(GSM8K、MATH)、知識ベース質問応答(HotpotQA、DROP)の3つのシナリオをカバーする6つのテキスト推論タスクにおいて、顕著なパフォーマンス優位性を示しました。既存の手動手法と比較して平均5.7%のパフォーマンス向上を達成し、他の自動化手法と比較して19.5%のパフォーマンス向上を達成しました。6つのタスクすべてにおいて、AFLOWは総合的に優れた性能を示し、様々なタスクタイプに対する安定性と適応性を示しています。

他の手法とのパフォーマンス比較。本手法のパフォーマンスを評価するために、様々なデータセットを対象に様々な指標を採用しました。MathとGSM8Kのソルバー率、HotpotQAとDROPのF1スコア、HumanEvalとMBPPのpass@1です。AFLOW(黄色で強調表示)は、6つのベンチマーク全てにおいて、自動化されたワークフロー最適化手法と手動で設計された手法を一貫して上回りました。

AFLOWがエージェント分野にもたらす最も大きな変化は、大幅なコスト削減です。AFLOWを用いた小規模なモデルは、GPT-4oの推論コストのわずか4.55%で同等の性能を達成できます。この画期的な進歩により、企業は小規模なモデルで大規模モデルと同等の性能を実現できるようになり、AIアプリケーションの大規模展開において経済的に実現可能なソリューションを提供できます。

コストは、HumanEvalテストセットを分割後に実行するための総コストを指します。AFLOW(モデル)は、AFLOWがこのモデルを使用してワークフローを実行し、フィードバックを取得する方法を指します。凡例の色は、テストデータセットでワークフローを実行するために使用される異なるLLMを表しています。

AFLOWの自動化による効率向上は、従来の手動デバッグモデルを根本から変革しました。ワークフローの自動生成と最適化メカニズムにより、手動介入の必要性が大幅に削減されました。開発者は、デバッグと最適化の繰り返しに多くの時間を費やす必要がなくなり、システムが最適なワークフローの組み合わせを自動的に検出することで、開発サイクルを大幅に短縮できます。

広範な適用性実験により、AFLOWは優れた移植性を示すことが実証されています。AFLOWは、様々な主流のLLMモデルをサポートするだけでなく、様々なタスク要件にも適応します。質問応答、コード生成、数学的問題解決など、複数の領域にわたるテストにおいて、AFLOWは卓越したパフォーマンスを示し、汎用最適化フレームワークとしての価値を証明しています。さらに、ユーザーはデータセットと評価関数を提供することで、AFLOWを自身のタスクに容易に適用できます。

見通し

AFLOWは、エージェントワークフローを効率的に生成する手法を提案し、人的コストと推論コストを大幅に削減するその優れた能力を実証しました。本研究は、様々な分野におけるエージェントの導入を加速させ、エージェントワークフローの構築プロセスを、専門家による手作業から初心者による自動構築へと変革することが期待されます。

使用

作者は現在、GitHubで完全なコードをオープンソース化しています。ユーザーはベンチマークとデータセットをカスタマイズすることで、パーソナライズされたタスクに最適なパフォーマンス、またはパフォーマンスとコストのバランスが取れたワークフローソリューションを迅速に検索できるため、個人や企業の時間を大幅に節約できます。

AFLOWのGitHubガイド。ステップバイステップガイドを参考にAFLOWを設定・実行し、ワークフローを効率的に生成・最適化できます。