低コストのLLMアプリケーション開発のための強力なツール - オープンソースのFrugalGPTフレームワーク

AIGC の詳細については、以下をご覧ください。

51CTO AI.x コミュニティ

https://www..com/aigc/

この記事では、LLM 駆動型アプリケーション向けのコスト削減アーキテクチャである FrugalGPT について詳しく紹介します。

大規模言語モデルはコンピュータサイエンスの新たな領域を切り開きました。しかし、その運用コスト（2024年時点）は、コンピュータサイエンスにおける他のどの製品よりもはるかに高くなっています。これは、運用コストの最小化を目指す企業にとって深刻な問題です。論文「FrugalGPT：大規模言語モデルを活用しながらコストを削減し、パフォーマンスを向上させる方法」（https://arxiv.org/abs/2305.05176）では、品質を維持しながら運用コストを大幅に削減するためのフレームワークが紹介されています。

LLMの費用を測定する方法

現在、LLMの運用コスト（電力使用量、コンピューティングコストなど）を決定する方法は様々ですが、サードパーティのLLM（LLM-as-a-service）を使用する場合、通常は使用するトークン数に基づいて課金されます。ベンダー（OpenAI、Anthropic、Cohereなど）によってトークンのカウント方法は異なりますが、ここでは簡略化のため、LLMによって処理されるトークン数に基づいてコストを計算します。

この種のフレームワークで最も重要な部分は、異なるモデル間のコストの違いです。本論文の著者らは、コストの違いを簡単に示す便利な表を作成しましたが、その違いは非常に顕著です。例えば、この表では、AI21の出力トークンのコストはGPT-4よりも桁違いに高くなっています。

この表のデータは、前述の FrugalGPT 論文から取得したものです。

コスト最適化の一環として、コストを最小限に抑えながら回答の質を向上させる方法を常に模索する必要があります。一般的に、コストの高いモデルはパフォーマンスが高く、コストの低いモデルよりも高品質な回答を提供する傾向があります。モデル間の一般的な関係は下の図に示されています。FrugalGPTのパフォーマンスは、グラフ上部に赤で大きく表示されています。

論文の図 1c (つまり上の図) は、質問に正確に答える頻度に基づいてさまざまな LLM を比較する HEADLINES データセットに基づいて作成されたことに注意してください。

カスケードLLMSは品質の最適化を実現します

モデル間の大きなコスト差を活用し、研究者らのFrugalGPTシステムは、一連のLLM実装を利用することでユーザーに回答を提供することができます。簡単に言うと、ユーザーのクエリは最も安価なLLMから開始され、回答が十分に優れている場合、クエリは終了します（回答が返されます）。しかし、回答が不十分な場合、クエリは次に安価なLLMに渡されます。

研究者たちは、次のような論理を用いました。低価格のモデルが質問に誤った答えを出した場合、高価格のモデルが正しい答えを出す可能性が高い、というものです。したがって、価格が高いほど品質が高いと仮定し、モデルチェーンを最も安価なものから最も高価なものへと順序付けることで、コストを最小化しました。

論文の図 2e は、LLM カスケードの概略図を示しています。

図に示されているアーキテクチャは、明らかに、回答が十分に適切であるか否かを判断することに依存しています。この問題に対処するため、著者らは質問と回答を受け取り、回答にスコアを付けるDistilBERTモデルを作成しました。DistilBERTモデルは、シーケンス内の他のモデルよりもはるかに小さい（指数関数的に小さい）ため、実行コストは他のモデルと比較して無視できるほどです。

最高のLLMクエリよりも優れた平均品質

当然、次のような疑問が湧くかもしれません。「品質が最も重要であるならば、なぜ最高の LLM を調べて、最高の LLM の運営コストを削減する方法を考えないのか?」

この論文が発表された時点では、GPT-4は著者らが発見した最高のLLMでした。しかし、GPT-4は常にFrugalGPTシステムよりも優れた答えを出すわけではありません！（鋭い読者なら、この記事の冒頭にあるコスト対パフォーマンスのグラフでこれがわかるでしょう。）著者らは、最も有能な人が常に正しい答えを出すとは限らないのと同様に、最も複雑なモデルであっても必ずしも正しい答えを出すとは限らないと推測しています。したがって、DistilBERTを使用して回答をフィルタリングすることで、基準を満たさない回答を除外し、適切な回答を得る可能性を高めることができます。

論文の図 5a は、FrugalGPT が GPT-4 よりも優れているケースを示しています。

したがって、このシステムは、単に最高の LLM を使用するよりも、コストを削減できるだけでなく、品質を向上させることもできます。

コスト削減の問題を継続的に研究する

この論文の結果は非常に興味深いものです。私にとって、これは、さらなるモデル最適化に投資することなく、どのようにすればコストをさらに削減できるかという疑問を提起するものです。

これを実現する一つの方法は、すべてのモデル回答をベクターデータベースにキャッシュし、LLMカスケードを開始する前に類似度検索を実行して、キャッシュされた回答が有効かどうかを判断することです。これにより、高価なLLM操作を比較的低コストのクエリと類似度検索に置き換えることで、コストを大幅に削減できます。

さらに、これは、時代遅れのモデルがコスト最適化において依然として価値があるのかどうかという疑問を生じさせます。これは、語彙単位あたりのコストを削減しても、LLMカスケードにおいて価値を生み出すことができるのと同じです。ここでも重要な問題は、チェーンに新しいLLMを追加することで、いつ収穫逓減を達成するかということです。

さらなる研究が必要な問題

世界中でLLMがますます増え、それらを利用するシステムも増えるにつれ、私たちはよりコスト効率の高いLLM実行方法を模索しています。この記事で議論されているFrugalGPTの論文は、将来の開発者にとって強力なフレームワークを構築するものであり、このフレームワークがどこまで発展していくのか非常に興味深く見守っています。

私の見解では、このフレームワークは、チューターベースのLLMなど、異なるユーザー間で回答が一様である一般的なクエリに適しています。しかし、LLMがカスタマーサービスエージェントとして機能するなど、ユーザーごとに回答が異なるユースケースでは、評価システムはLLMが誰と話しているのかを把握する必要があります。

つまり、コストを節約しながら特定のユーザーインタラクションを提供できるフレームワークを見つけることが、将来的には非常に重要になります。

主な参考文献

[1] Chen, L., et al., FrugalGPT: コストを削減しパフォーマンスを向上させながら大規模言語モデルを使用する方法 (2023)、arXiv。

翻訳者紹介

Zhu Xianzong 氏は、51CTO コミュニティエディター、51CTO 専門ブロガー兼講師、維坊の大学のコンピューター教師、そしてフリープログラミングコミュニティのベテランです。

原題: FrugalGPT と LLM 運営コストの削減、著者: Matthew Gunton

リンク: https://towardsdatascience.com/frugalgpt-and-reducing-llm-operating-costs-ff1a6428bf96.