DUICUO

注目すべき7つの大規模言語モデル(LLM)

LLM分野で最も馴染みのある例は、OpenAIのChatGPTや、近年マルチモーダルコンピューティングにおいて優れた性能を示したGoogle Geminiでしょう。これらは大規模AIモデルの代表例であり、開発における先進的な成果を示しています。しかし、大規模モデルの実用化には、コストや情報セキュリティといった要素を総合的に考慮する必要があります。そのため、オープンソースは新たな選択肢となっています。オープンソースのエコシステムには、それぞれ独自の強みを持つ優れた学習済みLLMモデルが数多く登場しており、AI技術の発展に伴い、今後さらに多くのモデルが登場することが予想されます。

この記事では主に、2024年1月時点で注目すべき主要なオープンソースLLMをいくつか紹介します。

1. Llama 2: 最高のオープンソースLLM

リソース: https://ai.meta.com/llama/

Llama 2は、Metaが2023年にリリースした最も重要なオープンソースLLMです。2兆個のトークンで学習された事前学習済みの生成AIモデルで、70億から700億個のパラメータをサポートします。Llama 2はLlama 1よりも学習データが40%多く、コンテキスト長も2倍に増加しています。

現在、Llama 2 は市場で最も高性能なオープンソース言語モデルの 1 つであり、推論、コーディング、熟練度、知識テストなどの主要なベンチマーク テストで非常に優れたパフォーマンスを発揮しています。

現在、Hugging Face Open LLM ランキングでは、Llama 2-70B が平均スコア 67.35 で市場で 2 番目に優れた LLM に挙げられており、ARC は 67.32、HellaSwag は 87.33、MMLU は 69 と 83、TruthfulQA は 44.92 となっています。

Llama 2は、GPT-4などの独自モデルに匹敵する性能も実証しました。Anyscaleのチーフサイエンティストであり、元GoogleのチーフエンジニアであるWaleed Kadous氏は、Llama 2の要約精度はGPT-4とほぼ同等であるにもかかわらず、運用コストは30分の1に抑えられていることをブログ記事で発表しました。

Meta には Llama 2 Long と呼ばれるバージョンもあることに注目すべきです。これは Llama 2 の修正バージョンで、4,000 億トークンが追加され、32,000 のコンテキスト長をサポートします。

Metaは、Llama 2 Longの70Bバリアントが、質問への回答、要約、複数ドキュメントの集約などのロングコンテキストタスクにおいてGPT3.5-16ksよりも優れていると主張しています。

2. Falcon 180B:オープンソースの事前学習済み言語モデルとしては最大規模

リソース: https://huggingface.co/blog/falcon-180b

Falconは、UAEテクノロジーイノベーション研究所が2023年に開設した最大規模のLLM(法学修士課程)であり、180Bです。自然言語タスクで優れたパフォーマンスを発揮するように設計されたFalconは、2023年10月時点で、Hugging Face Openの事前学習済み言語モデル部門のリーダーボードで1位のLLMにランクインしました。平均スコアは68.74、ARCは69.8、HellaSwagは88.95、MMLUは70.54、TruthfulQAは45.67でした。

Falcon 180B をチャットボット環境で使用するには、チャットとコマンドのデータを微調整したメインモデルの修正版である Falcon 180B Chat というバージョンを使用できます。

しかし、Falcon 180Bの大きな制約は、その基盤となるオープンソースライセンスが非常に厳格なことです。LLMを国内法または国際法に違反して使用したり、他の生物に危害を加えたりすることをユーザーが禁止するだけでなく、LLMベースのマネージドサービスをホスティングまたは提供しようとする組織には、別途ライセンスが必要です。

さらに、Falcon180B には、他の独自仕様またはオープンソースの LLM (Llama 2 など) と比較してガードレールがないため、悪意のあるシナリオでより簡単に使用される可能性があります。

トレーニングと推論のハードウェア要件は次のとおりです。

3. Code Llama:最高のコード生成LLM

リソース: https://github.com/facebookresearch/codellama

Meta のもう一つの傑作は Code Llama です。これは Llama2 をベースにしたモデルで、5,000 億トークンのコードとコード関連データを含むコード データセットでトレーニングされています。

Code Llama は 7B、13B、34B のパラメータをサポートしており、Python、C++、Java、PHP、Typescript (JavaScript)、C#、Bash などの言語向けに微調整されており、コード生成やコード機能の説明をサポートします。

たとえば、ユーザーはチャットボットにフィボナッチ数列を出力する関数を作成するように依頼したり、特定のディレクトリ内のすべてのテキスト ファイルを一覧表示する方法についての指示を要求したりできます。

これは、ワークフローを合理化したい開発者や、コードの機能とその動作をより深く理解したい初心者にとって理想的です。

Code Llamaには、Code Llama PythonとCode Llama Instructionの2つの主要なバリエーションがあります。Code Llama - Pythonは、追加の100バイトのPythonコードでトレーニングされており、ユーザーにPythonプログラミング言語でのより優れたコード作成機能を提供します。

Code Llama Instruct は Code Llama の微調整バージョンであり、50 億の人間の指示のトークンでトレーニングされ、人間の指示をよりよく理解できるように開発されています。

4. ミストラル:最高の7B事前学習済みモデル

リソース: https://github.com/mistralai/mistral-src

2023年9月、Mistral AIは70億個のパラメータを持つ小型ながらも高性能なオープンソースLLM「Mistral 7B」をリリースしました。Mistral 7Bは、大規模なクローズドソースモデルよりも効率的に動作するように開発されており、リアルタイムアプリケーションに最適です。

Mistral 7Bは、推論速度向上のためのグループ化クエリアテンションや、より長いシーケンスをより低コストで処理するためのスライディングウィンドウアテンション(SWA)などの技術を採用しています。これらの技術により、LLMはリソース集約型のLLMよりも高速かつ低コストで、大規模なテキストを処理・生成できます。

同組織の発表によれば、Mistral 7B は arc-e で 80.0%、HellaSwag で 81.3%、MMLU で 60.1%、HumanEval ベンチマークで 30.5% のスコアを獲得し、すべてのカテゴリーで LLama 2-7B を大幅に上回った。

Mistral AI はまた、Mistral がコード、数学、推論の面で Llama 1-34B を上回り、コードタスクでは Code Llama 7B のパフォーマンスに近づいていると述べています。

さらに、Mistral 7B の代替バージョンである Mistral 7B Instruct があり、これは公開されているセッション データセットでトレーニングされており、MT-Bench ベンチマークのすべての 7B モデルよりも優れたパフォーマンスを発揮します。

要約すると、この情報は、Mistral AI が自然言語およびコード生成タスクに適した選択肢であることを示唆しています。

しかし、ミストラル 7B にはコンテンツ モデレーションが不十分で、爆弾の作り方の説明など、問題のあるコンテンツが生成される可能性があることを懸念する声も上がっています。

5. ビクーニャ:最高のサイズと品質のLLM

リソース: https://github.com/lm-sys/FastChat

Vicuna 13B は、カリフォルニア大学バークレー校の学生と教職員によって 2023 年 3 月にリリースされたオープンソースのチャットボットです。

LMSYSの研究者たちは、ShareGPT.comで共有された7万件のChatGPT会話を用いて、MetaベースのLlamaモデルを微調整しました。このデータを用いてLlamaをトレーニングすることで、Vicunaは詳細かつ明確なユーザー応答を生成し、ChatGPTに匹敵するレベルの複雑さを実現しました。

LMSYS による予備テストでは、Vicuna は ChatGPT と Bard の 90% の品質を達成し、シナリオの 90% で Llama とスタンフォード大学の Alpaca を上回っていることが示されました。

LMSYSはまた、Vicuna 13BがMT-benchで6.39、ELOで1,061、MMLUで52.1のスコアを記録したと報告しました。さらに、AlpacaEvalリーダーボードでは、Vicuna 13Bの勝率は82.11%で、GPT-3.5の81.71%、Llama 2 Chat 70Bの92.66%を大きく上回っています。

驚くべきことに、Vicuna 13B のトレーニング コストは約 300 ドルです。

Vicuna にはさらに大型バージョンの Vicuna-33B もあり、MT ベンチでは 7.12 点、MMLU では 59.2 点を獲得しています。

6. キリン:最適スケールコンテキスト長モデル

リソース: https://abacus.ai/

2023 年 9 月、Abacus.AI は、Llama 2 に基づいて微調整されたモデルである Giraffe のバージョン 70B をリリースしました。これにより、モデルのコンテキスト長が 4096 から 32000 に拡張されました。Abacus.AI は、Giraffe に長いコンテキスト ウィンドウを提供することで、下流のタスク処理のパフォーマンスを向上させます。

拡張されたコンテキスト長により、LLM はエラーを削減しながら下流のデータセットからより多くの情報を取得できるようになり、ユーザーとの会話をより長く維持するのにも役立ちます。

Abacus.AIは、Giraffeが抽出、エンコード、数学処理の面でオープンソースモデルの中で最高のパフォーマンスを誇ると主張しています。70Bバージョンは、MT-Benchベンチマークで7.01というスコアを達成しました。

「70Bモデルを一連のベンチマークと比較し、長い『コンテキスト』におけるLLMのパフォーマンスを調査しました」と、Abacus AIのCEOであるBindu Reddy氏は述べています。「13Bモデルと比較して、70BモデルはドキュメントQAタスクにおいて最長コンテキストウィンドウ(32k)でパフォーマンスを大幅に向上させ、AltQAデータセットで61%の精度を達成しました。一方、13Bモデルは18%でした。また、すべてのコンテキスト長において、70Bモデルは同等のLongChat-32kモデルを上回り、最長コンテキスト長においても改善が見られました(32kコンテキスト長でそれぞれ61%と35%の精度)。」

Abacus AI は、Giraffe 16k はコンテキスト長 16k の実際のタスクで優れたパフォーマンスを発揮し、コンテキスト長 20~24k でも優れたパフォーマンスを発揮するとも述べている点も注目に値します。

7. ChatGLM:オープンソースの中国語・英語バイリンガル対話モデル

リソース: https://github.com/THUDM/ChatGLM3

ChatGLMは、Zhipu AIと清華大学KEGラボが共同でリリースした新世代の対話事前学習済みモデルです。ChatGLM3シリーズは2023年10月27日にリリースされました。ChatGLM3-6Bは、ChatGLM3シリーズのオープンソースモデルです。スムーズな対話や導入ハードルの低さなど、前2世代の優れた機能を多く維持しながら、いくつかの新機能が追加されています。

新しい機能は次のとおりです。

  • より強力なベースモデル:ChatGLM3-6BのベースモデルであるChatGLM3-6B-Baseは、より多様な学習データ、より多くの学習ステップ、そしてより合理的な学習戦略を採用しています。セマンティクス、数学、推論、コード、知識といった様々な観点からデータセットを評価した結果、ChatGLM3-6B-Baseは100億未満のベースモデルの中で最も高いパフォーマンスを発揮することが示されました。
  • より包括的な機能サポート: ChatGLM3-6B は、新しく設計されたプロンプト形式を採用しており、通常のマルチターン会話に加えて、関数呼び出し、コード実行、エージェントタスクなどの複雑なシナリオもネイティブにサポートします。
  • より包括的なオープンソースシリーズ:ChatGLM3-6B対話モデルに加え、ベースモデルChatGLM3-6B-Baseと長文対話モデルChatGLM3-6B-32Kもオープンソース化されました。これらはすべて学術研究に完全にオープンであり、アンケートへの回答と登録を行えば、商用目的でも無料でご利用いただけます。

モデルリストは次のとおりです。

ChatGLM3-6B-Baseは、10B以下のベースモデルの中で最高のパフォーマンスを誇ります。そのスコアは以下の通りです。

モデルバージョン

評価タスク

評価の方向性

スコア

第2世代と比べて改良された

ChatGLM2-6Bベース

MMLU

自然言語理解など

47.9

-

ChatGLM2-6Bベース

GSM8K

数学的能力

32.4

-

ChatGLM2-6Bベース

C評価

中国語能力

51.7

-

ChatGLM3-6Bベース

MMLU

自然言語理解など

61.4

36%

ChatGLM3-6Bベース

GSM8K

数学的能力

72.3

179%

ChatGLM3-6Bベース

C評価

中国語能力

69

33.5%

さらに、chatglm3のデプロイメントでは約13GBのビデオメモリを使用します。公式バージョンでは、5GB未満のメモリを使用するINT4精度の量子化モデルが提供されています。INT4精度モデルでもテキストをスムーズに生成できますが、5GBバージョンでは13GBバージョンよりも若干品質が悪くなります。

やっと

本稿ではオープンソース LLM の一部のみを紹介しましたが、AI の発展に伴い、オープンソース AI ソリューションも継続的に成長しています。