DUICUO

すべての人のためのビッグモデル: オープンソースの BELLE プロジェクトは、トレーニング、データ、モデル、評価、アプリを統合します。

最近、「alpaca」ファミリーに代表されるChatGPTの代替モデルが数多く登場しています。オープンソースコミュニティにはChatGPTに匹敵するオープンソースモデルが存在する一方で、これらのモデルはLLM命令のパフォーマンスを向上させる方法やLLMの有効性を評価する方法が異なります。

以前、スタンフォード大学のAlpacaをベースに中国語向けに最適化されたプロジェクトが注目を集めました。BELLE (Be Everyone's Large Language model Engine) 70パラメータを持つオープンソースの中国語対話モデルです。スタンフォード大学のAlpacaをベースに中国語向けに最適化され、生成されたコードにもいくつかの修正が加えられています。さらに、モデルのチューニングにはChatGPTによって生成されたデータのみを使用し、他のデータは一切使用していません。

BELLE の目標は、大規模な中国語対話モデルのオープンソース コミュニティの発展を促進することであり、そのビジョンは、すべての人に役立つ LLM エンジンになることです。

BELLEは、大規模言語モデルをいかに効果的に事前学習するかに焦点を当てるのではなく、オープンソースの事前学習済みモデルに基づいて、誰もが独自の高性能な指示指向言語モデルを入手できるようにすることを優先しています。これにより、大規模言語モデル、特に中国語モデルの研究と応用の障壁を低減します。この目的のため、BELLEプロジェクトは、指示学習データ、関連モデル、学習コード、および応用シナリオを継続的に公開し、異なる学習データとアルゴリズムがモデルのパフォーマンスに与える影響を継続的に評価します。

BELLE プロジェクトのハイライトは次のとおりです。

  • 研究報告:大規模言語モデルの教育パフォーマンスを向上させる要因を多角的に探る、モデル評価パラダイムに対する教育の微調整戦略
  • オープンデータ: 豊富で大規模、かつ継続的に改善されるトレーニングおよび評価データ
  • すぐに使えるマルチモデルと命令の微調整 / LoRA / 量子化コード
  • インターネット接続なしでオフラインで実行できるマルチターミナル LLM 推論およびチャット アプリ。

他にも機能がありますので、詳細については Github プロジェクトをご覧ください。

プロジェクトアドレス: https://github.com/LianjiaTech/BELLE

BELLE プロジェクトは、中国語の命令チューニング モデルの命令追従性と一般化のパフォーマンスを改善し、モデルのトレーニングと研究の障壁を下げ、より多くの人が大規模言語モデルのメリットを体験できるようにすることに重点を置いています。

この目的のために、BELLE はモデルの評価方法、モデル命令のパフォーマンスに影響を与える要因、モデルのチューニングなど、さまざまな側面をカバーする一連の研究を実施しました。

最近、関連する論文が2本発表されました。その内容を見てみましょう。

論文紹介

論文1:中国語の言語モデルに従ったより良い指導に向けて:訓練データと評価の影響の調査

論文リンク: https://arxiv.org/pdf/2304.07854.pdf

オープンソースの大規模言語モデルの開発を促進するため、ChatGPTに類似した低コストモデルの開発に多大な労力が費やされてきました。まず、中国語領域におけるモデルの性能と学習・推論効率を向上させるため、LLaMA語彙をさらに拡張し、34億語の中国語単語を用いた二次事前学習を実施しました。

さらに、ChatGPTによって生成された指示のための学習データとして現在入手可能なものには、1) AlpacaがGPT3.5に基づいて取得した自己学習データ、2) AlpacaがGPT4に基づいて取得した自己学習データ、そして3) ChatGPTを利用してユーザーが共有したShareGPTデータが含まれます。ここでは、学習データの種類がモデルのパフォーマンスに与える影響に焦点を当てます。具体的には、学習データの量、品質、言語分布といった要因に加え、独自に収集した中国語のマルチターン対話データと、公開されている高品質な指示データセットをいくつか検証します。

パフォーマンスをより適切に評価するために、1,000 個のサンプルと 9 つの実際のシナリオを含む評価セットを使用してさまざまなモデルをテストし、定量分析を通じて貴重な洞察を提供することで、オープンソース チャット モデルの開発をより適切に促進しました。

この研究の目的は、オープンソースのチャットモデルの包括的な評価におけるギャップを埋め、この分野の継続的な進歩を強力にサポートすることです。

実験結果は次のとおりです。

BELLE -0.5M-CLEANは、230万語の指示データをクレンジングして得られた0.5Mデータです。単発および複数発話の対話データが含まれており、以前に公開された0.5Mデータとは同一のデータではありません。

ケーススタディを通して、評価セットの包括性に限界があり、改善されたモデルスコアと実際のユーザーエクスペリエンスの間に矛盾が生じていることがわかったことを強調しておくことが重要です。高品質な評価セットの構築は、難易度のバランスを保ちながら、可能な限り多くのユースケースを網羅する必要があるため、大きな課題です。評価サンプルが難しすぎると、すべてのモデルのパフォーマンスが低下し、様々なトレーニングデータや戦略の効果を区別することが難しくなります。逆に、評価サンプルが比較的容易な場合、評価は比較価値を失います。同様に、評価セットの多様性が不十分な場合も、評価バイアスが生じやすくなります(例えば、モデルのトレーニングドメインと評価ドメイン、またはタスクタイプが非常に一貫している場合など)。これらの2つの要因の共分布は、一部のタスクでは難易度の高い識別が、他のタスクでは難易度の低い識別が結果として生じる可能性があり、評価の難易度と有効性をさらに高めます。さらに、評価データがトレーニングデータから独立していることを保証することが重要です。

図1. 評価セットの難易度と多様性の分布の模式図。

これらの観察に基づき、限られた数のテストサンプルで良好な結果が得られたからといって、このモデルがChatGPTに匹敵する性能を達成したと推測するのは危険です。包括的な評価セットの継続的な開発が非常に重要であると考えています。

この研究で使用されたデータとモデルは、近々 BELLE プロジェクトでオープンソース化される予定です。

論文2:大規模言語モデルに従う指導のための中国語指導データにおけるフルパラメータとLoRAベースのファインチューニングの比較研究

論文リンク: https://arxiv.org/pdf/2304.08109.pdf

大規模言語モデルの命令を最適化するために、多くの研究者が、リソースとコストの制約から、LoRAなどのパラメータ効率の高いチューニング手法を使い始めています。これは、いくつかの有望な結果をもたらしています。LoRAベースのチューニングは、フルパラメータのファインチューニングと比較して、学習コストにおいて大きな利点を示しています。本研究報告では、LLaMAをベースモデルとして用い、フルパラメータのファインチューニングとLoRAベースのチューニング手法を実験的に比較します。

実験結果から、適切なベースモデルの選択、トレーニング データセットのサイズ、学習可能なパラメータの数、およびモデルのトレーニング コストがすべて重要な要素であることが明らかになりました。

本論文の実験結果が、特に中国語分野における大規模言語モデルのトレーニングに有用な洞察を提供し、研究者がトレーニングコストとモデルパフォーマンスのより良いトレードオフを見つけるのに役立つことを願っています。

実験結果は次のとおりです。

平均スコアは、本プロジェクトで現在利用可能な1000個の評価データセットに基づいています(下記の「評価データ」セクションを参照)。LLaMA-13B + LoRA (2M) は、LLaMA-13B をベースモデルとし、LoRA を学習手法として2M命令セットで学習したモデルです。一方、LLaMA-7B + FT (2M) は、完全なパラメータ微調整を用いて学習したモデルです。これらの実験はすべて、8基のNVIDIA A100-40GB GPUで実施しました。実験の詳細については、論文をご覧ください。

評価によると、私たちのモデルは数学的なタスクでのパフォーマンスが低く、スコアはほとんど0.5を下回っていました。LoRAの特定のタスクへの適応性を検証するために、0.25Mの増分数学データセット(math_0.25M)を使用してモデルの数学的能力を向上させ、増分ファインチューニング法と比較しました。実験結果によると、増分ファインチューニングは依然として優れたパフォーマンスを発揮しますが、トレーニング時間は長くなります。LoRAと増分ファインチューニングはどちらもモデルの全体的なパフォーマンスを向上させます。論文の付録にある詳細なデータは、LoRAと増分ファインチューニングの両方が数学的なタスクで大幅な改善を示し、他のタスクではわずかなパフォーマンスの低下しか引き起こさないことを示しています。

まとめると、1) ベースモデルの選択はLoRAチューニングの有効性に大きな影響を与えます。2) 学習データの量を増やすことで、LoRAモデルの有効性を継続的に向上させることができます。3) LoRAチューニングは、モデルパラメータの数によって恩恵を受けます。LoRAスキームを使用する場合は、既に指示学習を完了したモデルに基づいて、特定のタスク向けの適応型LoRAトレーニングを実行することをお勧めします。

同様に、本論文の関連モデルも、BELLE プロジェクトでできるだけ早く公開される予定です。

トレーニングと評価データの継続的な改善

現在、BELLE は、最近リリースされた 1,000 万の中国語データセットと、以前にリリースされた 150 万の中国語データセットの 2 つのデータセットをリリースしています。

1000万件の中国語データセット

BELLEプロジェクトによって生成された、様々な命令タイプとドメインのサブセットが複数含まれています。現在整理中で、段階的にリリースされる予定です。

  • 学校の数学: 解答を含む約 250,000 個の中国語の数学の問題が含まれています。
  • マルチターン チャット: ユーザーとアシスタントの間で生成された約 800,000 件のマルチターン会話が含まれます。
  • 生成されたチャット: 特定のキャラクターに対して生成された約 400,000 件のマルチターン ダイアログが含まれます。
  • train_2M_CN: 生成された約 200 万の多様な指示タスク データが含まれています。

評価データ

前述の通り、LLMの有効性を評価するには評価データの質が極めて重要です。BELLEプロジェクトが公開した中国語評価セットには、BELLEプロジェクトによって生成された様々な指導法・分野の評価事例約1,000件が含まれており、評価セットの多様性と難易度のバランスが図られています。評価セットのデータ分布を図2に示します。

多様性の観点から、評価セットは抽出、オープンQA、クローズドQA、書き直し、生成、要約、分類、ブレインストーミングなど、9種類のタスクタイプを網羅しており、マーケティング、健康的な食事、言語と文学、旅行、複数のプログラミング言語、環境保護、音楽、歴史、料理、映画とテレビ、スポーツイベント、医学、金融、テクノロジーといった複数のテーマを網羅しています。タスクタイプの分布は図2(a)に示されています。

難易度の面では、評価セットが更新され、より難しいサンプルがいくつか含まれるようになり、評価セットとラベル付き応答の平均命令長の分布がバランスが取れました。

ChatBELLE、マルチ端末モデル推論およびチャットアプリケーション

オープンソースコミュニティは、llama.cpp、GPT4ALL、WebLLMといったLLM向けのオフライン展開加速ソリューションを開発してきました。これらのプロジェクトは、数十ギガバイトのビデオメモリとプロ仕様のGPUコンピューティング能力といった要件を、一般的な消費者向け電子機器でも実行できるレベルまで削減しましたが、そのほとんどは、展開と使用体験に依然としてある程度のスキルを必要とします。

BELLEは、大規模言語モデルのユースケースをさらに拡大し、より多くのユーザーが特別な機器を必要とせずにLLMのメリットを体験できるようにすることを目指しています。BELLEは、完全にオフラインでクロスプラットフォームなBELLEチャットアプリケーションを提供します。4ビット量子化ChatBELLEモデル(llama.cpp)とクロスプラットフォームFlutter UIを組み合わせることで、ユーザーはアプリをインストールし、モデルをダウンロードするだけで、インターネット接続のない様々なモバイルデバイス上でChatBELLEモデルをローカルで体験できます。

まずは結果を見てみましょう:

macOS

M1 Max Macbook の CPU のみを使用してリアルタイムで実行すると、読み込みと推論の両方が非常に高速になります。

LLM関連の推論アルゴリズムとハードウェア/ソフトウェア技術の段階的な発展により、純粋にオフラインのデバイス上モデルのパフォーマンスは向上し続けると考えています。BELLEプロジェクトは、ChatBELLEモデルとアプリの機能のパフォーマンスを最適化し続け、より多くのユーザーに、より良く豊かな体験を提供することを目指します。

まとめ

過去2ヶ月間、LLMオープンソースコミュニティは、基礎モデル研究、モデル命令の微調整、モデル応用シナリオなど、様々な側面で目覚ましい進歩を遂げてきました。BELLEプロジェクトチームはこれらの進歩を大変喜ばしく思っており、オープンソースLLM、特に中国のオープンソースLLMの発展を促進するために、ささやかな努力を惜しみません。

オープンソースモデルは皆様のたゆまぬ努力のおかげで性能が大きく向上し、一部のモデルはChatGPTやGPT-4に匹敵するほどの性能を持つようになりましたが、OpenAIとの差は依然として大きいです。ChatGPTの多様な機能、強力な指示追従性と汎化能力、そして高いセキュリティは、オープンソースコミュニティによる継続的な地道な改善によってのみ実現可能です。コミュニティ全体の努力によって、大規模言語モデルが真にすべての人のものとなり、すべての人に役立つものになることを願っています。