|
ラマ3が登場! 先ほど、Metaの公式サイトが更新され、Llama 3の80億パワーバージョンと700億パワーバージョンが正式に発表されました。 そして、オープンソースの SOTA としてリリースされました。 公式メタデータによると、Llama 3 8B および 70B バージョンは、それぞれのパラメータスケールの点で多くの競合製品を上回っています。 8B モデルは、MMLU、GPQA、HumanEval などの複数のベンチマークで Gemma 7B および Mistral 7B Instruct よりも優れたパフォーマンスを発揮します。 70B モデルは、クローズドソースで現在人気の Claude 3 Sonnet を凌駕し、Google の Gemini Pro 1.5 と互角に渡り合います。 Huggingface リンクの公開は、オープンソース コミュニティに再び波紋を引き起こしました。 鋭い観察力を持つ盲目の学生たちも、すぐに重要な点に気づきました。 Meta は、4000 億を超えるパラメータを備えた Llama 3 バージョンも秘密裏に用意しており、これは Claude 3 Opus に劣らず印象的です。 AIライティングアシスタントのスタートアップ企業HyperWriteAIのCEOは、これを見て思わずこう言った。
NVIDIA の科学者 Jim Fan 氏は、まだトレーニング中の Llama 3 400B がオープンソースの大規模モデルにとって画期的な瞬間となり、多くの学術研究やスタートアップの開発方法を変えるだろうと考えています。 完全なSOTAステータスを達成したが、8kウィンドウより技術的な詳細については、Meta のブログ投稿をご覧ください。 アーキテクチャ レベルでは、Llama 3 は従来のデコーダーのみの Transformer アーキテクチャを選択し、128K のトークン語彙を含むトークナイザーを採用しました。 学習データに関して言えば、Llama 3は15Tトークンの学習データ規模を有し、そのすべてが公開情報から取得されています。そのうち5%は英語以外の言語のデータで、30以上の言語をカバーしています。 Llama 3 は Llama 2 よりもトレーニング データが 7 倍多く、コードの範囲は 4 倍広くなっています。 さらに、Llama 3 モデルの推論効率を向上させるために、Meta AI は Grouped Query Attention (GQA) メカニズムも採用し、8192 個のトークンのシーケンスでモデルをトレーニングし、マスクを使用して自己注意がドキュメントの境界を越えないようにしました。 その結果、Llama 3 の 8B バージョンと 70B バージョンはどちらも、同サイズの前世代の Llama 2 と比べて大きな進歩を遂げました。 現在までの 8B および 70B パラメータ スケール モデルの中で、Llama 3 は新たな最先端 (SOTA) モデルとなりました。 言語 (MMLU)、知識 (GPQA)、プログラミング (HumanEval)、数学 (GSM-8K、MATH) の面では、Llama 3 はほぼ総合的に同規模の他のモデルを上回っています。 これらの通常のデータセットに加えて、Meta AI は実際のシナリオで Llama 3 のパフォーマンスを評価し、この目的のために高品質のテスト データセットを開発しました。 このテスト スイートには 1,800 個のデータ ポイントが含まれており、コード、推論、書き込み、要約など 12 の主要なユース ケースをカバーしており、開発チームには機密情報として保持されます。 その結果、Llama 3 は Llama 2 を大幅に上回る性能を発揮しただけでなく、Claude 3 Sonnet、Mistral Medium、GPT-3.5 などの有名モデルも打ち負かしました。 AGIEval、BIG-Bench、ARC-Challenge などの高次かつより難しいデータセットでも、Llama 3 は優れたパフォーマンスを発揮します。 バージョン 8B はこれらのタスクで Mistral および Gemma を上回り、バージョン 70B は Gemini Pro および MoE アーキテクチャの Mixtral に勝利し、それぞれのカテゴリで最先端 (SOTA) ステータスを達成しました。 ただし、唯一の欠点は、Llama 3 のコンテキスト ウィンドウが 8K しかないことです。これは、現在では数十万または数百万のウィンドウを持つ大規模モデルと比較すると、前の世代のままであるようです (冗談です)。 しかし、過度に心配する必要はありません。マット・シューマー氏はこの点について楽観的で、オープンソースコミュニティの努力のおかげで、ウィンドウの長さはすぐに延長されるだろうと述べています。 Llama に公式 Web バージョンができました。現在、2 つのパラメータ値を持つ Llama 3 の基本バージョンと Instruct バージョンの両方が Hugging Face からダウンロードできます。 さらに、Microsoft Azure、Google Cloud、Amazon AWS、NVIDIA NIMなどのクラウドサービスプラットフォームも続々とLlama 3をリリースする予定です。 Meta 氏はまた、Llama 3 は Intel、Nvidia、AMD、Qualcomm を含む複数のメーカーからハードウェア プラットフォームのサポートを受けると述べました。 ベースモデルとともに、Llama 3 をベースにした公式 Web バージョンもリリースされ、Meta AI と呼ばれていることも注目に値します。 現在、このプラットフォームにはチャットと描画の2つの主要機能があります。チャットは登録やログインを必要とせず、すぐに利用できますが、描画にはまずアカウントへのログインが必要です。 ただし、このプラットフォームは現在中国語をサポートしておらず、テキストのアップロードなどの機能はまだ開始されていません。 コードに関しては、このプラットフォームはいくつかの単純な Python プログラムを実行できますが、テキストのみを出力するようで、描画を伴うタスクは実行できません。 全体的に、この Web ページのバージョンはまだかなり基本的なものですが、今後のアップデートに期待できます。 もう一つ余談ですが、Meta の正式発表の数時間前に、Microsoft の Azure Marketplace ですでに Llama 3 8B Instruct バージョンに関する情報がリークされていました。 オープンソースの機械学習モデルのオンラインプラットフォームであるReplicate上のLlama 3の価格表は、ネットユーザーによってすぐに発見されました。 しかし、すぐにこれらの「噂」はすべて 404 によって削除されました。 幸いなことに、この失態は終わり、公式チームも事態を長引かせることはありませんでした。オープンソースのビッグモデルにご興味のある方は、今すぐ実験を始めてください(doge)。 参考リンク: |