DUICUO

Gemma 2が70B Llama 3を上回り、最強のオープンソースモデルに! リーダーボードのプロンプトが微調整に使われたのではないかという著名人の疑問が、オンライン上で白熱した議論を巻き起こしました。

Google の動きは実に注目すべきものだった。

Gemma 2 は先週リリースされたばかりですが、LMSYS 分野ですでに目覚ましい成果を上げています。

総合スコアでは、Gemma 2 はオープンソース モデルの中で最高のスコアを達成し、わずか 27B のパラメータで、Llama 3-70B-Instruct や Claude 3 Sonnet などのはるかに大きなパラメータを持つ有名なモデルを「上回りました」。

Gemma は本当にオープンソース モデル市場のトップの座を獲得するのでしょうか?

Google Researchの主任科学者ジェフ・ディーン氏もこの成果を祝うメッセージを投稿した。

新しい Gemma-2-27B モデルが LMSYS 上で最高のオープンソース モデルになった (かなり大規模なモデルに勝って) のは素晴らしいことです。

27B は多くのシナリオに非常に適したサイズであると信じており、Gemma-2-27B も非常に優れたモデルです。

総合スコアだけでなく、LMSYSが昨日発表した「マルチターンダイアログ」のリーダーボードでも、Gemma 2は引き続き好成績を収めています。

LMSYS は、LLM におけるマルチターン ダイアログは、今日の多くのアプリケーション シナリオで非常に重要であると述べています。

アリーナ投票では、複数回の対話が14%とかなりの割合を占めました。

そのため、彼らは新しいランキングカテゴリー「マルチターンダイアログ」を導入しました。これには、モデルのより長い期間にわたる対話能力を測定するための 2 ラウンド以上のテストが含まれます。

この最新のランキングでは、クロード家の順位は大幅に向上しました。

総合2位となったClaude 3.5 Sonnetは、GPT-4oと並んで首位を獲得しました。Claude 3 Opusも8位から3位に躍進しました。

今回のメインテーマであるGemma 2も2つ順位を上げてトップ10入りし、Llama 3-70B-Instructをも上回りました。

Gemma 2 ではバージョン 9B と 27B がリリースされましたが、DeepMind の研究者 Clement 氏は Twitter でバージョン 2B も間もなくリリースされると明らかにしました。

かつてオープンソースの「ワントリック」に頼りきりだったMetaは、ついに強力なライバルに出会った。Gemma 2とLlama 3の競争は、今後もしばらく続くだろう。

ジェマはなぜそんなに強いのか?

27B Gemma 2が70B Llama 3よりも優れた性能を発揮できるのはなぜでしょうか?Googleはどのような技術を使って、これほど高いパラメータ効率を実現したのでしょうか?

おそらく、公式の技術レポートで手がかりが見つかるかもしれません。

レポートリンク: https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

トレーニングデータに関しては、特定のデータソースや構成はなく、データの量だけであることが考えられます。

Gemma はマルチモーダルではなく、多言語タスク用に設計されていないため、そのトレーニング コーパスは英語を主要言語とするさまざまな種類のテキストとコードのみで構成されています。

27B モデルのトレーニング データには 13 兆トークンが含まれており、9B モデルと 2.6B モデルにはそれぞれ 8 兆トークンと 2 兆トークンが含まれています。

アーキテクチャの面では、Gemma 2 は、回転位置エンコーディング (RoPE)、SentencePiece トークナイザー、Logit ソフト上限、GeGLU アクティベーション関数など、Gemini チームと Gemma 1 から多くの側面を継承しています。

Gemma 2はGemma 1と比べてより深いネットワークを使用し、いくつかの部分がアップデートされています。

ローカルスライディングウィンドウとグローバルな注目

Gemma 2 は、ローカル スライディング ウィンドウとグローバル アテンションを交互に使用し、スライディング ウィンドウのサイズは 4096 トークンに設定され、グローバル アテンション レイヤーのサイズは 8192 トークンに設定されています。

この方法では、文脈と全体像を正しく理解しながら、テキストの詳細を正確にキャプチャします。

知識の蒸留

知識蒸留推定を成功させることは、競争力のある 9B および 27B モデルをトレーニングする上で最も重要なステップです。

大規模言語モデルをトレーニングする従来の方法では、主に前のトークンに基づいて次のトークンを予測するため、トレーニングには大量のデータが必要になります。

しかし、人間の学習プロセスは大量の知識のインプットに依存しません。例えば、学生が外国語を学ぶために原著作品を読む必要がある場合、すべての本を読む必要はありません。1冊の本を枠組みとして使い、理解し、知識を統合するだけで十分です。

知識蒸留は人間の学習プロセスに似ています。小さなモデルが、より大きな事前学習済みモデルから学習することで、小さなモデルがトークンを予測するのを支援します。

教師モデルを基に構築することで、生徒モデルはより少ないトレーニング データとより少ないパラメータでパフォーマンスを向上させることができます。

LMSYS データを使用した微調整は AI2 研究者から批判を受けています。

オープンソースモデルコミュニティはついに、Llamaに続く最新鋭のパワーマシン、Gemma 2を歓迎しました。皆が興奮に沸き立つ中、Allen AIの研究者Nathan Lambert氏は、自身の技術レポートの中で、ある重要な点を冷静に発見しました。

微調整データは LMSYS チャット データセットから取得されました。

批判を受ける可能性を予想していたのか、この論文では、回答を省略し、質問のみが使用されたことを特に強調していた。

ランバート氏は依然としてこの行為を非難し、皮肉を交えた口調でこうツイートした。「Googleチームは、アリーナでスコアを上げることに関しては、実に想像力豊かですね」

ネイサン・ランバートは、法学修士(LLM)分野では比較的ベテランの専門家です。カリフォルニア大学バークレー校で博士号を取得し、DeepMindとFairでインターンシップを経験しました。

ランバート氏の質問に答えて、LMSYS は非常に長く謎めいたツイートを投稿し、Google を擁護する姿勢を微妙に示しているように見えた。

ツイートの全文は次のとおりです。

Chatbot Arena の使命は、当初から、人間の好みを通じて LLM の評価問題に対処することです。

私たちのデータセットと論文を公開することで、コミュニティが現実世界のプロンプトを研究し、このデータを使用してモデルを改善することを期待しています(ImageNet トレーニング セットと同様に)。

リアルタイムかつ新鮮なユーザー投票により、Arena は MMLU などの静的ベンチマークよりも過剰適合しにくいと考えています。

さて、(1) プロンプトの繰り返しの度合いと (2) データの分布について、疑問を抱く方もいるかもしれません。まさにこれが、オープンデータと論文研究が存在する理由です。

Llama-3に関するブログ記事では、重複除去後、約10%の重複が結果にほとんど影響を与えないことが示されています。さらに、この論文ではプロンプト分布のトピックモデリングも取り上げており、言語間の多様なユースケースを実証しています。

今後、データの鮮度と分布についてさらに深く掘り下げていく予定です。また、新しいタスクでモデルに挑戦したり、100万件のプロンプトと嗜好のデータセットを探索したり、Kaggleチャレンジに参加したりしていただければ幸いです。

これは少々不可解です。なぜなら、「モデルを改善するためにデータを使用することは歓迎されます」と「私たちは批判に応えてデータと論文を公開しています」の両方が述べられているからです。

メッセージを投稿したランバート氏も困惑しており、自身の立場をさらに明確にした。

「同じことを議論しているわけではないようですが、私の主張は依然として正しいです。私たちが知らないうちに、同じことをしている人はもっとたくさんいるでしょう。」

LMSYSの最新の対応は人々にさらに複雑な感情を残した。

「申し訳ありませんが、あなたのツイートを投稿しましたが、それは意図的にあなたへの返信ではありませんでした。」

LMSYS データを微調整に使用すべきかどうかという問題は、コメント欄でネットユーザーの間で白熱した議論を巻き起こしました。

ランバート氏の批判は不当だと考える人もいる。LMSYSはデータセットを公開しているのだから、それを微調整に使うことに何の問題があるというのだろうか?しかも、使われたのは教師モデルによって生成されたプロンプトだけだった。

結局、LMSYS のチャットボット Arena のスコアはみんなが見ているので、このデータを誰も使わないというのはかなり意外なことです。

この姿勢は広く受け入れられました。Googleは論文にLMSYSデータの使用を明記するほど誠実な数少ない企業の一つですが、そのようなデータを使用したのはGoogleが初めてではありません。

「GPT-4o と Llama 3 も同じことをしたに違いない。」

結局のところ、しばらくの間、LMSYS Arena が唯一の信頼できるベンチマークでした。

ランバート氏が懸念しているのはまさにこれだ。LMSYSは業界で数少ない、多くの人に認知されているベンチマークの一つだ。そのデータを使って微調整やトレーニングを行ったら、すぐに信頼性を失ってしまうのではないだろうか。

さらに悪いことに、すべてのモデルが Gemma 2 のようにこれを認めているわけではありません。

比較的客観的な意見を持つ多くのネットユーザーもこの点を指摘している。

「これにより、Arena の信号対雑音比が低下すると考えています。」

ベンチマークの分野では歴史は際限なく繰り返され、黄金律が常に適用されるようです。

「指標が目標になると、それはもはや良い指標ではなくなります。」