DUICUO

Alibaba は 32B の大型モデルをオープンソース化したばかりで、私たちはすぐにそれをテストしました。

Alibaba の Qwen シリーズは、ついに 1.5 シリーズのパズルの最後のピースを完成させました。

Qwen 1.5-32B が正式にオープンソース化されました。

早速、「成績表」を見てみましょう。

今回、同じステージで競い合う「出場者」の公式選出は、Mixtral 8x7B モデルと、同じく Qwen 1.5 シリーズの 72B モデルです。

結果によると、Qwen 1.5-32B は、いくつかの評価基準において Mixtral 8x7B を上回るか同等でした。

Qwen 1.5-32B は、より大きなパラメータを持つ自社のモデルと競合した場合でも、小型でありながら優れたパフォーマンスを発揮しました。

Tongyi Qianwenチームのメンバーは次のように語っています。

このモデルは、特に言語理解、多言語サポート、コーディング、数学的機能において、72B モデルに匹敵するパフォーマンスを発揮します。

推論および展開プロセス中は、コストがさらに手頃になります。

さらに、同様のサイズの他の大型モデルと比較しても、Qwen 1.5-32B は複数の評価で非常に優れたパフォーマンスを発揮しました。

さらに、チームは「干し草の山から針を探す」ような長いテキストの評価タスクという、かなり興味深いテストを実施しました。

このタスクは簡単に言うと、大量のテキスト(「海」)の中に本文とは関係のない文(「針」)を隠し、自然言語で質問することでAIが隠された文を正確に抽出できるかどうかを観察するものです。

結果は、Qwen 1.5-32B が 32k トークンのコンテキストで良好に機能することを示しています。

ただし、公平を期すために申し上げると、ここで示したのはQwen 1.5-32Bの定格値に過ぎません。実際の使用状況では、どのような性能を発揮するのでしょうか?

「バカ」たちと大バトルをしよう!

大規模モデルの台頭以来​​、「Ridiculous Bar」は大規模モデルの論理的能力をテストするための基準の1つになり、冗談めかして「Ridiculous Bar Benchmark」と呼ばれています。

(「Rude Bar」は、不条理で奇妙で非論理的な発言が満載の中国のコミュニティであるBaidu Tiebaから生まれました。)

さらに、ほんの数日前には「Ridiculous Bar」が本格的なAI論文にも取り上げられ、最高の中国のトレーニングデータとなり、熱い議論を巻き起こしました。

この研究は、中国科学院深圳先進技術研究所、中国科学院自動化研究所、ウォータールー大学など、多くの大学や研究機関の共同チームによるものです。

奇しくもQwen 1.5-32Bがオープンソースとしてリリースされ、同時にオンラインデモも公開されました。この2つが融合すると、どんな火花が散るのでしょうか?

最初の質問を聞いてください。

なぜ両親は私を結婚式に招待してくれなかったのでしょうか?

Qwen 1.5-32B は、「あなたの両親は結婚したときにはまだ生まれていなかったので、あなたを結婚式に招待することはできなかった」と正確に答えています。

質問2に続きます。

人が寝たり夜を過ごす場所がホテルと呼ばれ、お酒を飲む場所がナイトクラブと呼ばれるのはなぜでしょうか?

この古典的な疑問に対して、Qwen 1.5-32B は適切かつ徹底的な科学的な説明も提供できます。

次に3番目と4番目のコースです。

高校が大学入試の合格率を上げたいなら、なぜ大学生を直接募集しないのでしょうか?

インターネットカフェがインターネットにアクセスできるのに、なぜバカカフェはバカ向けのコンテンツにアクセスできないのでしょうか?

Qwen 1.5-32B が正確な回答を提供できることは容易にわかります。

特に 4 番目の質問では、論理的な問題が直接指摘されています。

質問は不適切であるか、誤解に基づいているようです。

はい、Qwen 1.5-32Bは「バカベンチマーク」に耐えた大型モデルです。

常識や数学、プログラミングなど他のスキルへの効果についても、家族で実際に体験することができます。

どうやってそれをやったんですか?

先ほど述べたように、Qwen 1.5-32Bは技術アーキテクチャの面では以前のバージョンと大きな違いはありません。注目すべきは、GQA(Grouped Query Attention)テクノロジーの導入です。

これこそが、比較的小さなフットプリントで優れたパフォーマンスと迅速な導入を実現できる鍵なのです。

GQA は、自然言語処理で使用される Transformer アーキテクチャのメカニズムであり、クエリ シーケンスを複数のサブシーケンスにグループ化することで、Transformer モデルの計算効率を向上させます。

このアプローチにより、Transformer モデルの表現力を維持しながら、計算の複雑さを効果的に削減できます。

具体的には、GQA は、クエリをグループ化し、各グループ内での注目度を計算することで、Multi-Query Attention (MQA) の速度と Multi-Head Attention (MHA) の品質を組み合わせます。

GQA はクエリ ヘッダーをグループ化し、各グループが単一のキーと値のヘッダーを共有することでこれを実現し、品質と速度のバランスを取ります。

このように、GQA を導入すると、注意計算の量が削減され、推論時間が短縮されます。

最後に、HuggingFaceでQwen 1.5-32Bを体験できるリンクをご紹介します。ご興味のある方はぜひご覧ください!

参考リンク:
[1]https://qwenlm.github.io/zh/blog/qwen1.5-32b/.
[2]https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo.
[3]https://github.com/QwenLM/Qwen1.5.
[4]https://klu.ai/glossary/grouped-query-attention.