DUICUO

オープンソースでありながらクローズドソース!Qwen2 Q&Aプラットフォームはリリースと同時に話題となり、ネットユーザーからは「GPT-40は危険だ!」というコメントが寄せられました。

オープンソースのビッグデータ モデルの世界的な状況は、一夜にして変わる可能性があります。

ついに登場!オープンソースのベンチマークLlama 3をあらゆる面で凌駕する、全く新しいオープンソースの大規模モデルが発表されました。王座は交代しました。「匹敵する」や「追いつく」といったレベルではなく、完全に追い抜いたのです。リリースからわずか2時間で、HggingFaceのオープンソース大規模モデルランキングのトップに躍り出ました。

これは、Tongyi Qianwen と Alibaba が開発した、オープンソースの大規模モデルである Qwen2 の最新世代です。

10 を超える国際的に権威のある評価において、Qwen2-72B は、特に HumanEval や MATH などのコーディング能力や数学的能力をテストするベンチマークにおいて、Llama3-70B よりも優れた成績を収めました。

さらに、Qwen2-72Bは国産大型モデルとして、国産クローズドソースの大型モデルの数々を凌駕し、「目標を一挙に達成」した。

Qwen2-72Bは、前世代のQwen1.5-110Bと比較して、全体的なパフォーマンスにおいて世代間の飛躍的な向上を遂げています。上海AIラボが公開したOpenCompass大規模モデルベンチマークにおいて、Qwen1.5-110Bは既にWenxin4やMoonshot-v1-8Kといった国内のクローズドソースモデルを上回っています。Qwen2-72Bのリリースにより、この優位性はさらに拡大しています。

あるネットユーザーはこうコメントした。「これはまだ始まりに過ぎない。オープンソースモデルは、今後数ヶ月以内にGPT-4oに代表されるクローズドソースモデルに打ち勝つ可能性が高い。」

Qwen2 のリリースは、静かな湖に石を投げ込み、大きな騒ぎを引き起こしたようなものだと言えます。

リリースからわずか1日で3万回以上ダウンロードされました。

ネットユーザーは、72Bバージョンと命令調整バージョンに加え、今回公開されたQwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14BバージョンもApache 2.0ライセンスに基づいてライセンスされていることも発見した。

つまり、商用利用においてより自由な利用が可能になるということです。これはLlama 3シリーズでは実現できなかったことです。

大規模 AI モデルの分野では、時間と速度の両方が異なります。

Alibaba が Qwen1.5-110B モデルをリリースして、新たな最先端 (SOTA) 標準を設定し、世界のオープンソースの大規模モデル分野で独占を確立してから、わずか 1 か月が経過しました。

現在、Qwen2 はオープンソースでは世界第 1 位、大規模モデルでは国内第 1 位となり、オープンソースではない大規模モデルさえも凌駕するトップの座に立っています。

Qwen2は実際の大学入試数学問題に挑戦します

まず、Qwen2 の基本情報について概要を説明しましょう。

公式技術ブログによると、Qwen2 の機能と Qwen1.5 と比較した主なアップグレードは次のとおりです。

  • 5種類の異なるサイズの事前学習済み、指示ベースの微調整済みモデルがリリースされており、Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72Bが含まれています。このうち、Qwen2-57B-A14BはMoEモデルです。
  • 中国語と英語をベースに、27言語に対応しています。アラビア語の開発者によると、Qwenは4億人のアラビア語話者の間で人気のモデルとなり、オープンソースのアラビア語モデルのリストで常にトップにランクされています。

  • MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench などの権威ある国際ベンチマークにおいて、Qwen2-72B は Llama 3 を上回り、12 を超える世界初を達成しました。
  • コーディング能力と数学的能力が大幅に向上します。
  • コンテキスト長のサポートが拡張され、コンテキスト長の最大実装は 128K トークンになりました (Qwen2-7B-Instruct および Qwen2-72B-Instruct)。

理論上、Qwen2 はオープンソースの大規模モデルの中で世界的に最も優れたパフォーマンスを達成していますが、実際にはどのように機能するのでしょうか。

新しく公開された大学入試数学問題を使用してテストしました。

簡単な質問から始めましょう:

集合A = {x | -5 < x^3 < 5}、B = {-3, -1, 0, 2, 3}が与えられている場合、A ∩ B = ()

左側はQwen2-72B-Instruct、右側はLlama-3-70B-Instructです。Llama 3が漢字をあまりサポートしていないという古い問題を除けば、どちらの答えも正解です。

もう少し難しくしてみましょう:

x∈[0, 2π]のとき、曲線y=sinxとy=2sin(3x-π/6)の間にはいくつの交点がありますか?

Qwen2-72B-Instructはまだ行き詰まっていませんでした。いくつか計算した後、正解が示されました。交差点の数は6です。

Llama-3-70B-Instruct の計算が間違っているため、5 ポイントが減点されます。

Qwen2 の数学力は、大学入試の実際の問題でテストされるレベルに達しています。

公式データと評価によると、今回のTongyi 1000 Questionsのアップグレードでは、コーディングスキルの向上も強調されています。また、LeetCodeの中級難易度の問題でテストを行いました。

非減少順序の整数配列 nums と目標値 target が与えられた場合、配列内の目標値の開始位置と終了位置を求めます。目標値 target が配列内に存在しない場合は、[-1, -1] を返します。この問題を解くには、時間計算量が O(log n) のアルゴリズムを設計・実装する必要があります。

Qwen2-72B-Instruct が提供する Python 実装は次のとおりです。

 def searchRange(nums, target):def binary_search_left(nums, target): left, right = 0, len(nums)while left < right: mid = (left + right) // 2if nums[mid] < target: left = mid + 1else: right = midreturn left def binary_search_right(nums, target): left, right = 0, len(nums)while left < right: mid = (left + right) // 2if nums[mid] <= target: left = mid + 1else: right = midreturn left left, right = binary_search_left(nums, target), binary_search_right(nums, target)return [left, right - 1] if left <= right - 1 and nums[left] == target and nums[right - 1] == target else [-1, -1]

最初のエラーは Solution クラスが定義されていないために発生しましたが、エラー メッセージを Qwen2 に直接報告することで、自身をデバッグすることができました。

テストは無事に合格しました。

フルサイズモデルにはGQAが標準装備されています

このテストに基づいて、Tongyi Qianwen をどのように評価しますか?

注目すべきは、Alibaba の公式技術ブログでも、Qwen がどのように強力になったかについての多くの技術的詳細が明らかにされていることです。

まず、GQA (Grouped Query Attention) の完全なサポートの恩恵を受けます。

GQA (Grouped Query Attention) は、入力シーケンスを複数のグループに分割し、グループ内およびグループ間にアテンション メカニズムを適用して、シーケンス内のローカルおよびグローバルな依存関係をより適切にキャプチャするメカニズムです。

GQA は計算の複雑さを効果的に削減し、並列化を簡単に実現できるため、計算効率が向上します。

Qwen 1.5シリーズでは、32Bと110BモデルのみにGQAが採用されていました。しかし、Qwen 2シリーズでは、このアテンションメカニズムを全シリーズに採用しています。つまり、ハイエンドゲーマーから初心者まで、Qwen 2の全サイズモデルで、推論速度の高速化やVRAM使用量の削減といったGQAのメリットを実感していただけるということです。

さらに、小型モデル(0.5Bおよび1.5B)の場合、埋め込みパラメータの数が多いため、研究チームはタイ埋め込み方式を使用して入力層と出力層でパラメータを共有し、非埋め込みパラメータの割合を増やしました。

次に、コンテキストの長さに関して、Qwen2 シリーズのすべての Instruct モデルは 32K のコンテキストの長さでトレーニングされ、YARN や Dual Chunk Attention などのテクニックを通じて、より長いコンテキストの長さに拡張されます。

このうち、Qwen2-7B-InstructとQwen2-72B-Instructは128Kのコンテキストをサポートします。72Bバージョンの最大コンテキスト長は131,072トークンに達します。

Qwen2-57B-A14B-Instruct は 64K のコンテキストを処理できますが、他の 2 つの小型モデル(0.5B と 1.5B) は32K のコンテキスト長をサポートします。

干し草の山の中の針を探す実験の結果は以下の通りです。Qwen2-72B-Instructは、128Kのコンテキスト長内で情報抽出タスクを処理する際に完璧なパフォーマンスを発揮することがわかります。

さらに、Qwen2 はデータの観点からスケーリング法則アプローチの探究を続けています。

例えば、数学的能力の向上は、研究チームがモデルに大規模で高品質の数学データを入力した結果です。

多言語機能に関しては、研究チームは具体的には27の言語に関連する高品質なデータもトレーニングデータに追加しました。

ブログではまた、Tongyi Qianwen 研究チームがモデルとデータのスケーリング法則の探究を継続し、Qwen2 をマルチモーダル モデルに拡張することも明らかにしました。

中国のオープンソースモデルの再理解

強化されたパフォーマンスとよりオープンなアプローチにより、Qwen2 はリリース以来絶賛されています。

エコシステムの観点から見ると、Qwenシリーズはこれまでに1,600万回以上ダウンロードされており、国内外のオープンソースコミュニティでは、Qwenをベースにした1,500以上のモデルやアプリケーションが登場しています。

開発者たちはすでに、中国の大規模モデルがオープンソース分野のリーダーになりつつあることに気づいている。

Qwen2 の最新の結果は、少なくとも 2 つの事実を確認しています。

まず、中国のオープンソース・ビッグデータ・モデルは、パフォーマンスからエコシステムに至るまで、米国最強のオープンソース・ビッグデータ・モデルであるラマ3と十分に競争できるハードパワーを備えています。

第二に、チューリング賞受賞者のヤン・ルカンが予測したように、オープンソースの大規模モデルはすでにクローズドソースのモデルを上回り始めており、転換点が到来しています。

実際、これは Alibaba を含むオープンソースの大規模モデル プレーヤーの間でも公然の秘密です。

大規模モデルの継続的な最適化と進歩は、強力な AI 研究開発能力と最先端のインフラストラクチャ能力、つまり人工知能とクラウド コンピューティングの強力な組み合わせに依存しています。

中国最大のクラウドベンダーであるアリババを例に挙げると、同社は強力なクラウドコンピューティング能力を活用して、AIトレーニングとAIアプリケーションのための安定した効率的なAIインフラストラクチャサービスシステムを提供しており、人工知能分野での長い蓄積の歴史を持っています。

一方で、外部からの継続的なフィードバックと技術の進歩も必要です。

オープンソース コミュニティからのフィードバックは、Qwen2 がリリースされた初日に GitHub に寄せられた問題の数からも明らかです。

テクノロジー分野において、オープンソースは「一人はみんなのために、みんなは一人のために」の精神を体現しており、今日に至るまで世界の科学技術とインターネットの繁栄した発展における最も中核的な精神的要素となっています。

時代や新たな技術の波に関係なく、オープンソースを誇りに思わない、あるいは喜ばないプログラマーやエンジニアはいません。

アリババの上級アルゴリズム専門家でオープンソース責任者のリン・ジュンヤン氏はかつて、同益千文の急速な発展の「秘密」は幸福だと語っていた。

Tongyi Thousand Questions Model は、世界中の開発者にサービスを提供し、他の開発者とのコミュニケーションを促進し、具体的な支援を提供するため、開発者一人ひとりからのフィードバックに注意を払い、新しい予期せぬアプリケーションに興奮しながら、喜びと興奮を味わっています。

これは、過去のテクノロジーとインターネットの世界の急速な発展の根本的な理由でもあります。黄金時代には、オープンソースが当たり前であり、オープンソースであることに疑問を抱くことなどありませんでした。

しかし、時代は変わりました。大規模モデルの時代になると、研究開発費、ビジネスモデル、競争といった様々な理由から、クローズドソースの輝きがオープンソースの輝きを凌駕し、クローズドソースが寵児となりました。

したがって、Meta の Llama であれ、Ali Tongyi Qianwen の Qwen であれ、彼らは伝統を復活させ、テクノロジーとインターネット分野の不変の精神と核心を再確認しているのです。

この精神と核心は、Tongyi Qianwen の暗黙の持続可能なフライホイールにも備わっています。

アリババのジョセフ・ツァイ会長は、世界をリードするクラウドコンピューティングおよびAI企業の中で、Googleとアリババだけが、主導的なクラウドビジネスと独自の大規模モデル開発能力の両方を備えていると述べました。MicrosoftやAmazonなど、クラウドサービスを提供する他の企業は、大規模モデルへのアクセスに提携に依存しています。一方、OpenAIやMetaなど、独自の大規模モデルを開発している企業は、主導的なクラウドサービスを持っていません。

世界に2つだけ、中国に1つだけ。

オープンソース エコシステムの推進により、テクノロジの反復が加速し、クラウド コンピューティング サービスがより広範囲に拡張され、テクノロジ モデルとビジネス モデルがフライホイール ループを形成し、既存のインフラストラクチャに基づいて新しいインフラストラクチャを周期的に反復して構築することで、強固で持続可能な競争上の優位性が形成されます。

しかし、オープンソースのビッグモデルの最大の価値と意義は、依然として開発者にあります。十分に強力なオープンソースのビッグモデルがあって初めて、「AI for All(すべての人のためのAI)」や「AIはどこにでもある」といった概念は空論に終わることはありません。

そのため、現時点では、Tongyi Qianwen Qwen2 は世界のオープンソースの成果の頂点に達し、オープンソースがクローズドソースを超える段階を先導し、新しい AI 時代における中国の大規模モデルの競争力を象徴しています。

しかし、より期待される価値は、オープンソースモデルを通じてAIアプリケーションの開発とAIソリューションの実装を可能にし、AIの開発を容易にし、実装を現実のものとすることにあります。これにより、AIの価値が最大限に発揮され、AIの復活と持続的な繁栄の時代が到来し、経済と社会に真の変革をもたらすでしょう。

参考リンク:

https://qwenlm.github.io/zh/blog/qwen2/.