DUICUO

Alibaba の Qwen2 は正式にオープンソース化され、そのパフォーマンスは Llama-3 を完全に上回りました。

スタンフォード大学のチームが清華大学の大規模モデルを「殻」として利用したことをめぐる論争の高まりを受け、中国のモデルは世界的に注目を集め始めている。中国が既に成熟した大規模モデルを数多く保有し、他国のモデルに追いついていることに、多くの人が気づいている。

HuggingFaceプラットフォームおよびコミュニティの責任者であるOmar Sanseviero氏はかつて、AIコミュニティは中国の機械学習エコシステムの成果を「無視」してきたと述べました。中国の機械学習エコシステムは、Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyuanDiTなど、興味深い大規模言語モデル、大規模視覚モデル、音声および拡散モデルを使用して、驚くべき成果を上げています。

本日、アリババクラウド同義千文チームによる大規模モデル「Qwen2」のオープンソース化のニュースが、多くのAI開発者の注目を集めています。Qwen2-72Bは、著名なオープンソースモデル「Llama3-70B」を凌駕する性能を誇り、さらにWenxin 4.0、Doubao Pro、Hunyuan Proといった国内のクローズドソース大規模モデルも凌駕しています。同義千文の最新オープンソースモデルは、Moda CommunityとHugging Faceから誰でも無料でダウンロードできます。

今年2月にリリースされたQwen1.5と比較すると、Qwen2は全体的な性能において世代を超えた飛躍を遂げています。さらに、上海人工知能研究所が発表した権威あるモデルベンチマークリストであるOpenCompassにおいて、以前はオープンソースであったQwen1.5-110Bは、Wenxin 4.0を含む多くの国内のクローズドソースモデルを既に上回っています。これはQwen2の優れた性能を実証しています。

OpenCompass の大規模モデル評価リストでは、以前はオープンソースだった Qwen1.5-110B が、Wenxin 4.0 などの多くの国内のクローズドソース モデルよりも優れたパフォーマンスを示しました。

この Qwen2 シリーズには、Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72Bの 5 つのサイズの基本モデルと命令調整モデルが含まれています

Moda コミュニティ モデルのダウンロード リンク:

  • Qwen2-72B https://modelscope.cn/models/qwen/Qwen2-72B
  • Qwen2-72B-Instruct https://modelscope.cn/models/qwen/Qwen2-72B-Instruct

従来のQwen1.5シリーズでは、32Bおよび110BモデルのみがGQA(Grouped-Query Attention)を採用していました。しかし、今回のQwen2シリーズでは、全てのサイズのモデルでGQAを採用しました。これにより、推論速度の向上やメモリ使用量の削減といったGQAのメリットをより手軽に体感いただけます。また、小規模モデルでは埋め込みパラメータの数が多いため、入力層と出力層でパラメータを共有できるTie Embeddingを採用し、非埋め込みパラメータの割合を高めています。

さらに、すべての事前学習済みモデルは32Kトークンのデータで学習されましたが、研究チームは128KトークンのPPL評価でも良好なパフォーマンスを発揮することを発見しました。ただし、命令微調整モデルの場合、PPL評価に加えて、「干し草の山の中の針」のような長いシーケンス理解実験も必要です。この表では、著者らは「干し草の山の中の針」テスト結果に基づいて、各命令微調整モデルがサポートする最大コンテキスト長をリストしています。YARNなどの手法を使用する場合、Qwen2-7B-InstructとQwen2-72B-Instructはどちらも最大128Kトークンのコンテキスト長をサポートします。

研究チームは、モデルの多言語対応能力を強化するため、多言語事前学習および指示微調整データのスケールアップと品質向上に多大な労力を費やしました。大規模言語モデルは本質的にある程度の汎化能力を備えていますが、特に中国語と英語以外の27言語を強化し、多言語シナリオにおける一般的なコードスイッチング問題を最適化することで、モデルにおけるコードスイッチングの確率を大幅に低減しました。コードスイッチングを容易に引き起こすプロンプトを用いたテストでは、Qwen2シリーズモデルのこの分野における能力が大幅に向上していることが明らかになりました。

パフォーマンスの概要

事前学習済み言語モデルの評価において、Qwen2-72Bは、自然言語理解、知識処理、コード処理、数学的処理、多言語サポートなど、複数の機能において、Llama-3-70BやQwen1.5の最大モデルであるQwen1.5-110Bといった現在の主要モデルを大幅に上回りました。これは、事前学習データと学習手法の最適化によるものです。

大規模な事前学習の後、研究チームはモデルの知能を向上させ、より人間に近いパフォーマンスを実現するために微調整を行いました。このプロセスにより、コーディング、数学、推論、指示追従、多言語理解といった能力がさらに向上しました。この微調整プロセスは、スケーラブルな学習の原則に従いながら、手動によるアノテーションを最小限に抑えることで実現しました。

研究チームは、数学における拒否サンプリング、コードと指示の遵守状況に関するコード実行フィードバック、クリエイティブライティングにおけるバックトランスレーション、ロールプレイングにおけるスケーラブルな監視など、高品質で信頼性が高く創造的な指導と嗜好のデータを取得するための様々な自動化手法を検討しました。トレーニングでは、教師ありファインチューニング、フィードバックモデルトレーニング、オンラインDPO手法を組み合わせ、さらにオンラインモデルマージによってアライメントコストを削減しました。

Qwen2-72B-Instructは、16のベンチマークテストで非常に優れたパフォーマンスを発揮し、基本機能の向上と人間の価値観との整合性を良好なバランスで実現しました。Qwen1.5の72Bモデルと比較すると、Qwen2-72B-Instructは全てのベンチマークで大幅に優れた性能を示し、Llama-3-70B-Instructに匹敵する性能を達成しました。小型モデルに関しては、Qwen2シリーズは、同規模のオープンソースモデル、さらには大型モデルの中でも最高の性能を発揮します。最近リリースされた業界をリードするモデルと比較すると、Qwen2-7B-Instructは複数のベンチマーク、特にコードと中国語の理解において、依然として大きな優位性を維持しています。

コード面では、Qwen2はCodeQwen 1.5の成功事例を取り入れ、複数のプログラミング言語で大幅なパフォーマンス向上を実現しました。数学面では、大規模かつ高品質なデータにより、Qwen2-72B-Instructは数学的問題解決能力を飛躍的に向上させました。

Qwen2シリーズのすべてのInstructモデルは、32kのコンテキスト長で学習され、YARNやDual Chunk Attentionなどの技術を用いて、より長いコンテキスト長に拡張されています。下の図は、Needle in a Haystackテストセットでの結果を示しています。特に、Qwen2-72B-Instructは、128kのコンテキスト長での情報抽出タスクを完璧に処理できることが分かります。

さらに、Qwen2 シリーズの他のモデルも非常に優れたパフォーマンスを発揮します。Qwen2-7B-Instruct は最大 128k のコンテキストをほぼ完璧に処理します。Qwen2-57B-A14B-Instruct は最大 64k の長さのコンテキストを処理できます。また、このシリーズの 2 つの小型モデルは最大 32k の長さのコンテキストをサポートします。

Qwen2は2023年8月のオープンソースリリース以来、国内のオープンソースコミュニティに大きな影響を与えただけでなく、グローバルなオープンソースコミュニティにおいても重要な位置を占めています。本日、Qwen2シリーズモデルのAPIがAlibaba CloudのBailianプラットフォーム上で公開されました。Llamaオープンソースエコシステムに加え、世界中の開発者にとって新たな選択肢が生まれました。