|
Alibaba がまた大きなモデルをオープンソース化しました! 今回は純粋に大規模な言語モデルであり、以前の 70 億と比較して 140 億のパラメータを備えています。 その名前はQwen-14Bで、340億のパラメータを持つMetaのLlama 2バージョンを直接上回り、一連のタスクリーダーボードですぐに1位を獲得しました。 Qwen-14Bのトレーニングデータは中国語と英語を含めて3兆トークンに達し、シーケンスの長さは8192に達しました。 使い方は以前と同じで、完全にオープンソースで無料で使用でき、現在、Moda コミュニティでデモ版を試用できます。 写真 AlibabaのQwenはMetaのLlamaに少し匹敵するくらいで、完全な「国産大規模オープンソースシリーズ」を目指しているようです。 では、Qwen-14Bはどれほど効果的なのでしょうか?試してみましょう。 340億を超える10のリスト ラマ2まずはQwen-14Bの全体的なパフォーマンスを見てみましょう。 Llama 2 は一連の素晴らしい成果を達成していますが、少なくとも公式バージョンでは、まだ中国語を話す機能はありません。 写真 そこで、まずはQwen-14Bの中国語能力を見て、その後他の科目のレベルをテストしてみましょう。 いつものように、基本的なベンチマークは次のとおりです。 写真 Qwen-14Bもこれを正確に処理できるようです。少し難しい中国語の読解問題です。 写真 かなりいい感じでしたし、文法の間違いも訂正してくれました(冗談です)。 では、数学の問題ではどうだったでしょうか?簡単なニワトリとウサギの問題に挑戦してみましょう。 写真 パフォーマンスは十分でした。もう少し難しい論理パズルに挑戦してみましょう。以前誰かがテストしたところ、60個の大きなモデルすべてが不正解だったそうです。 質問は次のとおりです。
追記:この質問の正解は 1 です。 誤って実装された一連の大規模モデルの中には、GPT-4、Claude 2、Llama 2 などがありました。 写真 残念ながら、Qwen-14Bもここでは生産されませんでした。 写真 しかし、そのコーディング能力は非常に優れています。たとえば、スネークゲームのコードを書くように依頼すると、次のようになります。 写真 すぐに、コメント付きの完全なバージョンの Snake ゲーム コードが提供されました。 試してみましたが、完璧に動作しました。 写真 Qwen-7B と同様に、Qwen-14B は単なる対話機能以上の機能を備えていると理解されています。 前述の機能に加えて、Qwen-14B は独自にツールを呼び出すことも学習しました。 たとえば、コード インタープリタ ツールを使用して Python コードを実行し、数学的な計算、データ分析、データ チャートの作成を直接実行できます。 写真 チームはQwen-14Bの外部システムとのインターフェース機能もアップグレードしました。複雑なプラグインをわずか数ステップで呼び出すことができるだけでなく、エージェントなどのAIシステムを開発し、複雑なタスクを完了するためのベースモデルとして使用することもできます。 実際、その背後にある Qwen-14B モデルもチャートのトップに立つ名人です。 大規模マルチタスク言語評価ランキング(MMLU)や中国語基礎能力評価データセット(C-Eval)などの言語能力テストセットに含まれているかどうか。 または、GSM8K の小学校の算数の加算、減算、乗算、除算の問題や、MATH のような数学コンテストのデータセットなど、他の科目の数学でも使用できます。 写真 写真 彼は10のリストすべてでトップの座を獲得した。 それで、Qwen-14B は具体的にどのように作られたのでしょうか? トレーニングデータは3兆トークンを超える技術的な詳細を理解するには、まず Qwen-14B のアーキテクチャとトレーニング データから始める必要があります。 140 億のパラメータを持つ大規模モデルである Qwen-14B の構造の詳細は次のようになります。 写真 全体的なアーキテクチャに関しては、チームは、Google の PaLM や Meta の Llama など、現在のオープンソースの大規模モデルの「魔法のようなデザイン」のいくつかからインスピレーションを得ました。 Qwen-14B の設計には、SwiGLU の活性化関数設計や ROPE の位置エンコーディングなどの機能が含まれています。 さらに、チームは語彙と長シーケンスデータモデリングを最適化しました。語彙サイズは15万語を超え、必要なトークン数をさらに削減しました。 長いシーケンス データのモデリングでは、より安定したモデル パフォーマンスを確保するために、Dynamnic NTK、Log-N アテンション スケーリング、ウィンドウ アテンションなど、現在利用可能な最も効果的な方法のいくつかが採用されています。 このため、モデルには 140 億の要素しかありませんが、シーケンスの長さは 8192 に達する可能性があります。 達成された良好な結果は、Qwen-14B のトレーニング データとも切り離せないものです。 Qwen-14B は 3 兆トークンを超えるデータを使用してトレーニングされました。 これには、中国語、数学、英語などの基礎科目だけでなく、物理学、化学、生物学、政治学、歴史学、地理学など多くの科目の知識、さらにはコーディングの知識も含まれており、9年間の義務教育(マニュアル・ドージェ・ヘッド)を直接受けます。 さらに、チームは大規模なデータ重複排除、スパムテキストのフィルタリング、高品質データの割合の増加など、多くのデータ処理作業を行いました。 一方、モデルがツールの呼び出しをより適切に学習し、メモリ機能を強化するために、チームは微調整サンプルを最適化し、Qwen-14Bの不安定なパフォーマンスを識別するためのより包括的な自動評価ベンチマークを確立し、特にSelf-Instructメソッドを使用して高品質の微調整サンプルを拡張しました。 実際、これは Tongyi Thousand Questions シリーズのオープンソースの第 3 波となります。 アリババクラウドは8月初旬、中国語・英語共通モデルQwen-7Bと対話モデルQwen-7B-Chatをオープンソース化した。 写真 Qwen-7B は 8K のコンテキスト長をサポートし、テキスト、コード、その他のタイプを含む 2.2 兆トークン以上のデータセットでトレーニングされており、プラグイン呼び出しやエージェントなどの AI システムの開発もサポートしています。 プロジェクトがオープンソース化されるとすぐに、GitHub のトレンドリストのトップに躍り出て、すでに 4,000 個のスターを獲得しています。 写真 (注目すべきは、Alibaba Cloud は今回、Qwen-14B のリリースに加えて、Qwen-7B もアップグレードしたことです。) そして8月末、アリババクラウドは大規模なビジュアル言語モデルであるQwen-VLをリリースした。 Qwen-VLはQwen-7B言語モデルに基づいて開発されており、画像、テキスト、バウンディングボックスなど、様々な入力をサポートし、テキストに加えてバウンディングボックスの出力もサポートしています。 写真 デモから判断すると、Qwen-VL には、中国語と英語の対話やコード画像の理解など、複数の機能があります。 写真 Alibaba の Qwen オープンソース モデル シリーズに興味のある方は、プロジェクトのホームページにアクセスして試してみることができます。 プレイ可能なデモはこちら: 参考リンク: |