DUICUO

マスク氏がGrok-1をオープンソース化:3140億個のパラメータを持つ、これまでで最大規模の、完全にオープンな重み付けアーキテクチャを採用。(Magnetダウンロードリンク)

約束通り、マスク氏が約束した大規模モデル Grok のオープンソース バージョンがついに登場しました。

今朝早く、イーロン・マスク氏の大手モデル企業 xAI は、3,140 億のパラメータを持つハイブリッド エキスパート (MoE) モデル「Grok-1」を、モデルの重みとネットワーク アーキテクチャとともに正式にオープンソース化すると発表しました。

これにより、Grok-1 はパラメータの数の点でも最大のオープンソース言語モデルとなります。

Grok のヒントに基づいて Midjourney を使用して生成された表紙画像は、透明なノードと光る接続を持つニューラル ネットワークの 3D イラストで、さまざまな重みがさまざまな太さと色の接続線で表現されています。

この時点で、マスク氏は「我々はOpenAIのオープンな部分についてもっと知りたい」と述べ、OpenAIを嘲笑することを忘れなかった。

モデル自体に戻ると、Grok-1はゼロから学習されており、特定の用途(例えば会話)向けに微調整されていません。一方、X(旧Twitter)で利用可能な大規模なGrokモデルは微調整されたバージョンであり、その動作は元の重み付けバージョンとは異なります。

Grok-1 モデルの詳細は次のとおりです。

  • ベースモデルは大量のテキスト データでトレーニングされており、特定のタスク向けに微調整されていません。
  • 3140億のパラメータを持つMoEモデルでは、特定のトークンのアクティベーションウェイトは25%です。
  • 2023 年 10 月、xAI は JAX ライブラリと Rust 言語で構成されるカスタム トレーニング スタックを使用してゼロからトレーニングを行いました。

xAIは、Grok-1の重みとアーキテクチャをApache 2.0ライセンスの下でオープンソース化しています。Apache 2.0ライセンスは、ユーザーが個人または商用目的でソフトウェアを自由に使用、改変、配布することを許可しています。リリースからわずか4時間で、このプロジェクトは3,400個のスターを獲得し、人気は高まり続けています。

プロジェクトアドレス: https://github.com/xai-org/grok-1

このリポジトリには、Grok-1オープンウェイトモデルをロードして実行するためのJAXサンプルコードが含まれています。使用する前に、チェックポイントがダウンロードされ、ckpt-0ディレクトリがチェックポイント内に配置されていることを確認してください。その後、以下のコードを実行してテストしてください。

 pip install -r requirements.txt python run.py

プロジェクトの説明では、Grok-1は大規模なモデル(314Bのパラメータ)であるため、サンプルコードを使用してモデルをテストするには十分なGPUメモリを搭載したマシンが必要であることが明確に強調されています。さらに、このリポジトリのMoEレイヤーの実装はあまり効率的ではありません。この実装は、モデルの正しさを検証するためのカスタムカーネルの必要性を回避するために選択されました。

ユーザーは、トレント クライアントとこのマグネット リンクを使用して、重み付けされたファイルをダウンロードできます。

 magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

これを見て、一部のネットユーザーは、パラメータ314BのGrok-1を実行するにはどのような構成が必要なのか疑問に思い始めました。ある回答では、628GBのGPUメモリ(パラメータあたり2バイト)を搭載したマシンが必要になる可能性があると示唆されていました。これに基づくと、H100を8個(各80GB)使用すれば十分でしょう。

著名な機械学習研究者であり、『Machine Learning with Python』のベストセラー著者でもあるセバスチャン・ラシュカ氏は、次のようにコメントしています。「Grok-1 は、一般的に使用制限がある他のオープン重みモデルよりもオープンソースですが、トレーニング コードと再現可能なデータセットが付属する Pythia、Bloom、OLMo ほどオープンソースではありません。」

DeepMindの研究エンジニアであるアレクサ・ゴルディエ氏は、Grok-1はLLaMA-2よりも強力であると予測していますが、現時点ではどの程度のデータが汚染されているかは不明です。さらに、2つのデータセットのパラメータ数も桁違いです。

別の Twitter ユーザー @itsandrewgao は、Grok-1 アーキテクチャの詳細な分析を提供し、次の点をまとめました。

まず、Grok-1 は、860 億のアクティベーション パラメータ (Llama-2 の 700 億を超える) を持つ 8 人のエキスパート (2 人がアクティブ) のハイブリッドであり、固定位置埋め込みではなく回転埋め込みを使用します。

トークナイザーの語彙サイズは 131,072 (GPT-4 と同様) 2^17、埋め込みサイズは 6,144 (48*128)、トランスフォーマー層は 64 層 (sheesh) で、各層にはデコーダー層 (マルチヘッド アテンション ブロックとデンス ブロック) があり、キー サイズは 128 です。

マルチヘッド・アテンション・ブロック:クエリ用ヘッド48個、キー/値(KV)用ヘッド8個。KVサイズは128。デンス・ブロック(デンス・フィードフォワード・ブロック):拡大係数8、隠れ層サイズ32768。各トークンは8つのエキスパートから2つを選択します。

回転位置の埋め込みサイズは入力の埋め込みサイズと同じ6144です。コンテキスト長は8192トークンで、精度はbf16です。

さらに、重み付けされた 8 ビット量子化コンテンツもいくつか提供されます。

もちろん、xAI が Grok-1 モデルに関する詳細情報をできるだけ早く公開してくれることを期待しています。

Grok-1とは何ですか?どのような機能がありますか?

Grokは、Musk xAIチームが昨年11月にリリースした大規模言語モデルです。昨年11月の公式発表ブログ(「Musk xAIが大規模モデルの詳細な進捗を発表、Grokはわずか2ヶ月で学習」参照)で、xAIは次のように述べています。

Grokは『銀河ヒッチハイク・ガイド』をモデルにしたAIで、ほぼあらゆる質問に答えることができます。さらに驚くべきことに、どのような質問をすべきかを提案してくれるのです!


Grok の回答は少しウィットに富んでいて反抗的なので、ユーモアが嫌いな場合は使用しないでください。


Grokのユニークかつ根本的な利点の一つは、Xプラットフォームを通じて世界をリアルタイムで学習できることです。また、他のほとんどのAIシステムが答えることを拒否するような、掘り下げた質問にも答えることができます。


Grok はまだ非常に初期のベータ版です。これは 2 か月のトレーニングで達成できた最善の結果です。皆さんの協力があれば、テストで急速に改善されると思います。

xAIによると、Grok-1の開発には4ヶ月かかったとのことです。この期間中、Grok-1は複数回のイテレーションを経ました。

xAIの設立を発表した後、彼らは330億パラメータのLLMプロトタイプであるGrok-0を学習しました。この初期モデルは、標準的なLMベンチマークにおいてLLaMA 2(700億)の能力に迫りましたが、学習リソースは半分しか使用しませんでした。その後、モデルの推論およびエンコード機能に大幅な改良を加え、最終的に、HumanEvalエンコードタスクで63.2%、MMLUで73%の精度を達成した、より強力な最先端の言語モデルであるGrok-1を開発しました。

xAI は、数学および推論能力を測定するために設計されたいくつかの標準的な機械学習ベンチマークを使用して、Grok-1 の一連の評価を実施しました。

これらのベンチマークテストにおいて、Grok-1はChatGPT-3.5やInflection-1を含む、同クラスの他のすべてのモデルを上回る優れたパフォーマンスを示しました。GPT-4のように、大量の学習データと計算リソースを用いて学習されたモデルのみがGrok-1を上回ることができました。xAIは、これはLLMの効率的な学習における急速な進歩を示すものだと述べています。

しかし、xAIはこれらのベンチマークはオンラインで入手可能であるため、モデルが意図せずこのデータでトレーニングされた可能性も排除できないと述べています。そのため、データセットを収集した後、昨年5月末(データ締め切り後)に公開された2023年度ハンガリー国立高校数学期末試験問題に基づいて、モデル(およびClaude-2モデルとGPT-4モデル)を手動で採点しました。その結果、GrokはC(59%)の成績で試験に合格し、Claude-2は同様の結果(55%)を達成し、GPT-4は68%のスコアでBの成績を達成しました。xAIは、この試験のためにモデルを特別に準備または調整しなかったと述べています。

以下の表は、Grok-1 に関する詳細情報を示しています (2023 年 11 月のブログ投稿から。一部の情報は更新される可能性があります)。

  • モデルの詳細:Grok-1はTransformerベースの自己回帰モデルです。xAIは、人間からの広範なフィードバックと以前のGrok-0モデルを用いてこのモデルを微調整しました。初期のGrok-1は、8192トークンのコンテキスト長を処理できました。このモデルは2023年11月にリリースされました。
  • 使用目的: Grok-1 は、質問への回答、情報検索、クリエイティブ ライティング、コーディング支援などの自然言語処理タスクのための Grok のエンジンとして機能します。
  • 制限事項:Grok-1は情報処理に優れていますが、正確性を確保するためには人間によるGrok-1の作業内容のレビューが不可欠です。Grok-1言語モデルは、ネットワークを独自に探索する能力を欠いています。Grokに検索ツールとデータベースを導入することで、モデルの機能とリアリティを高めることができます。外部情報源にアクセスできるにもかかわらず、モデルは錯覚を生み出す可能性があります。
  • トレーニング データ: Grok-1 リリースで使用されるトレーニング データは、2023 年第 3 四半期までのインターネット データと、xAI の AI トレーナーによって提供されたデータから取得されます。
  • 評価:xAIは、Grok-1を様々な推論ベンチマークタスクと国際数学試験問題で評価しました。彼らは初期のアルファテスターと協力し、敵対的テストを含むGrok-1のバージョンを評価しました。現在、Grokは厳選された初期ユーザーグループにクローズドテストへのアクセスを開放しており、テスト対象者をさらに拡大しています。

xAIはブログ投稿で、Grokの構築エンジニアリング作業とxAIの全体的な研究方向も発表しました。その中でも、長いコンテキストの理解と検索、そしてマルチモーダル機能などは、今後検討される方向性の一部です。

xAI は、Grok に対するビジョンは、人類が理解と知識を求めるのに役立つ AI ツールを作成することだと述べています。

具体的には、以下の目標を達成したいと考えています。

  • 彼らは、AIツールが人類に最大限の恩恵をもたらすよう、フィードバックを収集しています。多様な背景や政治的見解を持つ人々にとって有用なAIツールを設計することが不可欠だと考えています。また、法的規制を遵守しながら、AIツールを通じてユーザーに力を与えたいと考えています。Grokの目標は、このアプローチを探求し、公に実証することです。
  • 研究とイノベーションの能力を強化する: Grok がすべての人にとって強力な研究アシスタントとなり、関連情報を迅速に取得し、データを処理し、新しいアイデアを生み出すのに役立つことを期待しています。

彼らの最終的な目標は、AI ツールが人々の理解を助けることです。

Xプラットフォームでは、Grok-1のオープンソースリリースが大きな議論を巻き起こしました。特に技術コミュニティでは、このモデルがフィードフォワード層にGeGLUを使用し、正規化に興味深いサンドイッチノルム手法を採用していることが指摘されています。OpenAIの従業員でさえ、このモデルへの関心を示す投稿をしています。

しかし、Grok のオープンソース バージョンでは、現在 X プラットフォームに展開されている有料版のサブスクリプションを必要とする「X プラットフォームを通じて世界をリアルタイムで学習する」など、できないことがまだいくつかあります。

マスク氏のオープンソースに対する前向きな姿勢を考えると、一部の技術者はすでに後続バージョンのオープンソースリリースを期待している。