|
約束通り、マスク氏が約束した大規模モデル Grok のオープンソース バージョンがついに登場しました。 今朝早く、イーロン・マスク氏の大手モデル企業 xAI は、3,140 億のパラメータを持つハイブリッド エキスパート (MoE) モデル「Grok-1」を、モデルの重みとネットワーク アーキテクチャとともに正式にオープンソース化すると発表しました。 これにより、Grok-1 はパラメータの数の点でも最大のオープンソース言語モデルとなります。 Grok のヒントに基づいて Midjourney を使用して生成された表紙画像は、透明なノードと光る接続を持つニューラル ネットワークの 3D イラストで、さまざまな重みがさまざまな太さと色の接続線で表現されています。 この時点で、マスク氏は「我々はOpenAIのオープンな部分についてもっと知りたい」と述べ、OpenAIを嘲笑することを忘れなかった。 モデル自体に戻ると、Grok-1はゼロから学習されており、特定の用途(例えば会話)向けに微調整されていません。一方、X(旧Twitter)で利用可能な大規模なGrokモデルは微調整されたバージョンであり、その動作は元の重み付けバージョンとは異なります。 Grok-1 モデルの詳細は次のとおりです。
xAIは、Grok-1の重みとアーキテクチャをApache 2.0ライセンスの下でオープンソース化しています。Apache 2.0ライセンスは、ユーザーが個人または商用目的でソフトウェアを自由に使用、改変、配布することを許可しています。リリースからわずか4時間で、このプロジェクトは3,400個のスターを獲得し、人気は高まり続けています。 プロジェクトアドレス: https://github.com/xai-org/grok-1 このリポジトリには、Grok-1オープンウェイトモデルをロードして実行するためのJAXサンプルコードが含まれています。使用する前に、チェックポイントがダウンロードされ、ckpt-0ディレクトリがチェックポイント内に配置されていることを確認してください。その後、以下のコードを実行してテストしてください。 プロジェクトの説明では、Grok-1は大規模なモデル(314Bのパラメータ)であるため、サンプルコードを使用してモデルをテストするには十分なGPUメモリを搭載したマシンが必要であることが明確に強調されています。さらに、このリポジトリのMoEレイヤーの実装はあまり効率的ではありません。この実装は、モデルの正しさを検証するためのカスタムカーネルの必要性を回避するために選択されました。 ユーザーは、トレント クライアントとこのマグネット リンクを使用して、重み付けされたファイルをダウンロードできます。 これを見て、一部のネットユーザーは、パラメータ314BのGrok-1を実行するにはどのような構成が必要なのか疑問に思い始めました。ある回答では、628GBのGPUメモリ(パラメータあたり2バイト)を搭載したマシンが必要になる可能性があると示唆されていました。これに基づくと、H100を8個(各80GB)使用すれば十分でしょう。 著名な機械学習研究者であり、『Machine Learning with Python』のベストセラー著者でもあるセバスチャン・ラシュカ氏は、次のようにコメントしています。「Grok-1 は、一般的に使用制限がある他のオープン重みモデルよりもオープンソースですが、トレーニング コードと再現可能なデータセットが付属する Pythia、Bloom、OLMo ほどオープンソースではありません。」 DeepMindの研究エンジニアであるアレクサ・ゴルディエ氏は、Grok-1はLLaMA-2よりも強力であると予測していますが、現時点ではどの程度のデータが汚染されているかは不明です。さらに、2つのデータセットのパラメータ数も桁違いです。 別の Twitter ユーザー @itsandrewgao は、Grok-1 アーキテクチャの詳細な分析を提供し、次の点をまとめました。 まず、Grok-1 は、860 億のアクティベーション パラメータ (Llama-2 の 700 億を超える) を持つ 8 人のエキスパート (2 人がアクティブ) のハイブリッドであり、固定位置埋め込みではなく回転埋め込みを使用します。 トークナイザーの語彙サイズは 131,072 (GPT-4 と同様) 2^17、埋め込みサイズは 6,144 (48*128)、トランスフォーマー層は 64 層 (sheesh) で、各層にはデコーダー層 (マルチヘッド アテンション ブロックとデンス ブロック) があり、キー サイズは 128 です。 マルチヘッド・アテンション・ブロック:クエリ用ヘッド48個、キー/値(KV)用ヘッド8個。KVサイズは128。デンス・ブロック(デンス・フィードフォワード・ブロック):拡大係数8、隠れ層サイズ32768。各トークンは8つのエキスパートから2つを選択します。 回転位置の埋め込みサイズは入力の埋め込みサイズと同じ6144です。コンテキスト長は8192トークンで、精度はbf16です。 さらに、重み付けされた 8 ビット量子化コンテンツもいくつか提供されます。 もちろん、xAI が Grok-1 モデルに関する詳細情報をできるだけ早く公開してくれることを期待しています。 Grok-1とは何ですか?どのような機能がありますか?Grokは、Musk xAIチームが昨年11月にリリースした大規模言語モデルです。昨年11月の公式発表ブログ(「Musk xAIが大規模モデルの詳細な進捗を発表、Grokはわずか2ヶ月で学習」参照)で、xAIは次のように述べています。
xAIによると、Grok-1の開発には4ヶ月かかったとのことです。この期間中、Grok-1は複数回のイテレーションを経ました。 xAIの設立を発表した後、彼らは330億パラメータのLLMプロトタイプであるGrok-0を学習しました。この初期モデルは、標準的なLMベンチマークにおいてLLaMA 2(700億)の能力に迫りましたが、学習リソースは半分しか使用しませんでした。その後、モデルの推論およびエンコード機能に大幅な改良を加え、最終的に、HumanEvalエンコードタスクで63.2%、MMLUで73%の精度を達成した、より強力な最先端の言語モデルであるGrok-1を開発しました。 xAI は、数学および推論能力を測定するために設計されたいくつかの標準的な機械学習ベンチマークを使用して、Grok-1 の一連の評価を実施しました。 これらのベンチマークテストにおいて、Grok-1はChatGPT-3.5やInflection-1を含む、同クラスの他のすべてのモデルを上回る優れたパフォーマンスを示しました。GPT-4のように、大量の学習データと計算リソースを用いて学習されたモデルのみがGrok-1を上回ることができました。xAIは、これはLLMの効率的な学習における急速な進歩を示すものだと述べています。 しかし、xAIはこれらのベンチマークはオンラインで入手可能であるため、モデルが意図せずこのデータでトレーニングされた可能性も排除できないと述べています。そのため、データセットを収集した後、昨年5月末(データ締め切り後)に公開された2023年度ハンガリー国立高校数学期末試験問題に基づいて、モデル(およびClaude-2モデルとGPT-4モデル)を手動で採点しました。その結果、GrokはC(59%)の成績で試験に合格し、Claude-2は同様の結果(55%)を達成し、GPT-4は68%のスコアでBの成績を達成しました。xAIは、この試験のためにモデルを特別に準備または調整しなかったと述べています。 以下の表は、Grok-1 に関する詳細情報を示しています (2023 年 11 月のブログ投稿から。一部の情報は更新される可能性があります)。
xAIはブログ投稿で、Grokの構築エンジニアリング作業とxAIの全体的な研究方向も発表しました。その中でも、長いコンテキストの理解と検索、そしてマルチモーダル機能などは、今後検討される方向性の一部です。 xAI は、Grok に対するビジョンは、人類が理解と知識を求めるのに役立つ AI ツールを作成することだと述べています。 具体的には、以下の目標を達成したいと考えています。
彼らの最終的な目標は、AI ツールが人々の理解を助けることです。 Xプラットフォームでは、Grok-1のオープンソースリリースが大きな議論を巻き起こしました。特に技術コミュニティでは、このモデルがフィードフォワード層にGeGLUを使用し、正規化に興味深いサンドイッチノルム手法を採用していることが指摘されています。OpenAIの従業員でさえ、このモデルへの関心を示す投稿をしています。 しかし、Grok のオープンソース バージョンでは、現在 X プラットフォームに展開されている有料版のサブスクリプションを必要とする「X プラットフォームを通じて世界をリアルタイムで学習する」など、できないことがまだいくつかあります。 マスク氏のオープンソースに対する前向きな姿勢を考えると、一部の技術者はすでに後続バージョンのオープンソースリリースを期待している。 |