DUICUO

マスク氏が突如として Grok をオープンソース化。3,140 億のパラメータを持つ巨大ソフトウェアで、無料かつ商業的に実現可能。

マスク氏は有言実行だ。

大規模モデルキット Grok がオープンソースになりました。

コードとモデルの重みはGitHubで公開されています。公式情報によると、オープンソースのGrok-1は3140億個のパラメータを持つハイブリッドエキスパートモデルです。

つまり、これは現在のオープンソース モデルの中で最もパラメータ数が多いモデルです。

ニュースが報じられて以来、Grok-1 の GitHub リポジトリは 4,500 個のスターを獲得しており、その数は今も急速に増加し続けています。

このミームはネットユーザーによって急速に広まった。

ChatGPT 自体も Grok のコメント セクションに登場し、Musk とのまたしてもおしゃべりの日々が始まりました...

それでは、これ以上長々と話さずに、マスク氏が OpenAI に対抗するためにどのような実質的な内容を考え出したのか見てみましょう。

Grok-1 は必要に応じてオープンソース化しました。

このオープンソースリリースでは、xAI は Grok-1 の基本モデルの重みとネットワーク アーキテクチャを公開しました。

具体的には、2023年10月の事前トレーニング段階からのオリジナルベースモデルであり、特定のアプリケーション(対話など)向けの微調整は行われていません。

Grok-1は構造的にハイブリッドエキスパート(MoE)アーキテクチャを採用しており、合計314B (3140億)のパラメータを持つ8つのエキスパートで構成されています。トークン処理時には、86Bのパラメータを持つ2つのエキスパートがアクティブ化されます。

有効化されたパラメータの数だけを見ても、すでに高密度モデル Llama 2 の 70B を超えています。MoE アーキテクチャにとって、このようなパラメータの数はまさに巨大です。

ただし、公式 GitHub ページでは、モデル サイズが大きい (314B パラメータ) ため、Grok を実行するには十分な GPU とメモリを備えたマシンが必要であるとも述べられています。

ここでのMoE層の実装効率は高くありません。この実装方法は、モデルの正しさを検証する際にカーネルをカスタマイズする必要を回避するために選択されました。

モデルの重みファイルはマグネットリンクとして提供されており、ファイルサイズは 300 GB 近くになります。

さらに、「十分な GPU」に対する要件は非常に高く、YC の一部ネットユーザーは、8 ビットの量子化の場合、8 個の H100 GPU が必要になる可能性があると推測しました。

Grok は、前例のない数のパラメータに加えて、エンジニアリング アーキテクチャに対しても独自のアプローチを採用しています。

彼らは、Python、PyTorch、Tensorflow などの一般的な言語を使用する代わりに、Rust プログラミング言語と注目のディープラーニング フレームワーク JAX を選択しました。

公式発表以外にも、多くの専門家がGrokのコードを分析して、より技術的な詳細を明らかにしています。

たとえば、スタンフォード大学の Andrew Kean Gao 氏は、Grok の技術的な側面について詳細な説明を提供しました。

まず、Grokは固定位置埋め込みではなく回転埋め込み法を使用します。回転埋め込みのサイズは6144で、入力埋め込みと同じです。

もちろん、さらに多くのパラメータ情報があります。

  • ウィンドウの長さは 8192 トークン、精度は bf16 です。
  • Tokenizer 語彙のサイズは 131072 (2^17) で、GPT-4 のサイズに近いです。
  • 埋め込みサイズは6144(48×128)です。
  • Transformer には 64 層があり、各層にはマルチヘッド アテンション ブロックと密なブロックを含むデコーダー層があります。
  • キーと値のペアのサイズは 128 です。
  • マルチヘッド アテンション ブロックには、クエリ用のヘッドが 48 個、キーと値のペア (KV) 用のヘッドが 8 個あり、KV サイズは 128 です。
  • 密ブロック(密フィードフォワードブロック)の拡張係数は 8、隠れ層のサイズは 32768 です。

Gao 氏のほか、NVIDIA の AI 科学者 Ethan He 氏も、Grok はエキスパート システムの処理能力において、別の有名なオープンソース MoE モデルである Mixtral とは異なると指摘しました。

Grok は 8 人のエキスパート全員にソフトマックス関数を適用し、上位 2 人のエキスパートを選択しますが、Mixtral は最初にエキスパートを選択してからソフトマックス関数を適用します。

さらに詳しい情報が発表されるかどうかについては、公式チャンネルからさらなる情報が発表されるのを待つ必要があります。

さらに、Grok-1 は Apache 2.0 ライセンスを使用しているため、商業的に適していることも言及する価値があります。

怒りのオープンAI

皆さんご存知のとおり、マスク氏は OpenAI が十分にオープンではないとして、サンフランシスコ上級裁判所に OpenAI を提訴しました。

しかし、当時、マスク氏自身のGrokはオープンソースではなく、𝕏の有料ユーザーのみが利用可能だったため、必然的に二重基準の非難につながりました。

おそらくこのバグを修正するために、マスク氏は先週次のように発表した。

今週、xAI は Grok をオープンソース化します。

このタイミングはマスク氏の遅い登場の典型的な例だが、xAIの「オープン」発表は単なる空論以上のものとなり、ネットユーザーにちょっとした衝撃を与えている。

xAI の新入社員は次のように述べました。

今年は刺激的な一年になりそうですので、しっかり準備してください!

オープンソース モデルである Grok が、大規模モデル間の競争をさらに激化させるだろうと、すでに予想している人もいます。

しかし、誰もがマスク氏の主張を信じているわけではない。

しかし、それにもかかわらず、複数の目標を同時に追求しているマスク氏は、最近、Grok をオープンソース化する以外にもやるべきことがたくさんあります。

複数の企業や事業で時間管理の達人として知られるイーロン・マスク率いるテスラは、エンドツーエンドのビジョンベースの完全自動運転(FSD)V12システムを全ラインナップに導入しました。北米のすべてのオーナーは、無線(OTA)アップデートを受けられるようになり、あらゆる道路状況でポイントツーポイントのAI運転が可能になります。

SpaceXは3回目のスターシップ打ち上げを完了したが、最終的には失敗に終わったものの、前例のない前進となった。

その後、Twitter は推奨アルゴリズムをオープンソース化し、オーガニック トラフィックが急増しました。

「できるならやれ、できないなら口にするな」と言う人がいるが、マスク氏は違う。ただ口で言ってやるのではなく、全てを実践し、成功する。

参考リンク:
[1]https://github.com/xai-org/grok-1。
[2]https://x.ai/blog/grok-os.