これはおそらく、オープンソースの大規模モデル LLM に関する最も包括的な概要です。

LLM（Large Language Model）は、自然言語テキストの理解と生成に使用される、大規模でパラメータ豊富なディープニューラルネットワークモデルを指します。強力な言語理解・生成能力により、自然言語処理（NLP）において幅広い応用が可能で、翻訳、質問応答、テキスト要約、対話、テキスト分類、感情分析、コード生成、コンテンツ作成支援など、様々な複雑なテキストタスクを処理できます。主な機能と特徴は以下のとおりです。

建築上の特徴:

LLMは、主にVaswaniらが2017年の論文「Attention is All You Need」で提唱したTransformerアーキテクチャに基づいています。Transformerは、自己注意メカニズムを通じてテキスト内の長距離依存関係を捕捉し、リカレントニューラルネットワーク（RNN）のような単語単位の再帰処理の必要性を排除することで、並列計算を可能にし、学習と推論の速度を大幅に向上させます。代表的なLLM構造には以下が含まれます。

エンコーダ・デコーダアーキテクチャ：機械翻訳に用いられるモデルなど。エンコーダは入力テキストを固定長のコンテキストベクトルにエンコードし、デコーダはこのコンテキストベクトルに基づいてターゲット言語のテキスト出力を生成します。
BERTなどのエンコーダのみのアーキテクチャは、主にテキスト理解タスク、例えばテキスト分類、固有表現抽出、質問応答システムにおける質問理解などに用いられます。エンコーダのみのモデルは、入力テキスト全体を双方向にエンコードし、コンテキスト情報を含む隠れ状態を生成します。これらの隠れ状態は、後続のタスク固有の層（分類層、ラベリング層など）で予測に使用されます。
GPTシリーズモデルのようなデコーダーのみのアーキテクチャは、テキスト生成、文の補完、記事の執筆といったタスクに使用されます。これらのモデルは、与えられたプロンプトや先行するコンテキストに基づいて、連続的なテキスト出力を直接生成します。

パラメータサイズ

LLMの「大規模」な性質は、その膨大なパラメータ数にあります。パラメータ数は通常、数十億から数千億に及びます。例えば、GPT-3（Generative Pretrained Transformer 3）は約1750億のパラメータを持ちますが、GPT-4、PaLM、Chinchilla、Alibaba CloudのTongyi Qianwenといった最近のモデルでは、さらに多くのパラメータを持つ場合があります。この膨大なパラメータ数により、モデルはより豊富な言語規則やパターンを学習することができ、汎化能力と複雑な言語構造を表現する能力が向上します。

事前トレーニングと微調整

LLM は通常、「事前トレーニング - 微調整」パラダイムに従います。

事前トレーニング: モデルはまず、大規模なラベルなしテキストデータ (インターネット、書籍、百科事典などからクロールされたテキストなど) に対して自己教師学習を実行し、自己回帰言語モデリングタスク (次の単語の確率を予測) またはマスク言語モデリングタスク (マスクされた単語の確率を予測) を通じて言語の一般的な表現を学習します。
微調整: 事前トレーニング済みモデルは、特定のタスクに合わせて微調整できます。つまり、特定のドメインのラベル付きデータでさらにトレーニングし、質問応答システムでの回答生成やテキスト分類タスクでのラベル予測など、特定のタスクのニーズに合わせてモデルパラメータを調整します。

アプリケーションシナリオ

LLM は主に次のシナリオで使用されます。

テキストを生成: 詩、物語、ニュース記事、コードスニペットなどを作成します。
理解と Q&A: さまざまな質問に答え、正確な情報検索と知識分析機能を提供します。
対話インタラクション: 人間の会話スタイルをシミュレートし、自然で流暢な人間とコンピュータの対話を可能にし、顧客サービス、仮想アシスタント、教育および個人指導などの分野で使用できます。
テキスト翻訳: 明示的に調整された並列コーパスを必要とせずに、高品質の言語間翻訳を実現します。
テキスト要約: 重要な情報を抽出して、テキスト要約を自動的に生成します。
コード生成: プログラミングとソフトウェア開発を支援するために、自然言語の記述に基づいてコードを記述または完成させます。

この記事では、現在のオープンソースの大規模 LLM モデルの包括的かつ体系的な概要を説明し、皆さんと共有したいと思います。

海外のオープンソースモデル

モデルリンク	モデルの説明
オープンソラ	ソラのようなビデオ生成を効率的に再現するための完全にオープンソースのソリューション
グロク	3140 億のパラメータを持つハイブリッドエキスパートモデル。パラメータの点では現時点で最大のオープンソース LLM です。
ジェマ	Google のオープンソースモデル 2B と 7B は商用利用が無料です。トップのオープンソースプラットフォームの所有者が変わりました。
ミックストラル	Mistral AI の画期的な大規模モデルは GPT3.5 を超え、AI のパフォーマンスと多様性を再定義します。
ミストラル7B	「欧州OpenAI」の「最強の70億オープンソースモデル」は、130億のLlama2をあらゆる面で上回っています。
ラマ2	Open Meta は、商業的に実現可能なオープンソースの Alpaca 2 モデルとともに登場しました。
ラマ	Meta オープンソース命令は、70 億から 650 億の範囲の規模で LLM を微調整します。
ウィザードLM	Microsoft の新しいリリースである 13B は、オープンソースの AlpacaEval モデルのトップ 3 のリストでトップになり、ChatGPT を使用して LLama2 の命令の複雑さを微調整しました。
ファルコン	UAE工科大学は、3.5兆トークンでトレーニングし、LLaMA2を上回るパフォーマンスを発揮するプログラムを開始しました。
ビクーニャ	元Alpacaメンバーらは、LLama13Bをベースにしたモデルをオープンソース化し、ShareGPTコマンドを使って微調整し、GPT4を使ってモデルの性能を評価することを提案しました。
オープンチャット	LLama-2 13Bオープンソースモデルにおける戦闘機のShareGPT対話微調整
グアナコ	LLama 7B ベースステーションには、アルパカ 52K データセットに基づいて微調整するための 534K の多言語指示データが組み込まれています。
MPT	MosaicMLは、命令ベースの微調整機能を組み合わせたオープンソースの事前学習済みモデルです。商用化可能で、最大84,000トークンの超長入力をサポートします。
レッドパジャマ	RedPajama プロジェクトは、事前トレーニング済みのデータと、命令を微調整した 3B および 7B の事前トレーニング済みモデルの両方をリリースしました。
コアラ	alpaca や HC3 などのオープンソース命令セットと、ShareGPT などの ChatGPT データを使用して LLMA を微調整した結果、リーダーボードで高い順位を獲得しました。
チャットラマ	LLaMA は RLHF に基づいて微調整されました。
アルパカ	スタンフォードのオープンソースソフトウェアは 52,000 のデータポイントを使用し、70 億の LLaMA データセットで微調整します。
アルパカ・ロラ	LLAMAのLORA微調整
ヒトコブラクダ	LLaMAベースによるIBMの自己整合モデル
コロッサルチャット	HPC-AI TechのオープンソースLlama+RLHFの微調整
ミニGPT4	Vicuna+BLIP2 テキストビジュアル融合
スタックラマ	LLamaはStack Exchangeデータ+SFT+RLを使用します
セレブラス	Cerebras は、1 億から 130 億に及ぶ 7 つのモデルをオープンソース化しており、事前トレーニングデータからパラメーターまですべてが完全にオープンソース化されています。
ドリーv2	GPT-J-6B 上の市販の 7b 命令微調整オープンソースモデル
オープンチャットキット	OpenAI の研究者は、フィルタリング用の GPT-NoX-20B 微調整 + 6B 監査モデルを開発しました。
メタLM	マイクロソフトのオープンソースの大規模自己教師型事前学習モデル
アマゾンタイタン	AmazonがAWSに独自の大規模モデルを追加
OPT-IML	メタレプリカ GPT3 は最大 175B ですが、パフォーマンスは GPT3 ほど良くありません。
咲く	BigScience社が製作した、最大スケールは176Bです。
ブルームZ	BigScience によって開発され、Bloom をベースに若干の調整が加えられています。
ガラシア	Bloom と同様に、このモデルは科学研究用に特別にトレーニングされています。
T0	BigScience 社が製造したモデル 3B ～ 11B は、T5 の指示を使用して微調整されます。
EXLLama	4ビットGPTQ重みで使用するためのLlamaのPython / C ++ / CUDA実装
ロングチャット	llama-13b は、圧縮回転埋め込み技術を使用して微調整された長いテキストモデルです。
MPT-30B	MosaicMLのオープンソース大規模モデルは8Kトークンでトレーニングされています

国内オープンソースモデル

モデルリンク	モデルの説明
ベイリン	中国科学院によるオープンソースプロジェクト。LLama7B/13B をベースにした GPT-3.5 に匹敵するパフォーマンスと、英語/中国語向けの強化された言語整合大規模言語モデルを備えています。
GLM	清華大学が新たにリリースした中英バイリンガル集中モデルは、1300億個のパラメータを誇り、一般言語モデル（GLM）アルゴリズムを用いて事前学習済みです。このモデルは、単一のA100（40G×8）またはV100（32G×8）サーバー上で、1300億個のパラメータを用いた推論タスクをサポートするように設計されています。
XWin-LM	Llama2 をベースに微調整された言語モデルは、Stanford AlpacaEval ベンチマークで GPT-4 を上回るパフォーマンスを達成し、新しいリーダーボードモデルになりました。
エクスバース	Yuanxiang Technologyは、XVERSE-65Bモデルをベースに、パラメータ規模が650億で、多言語をサポートする大規模言語モデルを独自に開発しました。
エクスバース-256K	最大 256K のコンテキストウィンドウ長と約 250,000 文字の入力コンテンツをサポートしており、文献の要約やレポート分析などのタスクに役立ちます。
チャットGLM3	Zhipu AI によってトレーニングされた第 3 世代の大規模言語モデルは、人間の言語を理解して生成するだけでなく、コードを実行したり、ツールを呼び出したり、Markdown 形式で応答したりすることもできます。
チャットGLM2	強力な質疑応答機能と対話機能を備え、最大 32K のコンテキストをサポートし、認証後に無料で商用利用できます。
チャットGLM	清華大学のオープンソース対話言語モデルは、中国語と英語の両方をサポートし、コードトレーニング、命令の微調整、RLHF（関連言語高頻度）を活用しています。
オリオン-14B-ベース	140億のパラメータを持つ大規模な多言語モデルが、中国語、英語、日本語、韓国語を含む複数の言語をカバーする2.5兆トークンを含む多様なデータセットでトレーニングされました。
バイチュアン2	第 2 世代の Baichuan にも 2 番目のバージョンがリリースされ、7B/13B ベースバージョンとチャットバージョンが提供されています。
白川	Baichuan Intelligence のオープンソース 7B 大規模モデルは、商用利用が可能で無料です。
ジヤ2	Llama2でトレーニングされたZiya2がついにトレーニングを終了しました。
ジヤ	IDEA Research は、7B/13B Illama で事前トレーニング + SFT + RM + PPO + HFTT + COHFT + RBRS を継続しています。
クウェン1.5-MoE-A2.7B	Qwen は推論を高速化するために MOE バージョンをリリースしました。
クウェン1.5	Tongyi Qianwen がバージョン 1.5 にアップグレードされ、32K のテキストをサポートします。
クウェン1-7B+14B+70B	Alibaba がオープンソース化した、商用利用可能な Tongyi Qianwen 7B、14B、70B ベースおよびチャットモデル。
インターンLM2 7B+20B	センスタイムのScholar Model 2は20万をサポート
元-2.0	InspurがYuan2.0 2B、51B、102Bをリリース。
YI-200K	YuanYi Intelligence は、非常に長い 200KB 6B および 34B モデルをリリースしました。
YI	YuanYi Intelligence オープンソース 34B、6B モデル
ディープシーク-MOE	DeepSeek がリリースした DeepSeekMoE 16B Base および CAT モデル。
ディープシーク	DeepMindは7Bと67Bの大型モデルをリリースしました。
LLama2-中国語	LLama2 は、中国語の事前トレーニングによる微調整を経て、少し待ってから登場しました。
ユランチャット2	Hillhouse AI は、Llama-2 をベースにした中国語と英語の事前トレーニングを継続し、指示/対話の微調整も行っています。
ブルーLM	Vivo AI Lab オープンソース大規模モデル
ゼファー7B	HuggingFace チームは、UltraChat と UltraFeedback に基づいて Zephyr-7B モデルをトレーニングしました。
スカイワーク	Kunlun Tech Group の Tiangong チームは、商業的に実現可能な 130 億の大規模モデルをオープンソース化しました。
中国-LLaMA-アルパカ	ハルビン工業大学の中国語コマンド微調整LLaMA
苔	復旦大学の無実を証明せよ！学習済みデータとモデルはすべてオープンソース化されており、指導の微調整用も含む。商業的にも実現可能。
インターンLM	Shusheng Puyu の多言語、1000億パラメータの基本モデルは、1兆トークン以上のデータでトレーニングされています。
アクイラ2	Zhiyuan は、まったく新しい 34B を含む Aquila2 モデルシリーズを更新しました。
アクイラ	Zhiyuanオープンソース7B大型モデルは商用利用可能かつ無料
UltraLMシリーズ	Wallfacer Intelligence: オープンソース UltraLM13B、報酬モデル UltraRM、批評モデル UltraCM
パンダLLM	LLAMA2 は中国語 wiki で事前トレーニングと COIG 指示の微調整を継続します。
エクスバース	中国語ではllama2を超えると言われるメタバースオープンソースモデル13Bについても言及されています。
ビラ	LLama語彙拡張事前トレーニング+事前トレーニングとタスク1:1ハイブリッドSFT+指導サンプルSFT3段階トレーニング
フェニックス	香港中文大学 (CUHK) は、オープンソースの Phoenix および Chimera LLM、Bloom プラットフォームを導入し、40 以上の言語をサポートしています。
ウォンバット-7B	DAMO アカデミーは、アルパカプラットフォームに基づいて、強化学習なしで RRHF アライメントを使用する言語モデルをオープンソース化しました。
タイガーボット	TigerBlog は、7B モデルと 180B モデルを、事前トレーニング済みおよび微調整済みのコーパスとともにオープンソース化しました。
Luotuo-中国語-LLM	Leng Ziang (SenseTime)、Chen Qiyuan (Central China Normal University)、Li Lulu (SenseTime) によって開始された中国語大規模言語モデルのオープンソースプロジェクトには、一連の大規模言語モデル、データ、パイプライン、およびアプリケーションが含まれています。
オープンバディ	Llama多言語対話微調整モデル
中国ビンクーナ	Belle+Guanacoデータを使用してトレーニングされたLLama 7Bベース
リンリー	Llama 7B ベースは、belle、guanaco、pclue、firefly、CSL、newscommentary の 7 つの命令を使用してトレーニングデータセットを微調整するために使用されました。
ホタル	中国語2.6Bモデル。中国語および古典中国語の記述能力が向上しました。すべての学習コードはまだオープンソース化されておらず、現在はモデルのみが利用可能です。
ベイズ	10万件のセルフチャット会話データを使用してLLamaを微調整
ベル	ChatGPT によって生成されたデータを使用して、オープンソースモデルの中国語最適化を実行しました。
チャチュアン	ChatGPTは、中国でリリース後最も初期のオープンソース対話モデルでした。T5アーキテクチャは、PromptCLUEの派生モデルです。
プロンプトCLUE	マルチタスクプロンプト言語モデル
プラグ	アリババDAMOアカデミーは、詩や歌を書いたり、流暢な会話をしたりできる超大規模言語モデルPLUGをリリースしました。
CPM2.0	ZhiyuanがCPM2.0をリリース

DUICUO