LLM(Large Language Model)は、自然言語テキストの理解と生成に使用される、大規模でパラメータ豊富なディープニューラルネットワークモデルを指します。強力な言語理解・生成能力により、自然言語処理(NLP)において幅広い応用が可能で、翻訳、質問応答、テキスト要約、対話、テキスト分類、感情分析、コード生成、コンテンツ作成支援など、様々な複雑なテキストタスクを処理できます。主な機能と特徴は以下のとおりです。
LLMは、主にVaswaniらが2017年の論文「Attention is All You Need」で提唱したTransformerアーキテクチャに基づいています。Transformerは、自己注意メカニズムを通じてテキスト内の長距離依存関係を捕捉し、リカレントニューラルネットワーク(RNN)のような単語単位の再帰処理の必要性を排除することで、並列計算を可能にし、学習と推論の速度を大幅に向上させます。代表的なLLM構造には以下が含まれます。
LLMの「大規模」な性質は、その膨大なパラメータ数にあります。パラメータ数は通常、数十億から数千億に及びます。例えば、GPT-3(Generative Pretrained Transformer 3)は約1750億のパラメータを持ちますが、GPT-4、PaLM、Chinchilla、Alibaba CloudのTongyi Qianwenといった最近のモデルでは、さらに多くのパラメータを持つ場合があります。この膨大なパラメータ数により、モデルはより豊富な言語規則やパターンを学習することができ、汎化能力と複雑な言語構造を表現する能力が向上します。
モデルリンク
| モデルの説明
|
オープンソラ
| ソラのようなビデオ生成を効率的に再現するための完全にオープンソースのソリューション
|
グロク
| 3140 億のパラメータを持つハイブリッド エキスパート モデル。パラメータの点では現時点で最大のオープン ソース LLM です。
|
ジェマ
| Google のオープンソース モデル 2B と 7B は商用利用が無料です。トップのオープンソース プラットフォームの所有者が変わりました。
|
ミックストラル
| Mistral AI の画期的な大規模モデルは GPT3.5 を超え、AI のパフォーマンスと多様性を再定義します。
|
ミストラル7B
| 「欧州OpenAI」の「最強の70億オープンソースモデル」は、130億のLlama2をあらゆる面で上回っています。
|
ラマ2
| Open Meta は、商業的に実現可能なオープンソースの Alpaca 2 モデルとともに登場しました。
|
ラマ
| Meta オープンソース命令は、70 億から 650 億の範囲の規模で LLM を微調整します。
|
ウィザードLM
| Microsoft の新しいリリースである 13B は、オープンソースの AlpacaEval モデルのトップ 3 のリストでトップになり、ChatGPT を使用して LLama2 の命令の複雑さを微調整しました。
|
ファルコン
| UAE工科大学は、3.5兆トークンでトレーニングし、LLaMA2を上回るパフォーマンスを発揮するプログラムを開始しました。
|
ビクーニャ
| 元Alpacaメンバーらは、LLama13Bをベースにしたモデルをオープンソース化し、ShareGPTコマンドを使って微調整し、GPT4を使ってモデルの性能を評価することを提案しました。
|
オープンチャット
| LLama-2 13Bオープンソースモデルにおける戦闘機のShareGPT対話微調整
|
グアナコ
| LLama 7B ベース ステーションには、アルパカ 52K データ セットに基づいて微調整するための 534K の多言語指示データが組み込まれています。
|
MPT
| MosaicMLは、命令ベースの微調整機能を組み合わせたオープンソースの事前学習済みモデルです。商用化可能で、最大84,000トークンの超長入力をサポートします。
|
レッドパジャマ
| RedPajama プロジェクトは、事前トレーニング済みのデータと、命令を微調整した 3B および 7B の事前トレーニング済みモデルの両方をリリースしました。
|
コアラ
| alpaca や HC3 などのオープンソース命令セットと、ShareGPT などの ChatGPT データを使用して LLMA を微調整した結果、リーダーボードで高い順位を獲得しました。
|
チャットラマ
| LLaMA は RLHF に基づいて微調整されました。
|
アルパカ
| スタンフォードのオープンソース ソフトウェアは 52,000 のデータ ポイントを使用し、70 億の LLaMA データセットで微調整します。
|
アルパカ・ロラ
| LLAMAのLORA微調整
|
ヒトコブラクダ
| LLaMAベースによるIBMの自己整合モデル
|
コロッサルチャット
| HPC-AI TechのオープンソースLlama+RLHFの微調整
|
ミニGPT4
| Vicuna+BLIP2 テキストビジュアル融合
|
スタックラマ
| LLamaはStack Exchangeデータ+SFT+RLを使用します
|
セレブラス
| Cerebras は、1 億から 130 億に及ぶ 7 つのモデルをオープンソース化しており、事前トレーニング データからパラメーターまですべてが完全にオープンソース化されています。
|
ドリーv2
| GPT-J-6B 上の市販の 7b 命令微調整オープンソースモデル
|
オープンチャットキット
| OpenAI の研究者は、フィルタリング用の GPT-NoX-20B 微調整 + 6B 監査モデルを開発しました。
|
メタLM
| マイクロソフトのオープンソースの大規模自己教師型事前学習モデル
|
アマゾンタイタン
| AmazonがAWSに独自の大規模モデルを追加
|
OPT-IML
| メタレプリカ GPT3 は最大 175B ですが、パフォーマンスは GPT3 ほど良くありません。
|
咲く
| BigScience社が製作した、最大スケールは176Bです。
|
ブルームZ
| BigScience によって開発され、Bloom をベースに若干の調整が加えられています。
|
ガラシア
| Bloom と同様に、このモデルは科学研究用に特別にトレーニングされています。
|
T0
| BigScience 社が製造したモデル 3B ~ 11B は、T5 の指示を使用して微調整されます。
|
EXLLama
| 4ビットGPTQ重みで使用するためのLlamaのPython / C ++ / CUDA実装
|
ロングチャット
| llama-13b は、圧縮回転埋め込み技術を使用して微調整された長いテキスト モデルです。
|
MPT-30B
| MosaicMLのオープンソース大規模モデルは8Kトークンでトレーニングされています
|
モデルリンク
| モデルの説明
|
ベイリン
| 中国科学院によるオープンソース プロジェクト。LLama7B/13B をベースにした GPT-3.5 に匹敵するパフォーマンスと、英語/中国語向けの強化された言語整合大規模言語モデルを備えています。
|
GLM
| 清華大学が新たにリリースした中英バイリンガル集中モデルは、1300億個のパラメータを誇り、一般言語モデル(GLM)アルゴリズムを用いて事前学習済みです。このモデルは、単一のA100(40G×8)またはV100(32G×8)サーバー上で、1300億個のパラメータを用いた推論タスクをサポートするように設計されています。
|
XWin-LM
| Llama2 をベースに微調整された言語モデルは、Stanford AlpacaEval ベンチマークで GPT-4 を上回るパフォーマンスを達成し、新しいリーダーボード モデルになりました。
|
エクスバース
| Yuanxiang Technologyは、XVERSE-65Bモデルをベースに、パラメータ規模が650億で、多言語をサポートする大規模言語モデルを独自に開発しました。
|
エクスバース-256K
| 最大 256K のコンテキスト ウィンドウ長と約 250,000 文字の入力コンテンツをサポートしており、文献の要約やレポート分析などのタスクに役立ちます。
|
チャットGLM3
| Zhipu AI によってトレーニングされた第 3 世代の大規模言語モデルは、人間の言語を理解して生成するだけでなく、コードを実行したり、ツールを呼び出したり、Markdown 形式で応答したりすることもできます。
|
チャットGLM2
| 強力な質疑応答機能と対話機能を備え、最大 32K のコンテキストをサポートし、認証後に無料で商用利用できます。
|
チャットGLM
| 清華大学のオープンソース対話言語モデルは、中国語と英語の両方をサポートし、コードトレーニング、命令の微調整、RLHF(関連言語高頻度)を活用しています。
|
オリオン-14B-ベース
| 140億のパラメータを持つ大規模な多言語モデルが、中国語、英語、日本語、韓国語を含む複数の言語をカバーする2.5兆トークンを含む多様なデータセットでトレーニングされました。
|
バイチュアン2
| 第 2 世代の Baichuan にも 2 番目のバージョンがリリースされ、7B/13B ベース バージョンとチャット バージョンが提供されています。
|
白川
| Baichuan Intelligence のオープンソース 7B 大規模モデルは、商用利用が可能で無料です。
|
ジヤ2
| Llama2でトレーニングされたZiya2がついにトレーニングを終了しました。
|
ジヤ
| IDEA Research は、7B/13B Illama で事前トレーニング + SFT + RM + PPO + HFTT + COHFT + RBRS を継続しています。
|
クウェン1.5-MoE-A2.7B
| Qwen は推論を高速化するために MOE バージョンをリリースしました。
|
クウェン1.5
| Tongyi Qianwen がバージョン 1.5 にアップグレードされ、32K のテキストをサポートします。
|
クウェン1-7B+14B+70B
| Alibaba がオープンソース化した、商用利用可能な Tongyi Qianwen 7B、14B、70B ベースおよびチャット モデル。
|
インターンLM2 7B+20B
| センスタイムのScholar Model 2は20万をサポート
|
元-2.0
| InspurがYuan2.0 2B、51B、102Bをリリース。
|
YI-200K
| YuanYi Intelligence は、非常に長い 200KB 6B および 34B モデルをリリースしました。
|
YI
| YuanYi Intelligence オープンソース 34B、6B モデル
|
ディープシーク-MOE
| DeepSeek がリリースした DeepSeekMoE 16B Base および CAT モデル。
|
ディープシーク
| DeepMindは7Bと67Bの大型モデルをリリースしました。
|
LLama2-中国語
| LLama2 は、中国語の事前トレーニングによる微調整を経て、少し待ってから登場しました。
|
ユランチャット2
| Hillhouse AI は、Llama-2 をベースにした中国語と英語の事前トレーニングを継続し、指示/対話の微調整も行っています。
|
ブルーLM
| Vivo AI Lab オープンソース大規模モデル
|
ゼファー7B
| HuggingFace チームは、UltraChat と UltraFeedback に基づいて Zephyr-7B モデルをトレーニングしました。
|
スカイワーク
| Kunlun Tech Group の Tiangong チームは、商業的に実現可能な 130 億の大規模モデルをオープンソース化しました。
|
中国-LLaMA-アルパカ
| ハルビン工業大学の中国語コマンド微調整LLaMA
|
苔
| 復旦大学の無実を証明せよ!学習済みデータとモデルはすべてオープンソース化されており、指導の微調整用も含む。商業的にも実現可能。
|
インターンLM
| Shusheng Puyu の多言語、1000億パラメータの基本モデルは、1兆トークン以上のデータでトレーニングされています。
|
アクイラ2
| Zhiyuan は、まったく新しい 34B を含む Aquila2 モデル シリーズを更新しました。
|
アクイラ
| Zhiyuanオープンソース7B大型モデルは商用利用可能かつ無料
|
UltraLMシリーズ
| Wallfacer Intelligence: オープンソース UltraLM13B、報酬モデル UltraRM、批評モデル UltraCM
|
パンダLLM
| LLAMA2 は中国語 wiki で事前トレーニングと COIG 指示の微調整を継続します。
|
エクスバース
| 中国語ではllama2を超えると言われるメタバースオープンソースモデル13Bについても言及されています。
|
ビラ
| LLama語彙拡張事前トレーニング+事前トレーニングとタスク1:1ハイブリッドSFT+指導サンプルSFT3段階トレーニング
|
フェニックス
| 香港中文大学 (CUHK) は、オープンソースの Phoenix および Chimera LLM、Bloom プラットフォームを導入し、40 以上の言語をサポートしています。
|
ウォンバット-7B
| DAMO アカデミーは、アルパカ プラットフォームに基づいて、強化学習なしで RRHF アライメントを使用する言語モデルをオープンソース化しました。
|
タイガーボット
| TigerBlog は、7B モデルと 180B モデルを、事前トレーニング済みおよび微調整済みのコーパスとともにオープンソース化しました。
|
Luotuo-中国語-LLM
| Leng Ziang (SenseTime)、Chen Qiyuan (Central China Normal University)、Li Lulu (SenseTime) によって開始された中国語大規模言語モデルのオープンソース プロジェクトには、一連の大規模言語モデル、データ、パイプライン、およびアプリケーションが含まれています。
|
オープンバディ
| Llama多言語対話微調整モデル
|
中国ビンクーナ
| Belle+Guanacoデータを使用してトレーニングされたLLama 7Bベース
|
リンリー
| Llama 7B ベースは、belle、guanaco、pclue、firefly、CSL、newscommentary の 7 つの命令を使用してトレーニング データセットを微調整するために使用されました。
|
ホタル
| 中国語2.6Bモデル。中国語および古典中国語の記述能力が向上しました。すべての学習コードはまだオープンソース化されておらず、現在はモデルのみが利用可能です。
|
ベイズ
| 10万件のセルフチャット会話データを使用してLLamaを微調整
|
ベル
| ChatGPT によって生成されたデータを使用して、オープンソース モデルの中国語最適化を実行しました。
|
チャチュアン
| ChatGPTは、中国でリリース後最も初期のオープンソース対話モデルでした。T5アーキテクチャは、PromptCLUEの派生モデルです。
|
プロンプトCLUE
| マルチタスクプロンプト言語モデル
|
プラグ
| アリババDAMOアカデミーは、詩や歌を書いたり、流暢な会話をしたりできる超大規模言語モデルPLUGをリリースしました。
|
CPM2.0
| ZhiyuanがCPM2.0をリリース
|