オープンソースモデルの進歩のレビュー: 最新の Mixtral、Llama 3、Phi-3、OpenELM はどれほど優れているのでしょうか?

ディープラーニングの著名な研究者であり、Lightning AIのチーフAIエデュケーターであるセバスチャン・ラシュカ氏は、大規模AIモデルに関する深い洞察を持ち、自身のブログで頻繁にその知見を共有しています。5月中旬に投稿されたブログ記事では、4月にリリースされた4つの主要な新モデル（Mixtral、MetaAIのLlama 3、MicrosoftのPhi-3、AppleのOpenELM）をレビュー・分析しました。また、論文を通じてDPOとPPOの長所と短所についても論じました。さらに、4月の注目すべき研究成果をいくつか共有しました。

Mixtral、Llama 3、Phi-3: 何が新しくなったのか?

まず、最も重要なトピック、4月に発売された主要な新モデルから始めましょう。このセクションでは、Mixtral、Llama 3、Phi-3について簡単に紹介します。次のセクションでは、AppleのOpenELMについて詳しく説明します。

Mixtral 8x22B: モデルは大きいほど良いです!

Mixtral 8x22B は、Mistral AI の最新のハイブリッドエキスパート (MoE) モデルであり、Apache 2.0 オープンソースライセンスの下でリリースされています。

このモデルは、2024年にリリースされたMixtral 8x7Bに類似しています。その根底にある主要なアイデアは、Transformerアーキテクチャの各フィードフォワードモジュールを8つのエキスパートレイヤーに置き換えることです。ここではMoEについて詳しく説明しません。著者は1月にMixtral 8x7Bの研究レビューでMoEについて詳しく紹介しています。

Mixtral のブログ投稿には、一般的に使用される MMLU ベンチマークでのモデリングパフォーマンスとアクティブパラメーターの数 (計算リソース要件に関連) という 2 つの軸で、Mixtral 8x22B と他のいくつかの LLM を比較した興味深いグラフが掲載されています。

Mixtral 8x22B と他の LLM の比較 (ブログ https://mistral.ai/news/mixtral-8x22b に基づく)

ラマ 3: データが多ければ多いほど良いです!

Meta AIが2023年2月に最初のLlamaモデルをリリースしたことは、オープンソースLLMにとって大きな進歩であり、その開発における重要なマイルストーンとなりました。そのため、昨年のLlama 2のリリースも同様に興奮を誘うものであったのは当然のことです。そして現在、Meta AIが現在リリース中のLlama 3モデルも同様に興奮を誘います。

最大モデル（バージョン400B）はまだトレーニング中ですが、おなじみのバージョン8Bと70Bはすでにリリースされています。そして、どちらも非常に優れたパフォーマンスを発揮しています！下の画像では、上の画像にLlama 3を追加しています。

Llama 3、Mixtral、その他のLLMの比較

全体的に見ると、Llama 3のアーキテクチャはLlama 2とほぼ同じです。主な違いは、Llama 3は語彙数が多く、より小型のモデルでグループ化クエリアテンション（GQA）を採用していることです。GQAの説明については、著者による別の記事（https://magazine.sebastianraschka.com/p/ahead-of-ai-11-new-foundation-models）をご覧ください。

以下は、LitGPT を使用して実装された Llama 2 と Llama 3 の構成ファイルです。主な違いを明確かつ簡単に示しています。

LitGPT を使用して Llama 2 と Llama 3 の構成を比較します。https://github.com/Lightning-AI/litgpt

トレーニングデータのサイズ

Llama 3がLlama 2を上回る主な理由の一つは、そのデータセットの規模が格段に大きいことです。Llama 3は15兆トークンを用いてトレーニングされましたが、Llama 2はわずか2兆トークンしか使用しませんでした。

この発見は興味深いものです。Llama 3のブログによると、チンチラ拡張法則に従うと、8パラメータモデルの最適なトレーニングデータ量は約2000億トークンと、はるかに少なくなるからです。さらに、Llama 3の著者らは、8パラメータおよび70パラメータのモデルでも、15兆トークンで対数線形の改善が見られることを観察しました。これは、トレーニングトークン数が15兆トークンを超えても、モデルがさらなる改善を達成できることを示しています。

微調整と調整の手順

研究者は通常、命令の微調整とアライメントに関して、人間のフィードバックを用いた強化学習（RLHF）（近似方策最適化（PPO）によって実現）と、報酬なしモデルの直接選好最適化（DPO）の2つの選択肢があります。興味深いことに、Llama 3の開発者はどちらか一方を好まず、両方を採用しました。（PPOとDPOについては、後のセクションで詳しく説明します。）

Llama 3 のブログによれば、Llama 3 に関する研究論文が来月公開される予定で、その時にさらに詳しい情報を知ることができるようになるとのことです。

Phi-3: データの品質が高いほど良いです!

Llama 3のグランドローンチからわずか1週間後、Microsoftは新型Phi-3 LLMをリリースしました。テクニカルレポートに掲載されているベンチマーク結果によると、最小のPhi-3モデルは、Llama 3 8Bモデルの半分のサイズにもかかわらず、より高性能です。

Phi-3、Llama 3、Mixtralと他のLLMとの比較

注目すべきは、Phi-3（Llamaアーキテクチャベース）はLlama 3の5分の1、わずか3.3兆トークンしか使用しないのに対し、Llama 3は15兆トークンを使用していることです。Phi-3はLlama 2と同じトークナイザーを使用しており、その語彙サイズは32,064で、Llama 3の語彙サイズよりもはるかに小さくなっています。

さらに、Phi-3-mini には 3.8B のパラメータしかなく、Llama 3 8B のパラメータ数の半分以下です。

では、Phi-3の秘密は何でしょうか？技術レポートによると、Phi-3は量よりもデータの質を重視しており、「厳密にフィルタリングされたネットワークデータと合成データ」を採用しています。

この論文ではデータの集計に関する詳細は多く述べられていませんが、以前のファイ・モデルのアプローチを概ね踏襲しています。著者は以前、ファイ・モデルを紹介する記事を執筆しています。https://magazine.sebastianraschka.com/p/ahead-of-ai-12-llm-businesses をご覧ください。

本稿執筆時点では、Phi-3が開発者の約束通りの性能を備えているかどうかは依然として不透明です。例えば、ベンチマーク以外のタスクではPhi-3のパフォーマンスはLlama 3よりも大幅に劣ると指摘する声が多く聞かれます。

結論は

前述の3つの公開LLMのおかげで、4月は特別な月となりました。しかし、著者のお気に入りのモデルはOpenELMです。これについてはまだ触れていませんが、次のセクションで説明します。

実際には、これらのモデルをどのように選択すべきでしょうか？著者らは、これら3つのモデルそれぞれに独自の魅力があると考えています。MixtralはLlama 3 70Bよりもアクティブパラメータが少ないものの、それでもかなり良好なパフォーマンスレベルを維持しています。Phi-3 3.8Bはモバイルデバイスに適している可能性があり、著者らはPhi-3 3.8Bの量子化バージョンはiPhone 14で実行できると述べています。Llama 3 8Bは、LoRAを使用して単一のGPUで簡単に微調整できるため、モデルを微調整したいユーザーにとって最も魅力的であると考えられます。

OpenELM: オープンソースのトレーニングおよび推論フレームワークを使用した効率的な言語モデルのシリーズ。

OpenELM は、モバイルデバイスに展開できる小型の LLM を提供することを目的として、Apple がリリースした最新の LLM モデルキットおよび論文です。

OLMo と同様に、この LLM 論文が際立っているのは、アーキテクチャ、トレーニング方法、トレーニングデータが詳細に共有されている点です。

OpenELMと他のオープンソースLLM（同じデータセット、コード、重みを使用）の比較（このようなモデルは多くありませんが、すべてオープンソースです）。グラフはOpenELMの論文（https://arxiv.org/abs/2404.14619）からの引用です。

まずは最も関連性の高い情報をいくつか見てみましょう。

OpenELM には、270M、450M、1.1B、3B という比較的小型で使いやすい 4 つのサイズがあります。
各サイズごとに命令のバージョンが用意されており、拒否サンプリングと直接的な好みの最適化を使用してトレーニングされます。
OpenELM は、トレーニングに OLMo の 2 倍のトークンを使用するにもかかわらず、パフォーマンスは OLMo よりもわずかに優れています。
その主なアーキテクチャ調整は、レイヤーごとの拡張戦略です。

アーキテクチャの詳細

レイヤーごとのスケーリング戦略 (詳細は後述) を除けば、OpenELM の全体的なアーキテクチャとハイパーパラメータ構成は、下の図に示すように、OLMo や Llama などの他の LLM と非常によく似ています。

最小の OLMo モデルである OpenELM、および最小の Llama 2 モデルのアーキテクチャとハイパーパラメータの比較。

トレーニングデータセット

彼らは、RefinedWeb、RedPajama、The PILE、Dolmaといった公開データセットから、1.8Tトークンを含む比較的小規模なサブセットをサンプリングしました。このサブセットは、OLMoの学習に使用されたDolmaデータセットの2倍のサイズです。しかし、このサンプリングを行う際にどのような基準を用いたのでしょうか？

著者の一人は、「データセットに関しては、データセットのサンプリングの理由は考慮しませんでした。単に 2T トークンの公開データセットを使用したかっただけです (LLama 2 アプローチに従って)」と述べています。

OpenELMのトレーニングに使用されたトークン数と、データセット内の元のトークン数の比較（正確なトークン数は使用するトークナイザーによって異なります）。このグラフはOpenELMの論文からの引用です。

層ごとに拡大

層ごとのスケーリング戦略（論文「DeLighT: Deep and Light-weight Transformer」に基づく）は非常に興味深いものです。基本的に、この戦略は、Transformerモジュールの初期段階から後期段階にかけて、層を徐々に広げていくというものです。注目すべきは、このプロセスにおいて、アテンションモジュールのヘッド数を徐々に増やしながらも、ヘッドサイズは一定に保たれるということです。フィードフォワードモジュールのサイズも、下図に示すように拡張されます。

LLM アーキテクチャは、著者の著書「Build a Large Language Model from Scratch」から引用したものです。

著者らは、「レイヤーごとのスケーリング戦略を用いずに、同じデータセットでLLMをトレーニングするアブレーション研究を行いたい」と述べています。しかし、このような実験は非常に費用がかかるため、誰も行っていないのも無理はありません。

ただし、レイヤーごとのスケーリング戦略を最初に提案した論文「DeLighT: Deep and Light-weight Transformer」には、以下に示すように、元のエンコーダー/デコーダーアーキテクチャに基づく小規模なデータセットで行われたアブレーション研究が含まれています。

標準的なトランスモジュールと、レイヤーごと（モジュールごと）の拡張戦略を採用したトランスモジュールの比較（DeLighT 論文より）: https://arxiv.org/abs/2008.00623

LoRA と DoRA

OpenELMチームは嬉しい驚きも提供してくれました。パラメータ効率の高い微調整におけるLoRAとDoRAのパフォーマンス比較です。結果は、2つの方法に大きな違いは見られませんでした。

パラメータ効率の高い 2 つの微調整方法である LoRA と DoRA のモデリングパフォーマンスの比較。

結論は

OpenELMの論文は研究上の疑問に答えているわけではありませんが、よく書かれており、OpenELMの実装について詳細かつ透明性のある概要を提供しています。今後、レイヤーごとのスケーリング戦略を採用したLLM実装がさらに増えるかもしれません。さらに、Appleはこの論文を公開しただけでなく、OpenELMのコードもGitHubで公開しています：https://github.com/apple/corenet/tree/main/mlx_examples/open_elm

一言で言えば、これは素晴らしい結果であり、この結果を私たちと共有してくれた研究チーム（および Apple）に非常に感謝しています。

LLM の調整という点では、DPO は PPO よりも優れていますか?

論文「LLM アライメントにおいて DPO は PPO よりも優れているか? 包括的な研究」は、非常に重要な質問に答えています。(https://arxiv.org/abs/2404.10719)

結果を発表する前に、この論文の内容を要約しましょう。PPO (近似ポリシー最適化) と DPO (直接選好最適化) は、RLHF (人間によるフィードバックによる強化学習) を通じて実装される、LLM を調整するための一般的な方法です。

RLHFはLLM開発プロセスにおける重要なコンポーネントです。その役割は、LLMを人間の好みに合わせて調整することです。これにより、LLMによって生成される応答のセキュリティとユーザビリティが向上します。

典型的なLLMトレーニングサイクル

より詳しい説明については、先月公開された著者の記事をご覧ください: https://magazine.sebastianraschka.com/p/tips-for-llm-pretraining-and-evaluating-rms

RLHF-PPO と DPO とは何ですか?

オリジナルのLLMアライメント手法であるRLHF-PPOは、OpenAIのInstructGPTとChatGPTに導入されているLLMの基盤技術として長年活用されてきました。しかし、ここ数ヶ月でDPOを微調整したLLMが登場し、公開リーダーボードに大きな影響を与えたことで、状況は変わりました。DPOの人気は、報酬を伴わないため使い勝手が良いことに起因していると考えられます。PPOとは異なり、DPOは別個の報酬モデルを学習する必要がなく、分類のような目的関数を用いてLLMを直接更新します。

報酬モデルとDPOの比較

現在、公開リーダーボードに掲載されているLLMのほとんどは、PPOではなくDPOを用いて学習されています。残念ながら、ここで紹介する論文が発表される以前は、同じデータセットで同じモデルを用いてPPOとDPOのパフォーマンスを比較した人は誰もいませんでした。

一般的に、PPO は DPO よりも優れています。

論文「LLM アライメントにおいて DPO は PPO よりも優れているか? 包括的な研究」では、多数の実験結果が示されていますが、主な結論は、PPO は一般に DPO よりも優れており、DPO は分布外データの影響を受けやすいということです。

ここで、分布外データとは、LLMの初期学習（教師ありファインチューニングを使用）に用いられる指示データが、DPOに用いられる嗜好データとは異なることを意味します。例えば、LLMはまず一般的に使用されるAlpacaデータセットで学習され、その後、DPOを用いて嗜好ラベルを持つ別のデータセットでファインチューニングされる可能性があります。（分布外データにおけるDPOのパフォーマンスを向上させるための1つの方法は、DPOのファインチューニングの前に、嗜好データセットで教師あり指示ファインチューニングを1ラウンド追加することです。）

次の図は主な調査結果をまとめたものです。

論文の主な調査結果

上記の主な結果に加えて、この論文には追加の実験およびアブレーション研究もいくつか含まれており、興味のある読者は原著論文を参照することができます。

ベストプラクティス

さらに、このホワイトペーパーには、DPO と PPO を使用する際のベストプラクティスの推奨事項がいくつか記載されています。

例えば、DPOを使用する場合は、まず嗜好データに対して教師ありファインチューニングを実行する必要があります。反復型DPOは、既存の嗜好データに対するDPOよりも優れています。既存の嗜好データに対するDPOでは、追加のデータに既存の報酬モデルを使用してラベル付けする必要があります。

PPO を使用している場合、成功の鍵となる要素としては、大きなバッチサイズ、アドバンテージの正規化、指数移動平均によるパラメータ更新などがあります。

Orca データセットからの嗜好データの例、https://huggingface.co/datasets/Intel/orca_dpo_pairs

要約

本論文の結果に基づくと、適切に使用すればPPOはDPOよりも優れているように思われます。しかし、DPOの方が使用と実装が簡単であることを考慮すると、DPOが依然として好ましい方法である可能性があります。

著者らは、基本的なグラウンドトゥルース報酬ラベルが存在する場合（独自の報酬モデルを事前学習する必要がない）、またはドメイン固有の報酬モデルをダウンロードできる場合はPPOを使用することを推奨しています。そうでない場合は、よりシンプルなDPOを使用してください。

さらに、LLama 3のブログ記事によると、どちらを選ぶべきか悩む必要はありません。両方使えるのです！例えば、Llama 3は次のようなプロセスに従います：事前学習 → 教師あり微調整 → 棄却サンプリング → PPO → DPO

4月に発表されたその他の興味深い論文

最後に、著者のセバスチャン・ラシュカ氏が4月に出会った興味深い論文をいくつか紹介しました。彼は、法学修士課程の研究が急増した前月と比べても、4月は依然として多くの注目すべき点があったと述べました。

論文: KAN: コルモゴロフ – アーノルドネットワークス
リンク: https://arxiv.org/abs/2404.19756

コルモゴロフ・アーノルドネットワーク（KAN）は、線形重みパラメータをエッジ上の学習可能なスプラインベース関数に置き換え、固定活性化パラメータを必要としません。KANは、精度、ニューラルネットワークの拡張性能、解釈可能性の点で優れた、多層パーセプトロン（MLP）の魅力的な代替技術として注目されています。

論文：いつ検索するか：法学修士課程学生に情報検索を効果的に活用するよう教える
リンク: https://arxiv.org/abs/2404.19705

この論文では、LLM が答えを知らない場合に特別なトークン <RET> を通じて独自のパラメータメモリまたは外部情報検索システムを使用するように教えることができる、カスタマイズされたトレーニング方法を提案します。

論文：Transformerベースの言語モデルの内部動作入門
リンク: https://arxiv.org/abs/2405.00208

この入門論文では、Transformer ベースのデコーダーのみの言語モデルを解釈するために使用される手法の概要を簡単に説明します。

論文：RAGとRAU：自然言語処理における検索拡張言語モデルの調査
リンク: https://arxiv.org/abs/2404.19543

このレビューでは、検索強化型 LLM の包括的な概要を示し、そのコンポーネント、構造、アプリケーション、および評価方法について詳しく説明します。

論文: マルチトークン予測による大規模言語モデルの高速化と改善
リンク: https://arxiv.org/abs/2404.19737

この論文では、次のトークンだけではなく、複数の将来のトークンを同時に予測するように LLM をトレーニングすると、サンプリング効率が向上し、生成タスクにおける LLM のパフォーマンスも向上すると主張しています。

論文: LoRA Land:310 GPT-4に匹敵する微調整されたLLM、技術レポート
リンク: https://arxiv.org/abs/2405.00732

LoRA は最も広く使用されているパラメータ効率の高い微調整手法であり、この研究では、4 ビットの LoRA 調整モデルがベースモデルと GPT-4 の両方を大幅に上回ることが判明しました。

論文：法学修士課程で文脈を最大限に活用する、An、Ma、Lin他 (4月25日)
リンク: https://arxiv.org/abs/2404.16811

本研究ではFILM-7Bを提案する。このモデルは情報集約型手法を用いて学習され、LLMがコンテキストウィンドウの中央位置から情報を取得できない「中間消失問題」を解決することができる。

論文: レイヤースキップ: 早期終了推論と自己推測的デコードの実現
リンク: https://arxiv.org/abs/2404.16710

LayerSkipはLLMの推論を高速化します。そのために、学習フェーズでは層のドロップアウトと早期終了を使用し、推論フェーズでは自己予測デコードを使用します。

論文：検索ヘッドは長期文脈の事実性を機械的に説明する
リンク: https://arxiv.org/abs/2404.15574

本論文では、長期文脈能力を備えたTransformerベースのモデルが、注意機構において特定の「検索ヘッド」を用いて効率的に情報を検索する仕組みを検証する。これらの検索ヘッドは普遍的、スパース、本質的、動的に活性化され、事前情報への参照や推論を必要とするタスクにとって極めて重要であることが明らかにされる。

論文：大規模言語モデル（LLM）時代のグラフ機械学習
リンク: https://arxiv.org/abs/2404.14928

このレビュー論文では、グラフニューラルネットワークと LLM がどのように徐々に統合されてグラフと推論の機能が向上しているかをまとめています。

論文: NExT: 大規模言語モデルにコード実行の推論を教える
リンク: https://arxiv.org/abs/2404.14662

NExT は、プログラム実行を分析するように LLM に教えることにより、コードを理解して修正する能力を向上させる方法です。

論文: マルチヘッド専門家混合
リンク: https://arxiv.org/abs/2404.15045

本論文では、スパースなハイブリッドエキスパートに固有の、エキスパートの活性化率の低さと複数の意味概念の処理の難しさという問題を解決する、マルチヘッドハイブリッドエキスパート（MH-MoE）モデルを提案します。このアプローチでは、マルチヘッドメカニズムを導入し、トークンをサブトークンに分割し、複数のエキスパートによって並列処理します。Syncedのレポート「MicrosoftがMoEのマルチヘッド化を実現し、エキスパートの活性化率を大幅に向上」をご覧ください。

論文：大規模言語モデルの自己進化に関する調査
リンク: https://arxiv.org/abs/2404.14662

本論文は、LLMの自己進化手法を包括的に要約し、LLM自己進化の概念的枠組みを提案する。また、このようなモデルを改善するための課題と将来の方向性についても指摘する。

論文: OpenELM: オープンソースのトレーニングおよび推論フレームワークを備えた効率的な言語モデルファミリー
リンク: https://arxiv.org/abs/2404.14619

Apple の OpenELM は、OLMo から継承された LLM スイートで、完全なトレーニングおよび評価フレームワーク、ログ、チェックポイント、構成、および研究の再現に使用できるその他の成果物が含まれています。

論文: Phi-3 技術レポート: スマートフォン上でローカルに動作する高機能言語モデル
リンク: https://arxiv.org/abs/2404.14219

Phi-3-mini は、3.3 兆トークンでトレーニングされた 38 億パラメータの LLM であり、そのベンチマークパフォーマンスは、Mixtral 8x7B や GPT-3.5 などのより大規模なモデルに匹敵します。

論文：低ビット量子化LLaMA3モデルの性能は？実証的研究
リンク: https://arxiv.org/abs/2404.14047

この実証的研究により、Meta の LLaMA 3 モデルは、超低ビット幅で深刻なパフォーマンス低下を起こすことが判明しました。

論文: 命令階層: 特権命令を優先するための LLM のトレーニング
リンク: https://arxiv.org/abs/2404.13208

この研究では、信頼できるプロンプトを優先する LLM の命令階層を提案し、標準機能を損なうことなく攻撃に対する堅牢性を向上させます。

論文: OpenBezoar: さまざまな指示データで訓練された、小型でコスト効率の高いオープンモデル
リンク: https://arxiv.org/abs/2404.12195

この研究では、Falcon-40B からの合成データと RLHF や DPO などの技術を使用して OpenLLaMA 3Bv2 モデルを微調整し、データを体系的にフィルタリングして微調整することで、より小さなモデルサイズで最先端の LLM タスクパフォーマンスを実現できるようにしました。

論文：想像、探求、批判による法学修士課程の自己改善に向けて
リンク: https://arxiv.org/abs/2404.12253

LLMは様々なタスクに優れていますが、複雑な推論や計画には苦労します。提案されているAlphaLLMはモンテカルロ木探索を統合し、自己ブースティングループを作成することで、追加のデータラベル付けを必要とせずに推論タスクにおけるLLMのパフォーマンスを向上させます。

論文: LLM が不適格な場合は FastFit を使用する: 多数のクラスで高速かつ効果的なテキスト分類
リンク: https://arxiv.org/abs/2404.12365

FastFitは、類似カテゴリが多数存在する言語タスクの高速かつ正確な少数ショット分類を可能にする新しいPythonパッケージです。バッチ対照学習とトークンレベルの類似度スコアを組み合わせることで、学習速度が3～20倍向上し、SetFitやHF Transformersなどの手法よりも優れた性能を発揮します。

論文：大規模言語モデルのための検索強化テキスト生成に関する調査
リンク: https://arxiv.org/abs/2404.10981

このレビュー論文では、検索強化生成（RAG）が検索技術と深層学習を組み合わせ、LLMが最新の情報を動的に統合できるようにする仕組みについて論じます。また、RAGプロセスを分類し、最近の進歩をレビューし、今後の研究の方向性を提案します。

論文：RAGモデルの忠実度は？RAGとLLMの内部事前分布の綱引きを定量化する
リンク: https://arxiv.org/abs/2404.10198

正確な検索情報を提供することで、GPT-4 などの大規模な言語モデルのエラーを修正できる場合が多くありますが、強力な内部知識によって対抗されない限り、誤った情報が繰り返されることがよくあります。

論文: CLIP のスケーリング (ダウン): データ、アーキテクチャ、トレーニング戦略の包括的な分析
リンク: https://arxiv.org/abs/2404.08197

本論文では、計算量が限られたシナリオに適合するよう、対照言語画像事前学習（CLIP）のサイズを縮小する方法を検証します。この研究では、高品質で小規模なデータセットは、大規模で低品質なデータセットよりも優れたパフォーマンスを発揮する傾向があり、これらのデータセットには小規模なViTモデルが最適であることが示されています。

論文：LLMアラインメントにおいてDPOはPPOより優れているか？包括的な研究
リンク: https://arxiv.org/abs/2404.10719

本研究では、人間のフィードバックに基づく強化学習（RLHF）における直接選好最適化（DPO）と近接方策最適化（PPO）の有効性を検証しました。その結果、PPOは適切に使用すれば、あらゆるケースにおいて他のあらゆる代替手法よりも優れた性能を発揮することが示されました。

論文：真の良好な整合のための参照モデルを学ぶ
リンク: https://arxiv.org/abs/2404.09656

本論文では、新たなアライメント手法「Trust Region Direct Preference Optimization（TR-DPO）」を紹介します。この手法は、学習フェーズ中に推論ポリシーを更新することで既存の手法を凌駕し、複数のパラメータにわたってモデル品質を向上させます。特定のデータセットでは最大19%のパフォーマンス向上を実現します。

論文：チンチラのスケーリング：再現の試み
リンク: https://arxiv.org/abs/2404.10102

この論文の著者らは、最適形式の展開法則を推定するためにホフマンらが提案した方法を再現しようと試み、他の方法を使用して得られた元の推定値と一致しない信じられない結果を発見しました。

論文：トランスフォーマーに代わる新世代ネットワークのための状態空間モデル：概観
リンク: https://arxiv.org/abs/2404.09516

本論文では、Transformerアーキテクチャの効率的な代替手段である状態空間モデル（SSM）の包括的な概要と実験分析を提供します。本論文では、SSMの原理、様々な分野への応用について詳細に解説し、統計的比較を通してその利点と将来の研究方向性を示します。

論文：LLMの文脈内想起はプロンプトに依存する
リンク: https://arxiv.org/abs/2404.08865

本研究では、様々なLLMが文脈内で情報を想起する能力を評価しました。このアプローチでは、テキストブロック内に模擬文（ファクトイド）を埋め込み、様々な条件下でこの情報を想起する際のモデルのパフォーマンスを評価しました。結果は、パフォーマンスがプロンプトの内容とトレーニングデータ内の潜在的なバイアスの両方に影響を受けることを示しました。

論文: RLHF のデータセットリセットポリシーの最適化
リンク: https://arxiv.org/abs/2404.08495

本研究では、データセットリセットポリシー最適化（DR-PO）を提案します。これは、人間の嗜好フィードバックに基づく新しい強化学習（RLHF）アルゴリズムであり、オフラインの嗜好データセットをオンラインポリシー学習に直接統合することで、学習パフォーマンスを向上させることができます。

論文: 少ないトークンで小規模なベースLMを事前学習する
リンク: https://arxiv.org/abs/2404.08634

本研究では、より小規模なベース言語モデルの開発に利用可能な継承チューニングを提案しています。このアプローチでは、大規模モデルから変換モジュールの小さなサブセットを継承し、その大規模モデルのデータの小さなサブセットを用いて学習させます。その結果、これらの小規模モデルは、学習データとリソースを大幅に削減しながらも、大規模モデルよりも優れた性能を発揮できることが示されました。

論文：Rho-1：すべてのトークンが必要なわけではない
リンク: https://arxiv.org/abs/2404.07965

Rho-1は、学習プロセスにおいて従来の次トークン予測手法を採用しない、新しい言語モデルです。代わりに、超過損失が大きいトークンのみを選択的に学習します。

論文：言語モデルのための合成データに関するベストプラクティスと教訓
リンク: https://arxiv.org/abs/2404.07503

この論文では、LLM の文脈における合成データに関する研究をまとめています。

論文：JetMoE: 0.1MドルでLlama2のパフォーマンスを達成、Shen、Guo、Cai、Qin（4月11日）、
リンク: https://arxiv.org/abs/2404.07413

JetMoE-8Bは、80億個のパラメータを持つスパースゲート型ハイブリッドエキスパートモデルです。学習には1兆2500億トークンを使用し、コストは10万ドル未満でしたが、入力トークンあたり20億個のパラメータを持ち、GPU使用時間が「わずか」3万時間のLlama2-7Bなどのより高価なモデルよりも優れた性能を発揮しました。

論文: LLoCO: オフラインでの長いコンテキストの学習
リンク: https://arxiv.org/abs/2404.07979

LLoCO アプローチは、コンテキストの圧縮、取得、効率的なパラメータの微調整を LoRA と組み合わせることで、LLaMA2-7B モデルのコンテキストウィンドウを効果的に拡張し、最大 128,000 トークンを処理できるようになります。

論文: コンテキストを残さない: Infini-Attention による効率的な無限コンテキスト変換
リンク: https://arxiv.org/abs/2404.07143

本研究では、TransformerベースのLLMを拡張し、無限長の入力を効率的に処理できるようにする手法を提案する。そのアイデアは、単一のTransformerモジュール内に複数のアテンション戦略を組み合わせることで、幅広いコンテキスト要件を持つタスクを処理することである。

論文: LLaMAデコーダーをVision Transformerに適応させる
リンク: https://arxiv.org/abs/2404.06773

この論文では、ポストシーケンスカテゴリトークンやソフトマスキング戦略などの手法を使用して標準ビジョントランスフォーマー (ViT) を変更することで、Llama やその他のデコーダーのみのトランスフォーマー (LM) を使用してコンピュータービジョンタスクを実行する方法について調査します。

論文: LLM2Vec: 大規模言語モデルは秘密に強力なテキストエンコーダである
リンク: https://arxiv.org/abs/2404.05961

この研究では、1. 因果的注意マスクの無効化、2. マスクされた次のトークンの予測、3. 教師なし対照学習という 3 つのアプローチを通じて、デコーダーベースの LLM (GPT や Llama など) を強力なテキストエンコーダーに変換するシンプルな教師なし手法を提案します。

論文：象は決して忘れない：大規模言語モデルにおける表形式データの記憶と学習
リンク: https://arxiv.org/abs/2404.06209

この論文では、LLM におけるデータ汚染やメモリ形成などの主要な問題に焦点を当て、LLM は共通の表形式データを記憶する傾向があり、トレーニング中に確認されたデータセットでパフォーマンスが向上するが、これが過剰適合につながる可能性があることを明らかにしています。

論文：MiniCPM：スケーラブルなトレーニング戦略による小規模言語モデルの潜在能力の解明
リンク: https://arxiv.org/abs/2404.06395

この研究では、パラメータ数が 12 億から 24 億に及ぶ、リソース効率の高い「小型」言語モデルの新しいシリーズを提案しています。使用される技術には、継続的な事前トレーニングとドメイン適応に役立つウォームアップ、安定化、減衰の学習率スケジューラが含まれています。

論文: CodecLM: 言語モデルとカスタマイズされた合成データの整合
リンク: https://arxiv.org/abs/2404.05875

CodecLMフレームワークは、エンコード・デコードの原理とLLMをコーデックとして用い、LLMをアライメントするための高品質な合成データを適応的に生成します。複数の命令分布を備えており、LLMが複雑で多様な命令に従う能力を向上させることができます。

論文: Eagle and Finch: 行列値状態と動的再帰による RWKV
リンク: https://arxiv.org/abs/2404.05892

Eagle と Finch は、RWKV アーキテクチャに基づく新しいシーケンスモデルであり、マルチヘッドマトリックス状態や動的再帰などの機能を導入しています。

論文: AutoCodeRover: 自律プログラム改善
リンク: https://arxiv.org/abs/2404.05427

AutoCodeRover は、LLM と高度なコード検索を使用してソフトウェアプログラムを変更することで GitHub の問題を解決する自動化されたアプローチです。

論文：シグマ：マルチモーダルセマンティックセグメンテーションのためのSiamese Mambaネットワーク
リンク: https://arxiv.org/abs/2404.04256

Sigmaは、Siamese Mamba（構造状態空間モデル）ネットワークを用いたマルチモーダルセマンティックセグメンテーション手法です。熱や深度といった様々なモダリティとRGBを組み合わせ、CNNやVisual Transformerの代替として使用できます。

論文: 設計によって検証可能: 事前学習データからの引用に対する言語モデルの整合
リンク: https://arxiv.org/abs/2404.03862

Quote-Tuning は、LLM に信頼できるソースをより頻繁に、単語ごとに引用するように教えることにより、LLM の信頼性と精度 (標準モデルと比較して 55% ～ 130%) を向上させることができます。

論文: ReFT: 言語モデルの表現のファインチューニング
リンク: https://arxiv.org/abs/2404.03592

この論文では、パラメトリック効率的微調整 (PEFT) に類似し、モデルの隠し表現のみ (パラメータセット全体ではなく) を変更することで大規模モデルに効率的に適応できる表現微調整 (ReFT) 手法を提案します。

論文: CantTalkAboutThis:対話における話題維持のための言語モデルの調整
リンク: https://arxiv.org/abs/2404.03820

这篇论文提出了CantTalkAboutThis 数据集，其设计目的是帮助LLM 在面向任务的对话中不偏离话题（其中包括多种领域的合成对话，并具有分散话题的内容，可以训练模型不偏离话题）。

论文：Training LLMs over Neurally Compressed Text
链接：https://arxiv.org/abs/2404.03626

这篇论文提出了一种在经过神经压缩的文本（使用一个小型语言模型压缩后的文本）上训练LLM 的方法，其中使用了一种名为Equal-Info Windows 的技术—— 作用是将文本分割成同等位长的块。

论文：Direct Nash Optimization:Teaching Language Models to Self-Improve with General Preferences
链接：https://arxiv.org/abs/2404.02151

这篇论文提出了一种用于LLM 后训练的方法：直接纳什优化（DNO）。该方法是使用来自预言机的偏好反馈来迭代式地提升模型性能，可成为其它RLHF 方法的替代技术。

论文：Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
链接：https://arxiv.org/abs/2404.02747

这篇论文探究了交叉注意力在文本条件式扩散模型的推理阶段的工作方式—— 研究发现其会在一定位置稳定下来，另外还发现：如果在这个收敛点之后绕过文本输入，可在无损输出质量的情况下简化这个过程。

论文：BAdam:A Memory Efficient Full Parameter Training Method for Large Language Models
链接：https://arxiv.org/abs/2404.02827

BAdam 是一个内存高效型优化器，可以提升微调LLM 的效率，而且其使用便捷，仅有一个额外的超参数。

论文：On the Scalability of Diffusion-based Text-to-Image Generation
链接：https://arxiv.org/abs/2404.02883

这篇论文通过实证研究了基于扩散的文生图模型的扩展性质。其中分析了扩展去噪主干模型和训练集的效果，揭示出：交叉注意力和transformer 模块的效率会极大影响性能。另外，论文还给出了以更低成本提升文本- 图像对齐和学习效率的策略。

论文：Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks
链接：https://arxiv.org/abs/2404.02151

这项研究揭示出：即使围绕安全而构建的最新LLM 也会被自适应技术轻松越狱。使用对抗性提示工程、利用API 漏洞和token 搜索空间限制等方法，对各种模型都能达到接近100% 的越狱成功率。

论文：Emergent Abilities in Reduced-Scale Generative Language Models
链接：https://arxiv.org/abs/2404.02204

这项研究发现，如果能将预训练数据集的规模缩小和简化，非常「小」的LLM（参数量从1M 到165M）也能展现出涌现性质。

论文：Long-context LLMs Struggle with Long In-context Learning
链接：https://arxiv.org/abs/2404.02060

LIConBench 是一个关注长上下文学习和极端标签分类的新基准。实验结果表明，尽管LLM 擅长处理多达20K token，但当序列更长时，它们的性能就下降了，只有GPT-4 例外，这说明在处理上下文信息丰富的文本方面，各个模型之间存在差距。

论文：Mixture-of-Depths:Dynamically Allocating Compute in Transformer-Based Language Models
链接：https://arxiv.org/abs/2404.02258

这篇论文提出的混合深度方法可让基于transformer 的语言模型为输入序列的不同部分动态地分配计算资源（FLOPs），从而可通过在每层选取特定的token 进行处理而实现对性能和效率的优化。参看机器之心报道《DeepMind 升级Transformer，前向通过FLOPs 最多可降一半》。

论文：Diffusion-RWKV:Scaling RWKV-Like Architectures for Diffusion Models
链接：https://arxiv.org/abs/2404.04478

这篇论文提出的Diffusion-RWKV 是用于NLP 的RWKV 架构的一种变体，其中纳入了用于图像生成的扩散模型。

论文：The Fine Line:Navigating Large Language Model Pretraining with Down-streaming Capability Analysis
链接：https://arxiv.org/abs/2404.01204

这项研究发现使用早期阶段就能预测最终的LLM，这有助于在预训练期间分析LLM 并改进预训练设置。

论文：Bigger is not Always Better:Scaling Properties of Latent Diffusion Models
链接：https://arxiv.org/abs/2404.01367

这项研究探讨了隐扩散模型的大小对不同步骤和任务的采样效率有何影响。结果揭示出：在给定推理预算时，较小的模型往往能得到更高质量的结果。参看机器之心报道《大模型一定就比小模型好？谷歌的这项研究说不一定》。

论文：Do Language Models Plan Ahead for Future Tokens?
链接：https://arxiv.org/abs/2404.00859

DUICUO