ぜひお試しください！スマートフォンで動作するオープンソースLLM6選

翻訳者 | ブガッティ

校正者 | Chonglou

インターネットを使用せずにスマートフォンで LLM のパワーを活用することで、プライバシーと制御を最大限に高めることができます。

大規模言語モデル（LLM）は膨大な計算リソースを必要とし、通常は強力なサーバーでしか実行できません。しかし、新世代のコンパクトモデルでは、これらの強力な言語モデルをスマートフォンで直接実行できます。興味深いことに、スマートフォンでLLMを使用するのにインターネット接続は必要ありません。

以下の 6 つのオープンソース LLM は、スマートフォンでの使用に合わせてトレーニングおよび最適化できます。

Gemma 2B: モバイル言語タスク向けの Google のコンパクトで高性能な LLM。
Phi-2: Microsoft の小さなモデルは、25 倍の大きさの大きなモデルよりも優れたパフォーマンスを発揮しました。
Falcon-RW-1B: リソースが制限されたモバイルデバイス向けの効率的な 1B パラメーターモデル。
StableLM-3B: モバイルデバイス上でさまざまな言語タスクを処理するためのパフォーマンスと効率のバランスをとる Stability AI モデル。
TinyLlama: モバイルデバイスで優れた結果を提供する Llama モデルのコンパクトバージョンです。
LLaMA-2-7B: ハイエンドスマートフォンでの高度なタスクを処理するために設計された、Meta の強力な 7B モデル。

1. ジェマ 2B

GoogleのGemma 2Bは、コンパクトな言語モデルでありながら、そのサイズにもかかわらず優れたパフォーマンスを発揮します。マルチクエリアテンションメカニズムを採用しており、推論時のメモリ帯域幅要件を削減します。

これは、メモリ帯域幅が制限されることが多いデバイス側のシナリオにおいて特に有利です。わずか20億個のパラメータを使用するGemma 2Bは、言語理解、推論、セキュリティといった分野における学術ベンチマークテストで優れた結果を達成しました。

18 個のテキストベースのタスクのうち 11 個で、同様のサイズのオープンモデルよりも優れたパフォーマンスを発揮しました。

2. ファイ2

Phi-2は27億のパラメータを持ち、いくつかのベンチマークテストでは25倍のパラメータを持つモデルよりも優れた性能を示しました。常識推論、言語理解、論理的推論といったタスクにおいて優れた性能を発揮します。

Phi-2 は、4 ビットや 3 ビットの精度などの低いビット幅に量子化できるため、モデルサイズが 1.17 GB ～ 1.48 GB に大幅に削減され、メモリとコンピューティングリソースが限られたモバイルデバイスでも効率的な操作が可能になります。

Phi-2の主な利点の一つは、常識的な推論能力です。このモデルは膨大なインターネットデータを用いて学習されており、日常的な概念や関係性を理解し、推論することが可能です。

3. ファルコンRW-1B

Falcon-RW-1Bは、その効率性とパフォーマンスで知られるFalcon言語モデルファミリーの一部です。RWは「Refined Web」の略で、選択されたトレーニングデータセットが量よりも質を重視していることを示しています。

Falcon-RW-1BのアーキテクチャはGPT-3をベースとしていますが、ALiBi（線形バイアス付きアテンション）やFlashAttentionなどの技術を組み込むことで計算効率を向上させています。これらの最適化により、Falcon-RW-1Bはスマートフォンなどのリソース制約のあるデバイスにおけるオンデバイス推論に最適です。

Falcon-RW-1B-Chat モデルは、Falcon-RW-1B-Instruct-OpenOrca モデルにセッション機能を追加して、ユーザーエンゲージメントの向上、範囲の拡大、スマートフォンなどのリソースが制限された環境でのアクセシビリティの提供を目指しています。

4. 安定LM-3B

Stability AIが開発したStableLM-3Bは、30億のパラメータを持つモデルであり、パフォーマンスと効率性のバランスが取れています。StableLM-3Bの最大のメリットは、トレーニングに使用するトークン数が少ないにもかかわらず、いくつかのベンチマークテストにおいて70億のパラメータでトレーニングされたモデルよりも優れたパフォーマンスを発揮することです。

StableLM-3Bは、4ビット精度などの低ビット幅に量子化できるため、モデルサイズを約3.6GBまで大幅に削減し、スマートフォンで効率的に実行できます。一部のユーザーからは、StableLM-3BがStable独自の7B StableLM-Base-Alpha-v2よりも優れているという報告があります。

5. タイニーラマ

TinyLlamaは、FlashAttentionやRoPE位置埋め込みといった最適化メカニズムを活用することで、高いパフォーマンスを維持しながら計算効率を向上させます。Llamaアーキテクチャと互換性があり、最小限の変更で既存のLlamaベースのモバイルアプリケーションに統合できます。

TinyLlamaは4ビットや5ビットといった低いビット幅に量子化できるため、モデルサイズを約550MB～637MBまで大幅に削減できます。TinyLlamaの使用経験を共有してくれたあるユーザーは、ASUS ROGのようなミッドレンジのスマートフォンでは、1秒あたり6～7トークンを生成できると述べています。

6. LLaMA-2-7B

LLaMA-2-7Bモデルは4ビット幅、16ビット活性化に量子化されており、スマートフォンへのオンデバイス展開に適しています。この量子化によりモデルサイズが3.6GBに縮小され、十分なメモリを搭載したモバイルデバイスにロードして実行できます。

LLaMA-2-7Bモデルはモバイルデバイス上で少なくとも6GBのRAMを必要とします。推論中、Samsung Galaxy S23 Ultraのピーク時のメモリ使用量は316MBから4785MBの範囲でした。これは、このモデルは6GB以上のRAMを搭載したデバイスでも実行可能であるものの、RAM容量を増やすことでパフォーマンスが向上し、メモリ不足エラーのリスクが低減することを示しています。

LLaMA-2-7B モデルは十分なデバイスメモリを必要とし、その速度はクラウドベースのモデルに匹敵しない可能性がありますが、スマートフォン上で直接実行される言語ベースのインテリジェント機能を作成しようとしている開発者にとって魅力的なオプションを提供します。

原題: スマートフォンで実行できるオープンソースLLM 6選、著者: Sagar Sharma

リンク: https://analyticsindiamag.com/6-open-source-llms-that-can-run-on-smartphones/.

AIGC の詳細については、以下をご覧ください。

51CTO AI.x コミュニティ

https://www..com/aigc/

DUICUO