DUICUO

史上最強のオープンソース大規模モデルである Llama3 を 5 分でローカルにデプロイします。

数日前、Metaは史上最強のオープンソース大規模モデルであるLlama3をリリースしました。Llama3を無料でご利用いただくには、公式サイト(https://llama.meta.com/llama3/)でオンラインでご利用いただくだけでなく、ローカルにデプロイすることも可能です。

ローカルにデプロイする方法はいくつかありますが、最も一般的なのは次の 3 つです。

1. GitHubリポジトリをクローンした後、https://github.com/meta-llama/llama3からPythonおよびpip関連パッケージをインストールします。その後、オンライン申請フォームに個人情報を入力して、モデルのダウンロードリンクを申請してください。

2. LLスタジオ

3. オラマ

これらのオプションの中で、Ollamaは最も便利でユーザーフレンドリーなデプロイ方法を提供し、デプロイ時間は5分以内で完了します。この記事では、Ollamaを使用してllama3モデルをローカルにデプロイする方法を紹介します。

ステップ1:ollamaの公式サイト(https://ollama.com/download)からollamaをダウンロードしてください。Mac、Windows、Linuxの3つのバージョンがあります。お使いのマシンに適したバージョンを選択し、ダウンロードしてインストールしてください。

写真

ステップ 2: コマンド ラインで ollama run llama3 を実行します (デフォルトでは 8 ビット モデルがダウンロードされます。40 ビット モデルをダウンロードするには、 ollama run llama3:70b を実行します)。

写真

Llama3の最小バージョンである8Bと70Bは、他の競合製品のオープンソース大規模モデルを総合的に凌駕しています。70BモデルはGPT-4と同等で、8Bと70Bはどちらも個人用PCで実行可能です。80億のパラメータを持つ8Bは、8GB以上のVRAMでスムーズに動作します。700億のパラメータを持つ70Bは、40GB以上のVRAMを必要とするとされていますが、テストでは出力速度は遅いものの、16GBのVRAMを搭載した個人用PCでも動作することが示されています。

モデルがダウンロードされると、コマンドラインインタラクティブインターフェースに入り、llama3 とチャットできるようになります。

ステップ3(オプション):コマンドライン操作はグラフィカルインターフェースほどユーザーフレンドリーではないため、お好きなインターフェースをお選びいただけます。市場には無数のインターフェースが存在しますが、ここではオープンソースソフトウェアのChatboxを例に挙げます:https://github.com/Bin-Huang/chatbox/releases

ダウンロードしてインストールした後、設定に進み、ローカル ollama の llama3 モデルを使用するように構成すると、楽しくチャットできるようになります。

写真

グラフィカル インターフェースを介して Llama3 とチャットするだけでなく、プログラムで Llama3 の REST API を呼び出して、AI の多くのローカル タスクを自動化することもできます。

llama3 REST API を呼び出すには、公式ドキュメントを参照してください: https://github.com/ollama/ollama/blob/main/docs/api.md

 curl http://localhost:11434/api/chat -d '{ "model": "llama3", "messages": [ { "role": "user", "content": "why is the sky blue?" } ], "stream": false }'

写真