Falcon LLM: オープンソースLLMの新たな王者

翻訳者 |ブガッティ

校正者 | Chonglou

毎週のように新しい大規模言語モデル（LLM）が登場し、利用できるチャットボットもますます増えています。しかし、どのLLMが最適か、 LLMの各側面の進歩はどの程度か、そしてどのLLMが最も有用かを判断するのは困難です。

HuggingFaceは、新しくリリースされたLLMを追跡、評価、ランク付けするオープンなLLMリーダーボードを運営しています。独自のフレームワークを用いて、様々な評価タスクにおける生成言語モデルのパフォーマンスをテストします。

以前は、 LLaMA (大規模言語モデル向けメタ人工知能)がリーダーボードで上位にランクされていましたが、最近、事前トレーニング済みの新しいLLMであるFalcon 40Bに置き換えられました。

技術革新研究所について

F alcon LLMは、アブダビ政府の先端技術研究評議会の傘下にある技術革新研究所（ TII ）によって設立・発展しました。政府はUAE全土における技術研究を監督しており、研究所の科学者、研究者、エンジニアからなるチームは、革新的な技術と科学的発見の実現に注力しています。

ファルコン40Bの紹介

Falcon -40Bは、 400億のパラメータを持つ基本LLMであり、 1兆個のトークンで学習されています。Falcon 40Bは自己回帰型純粋デコーダーモデルです。自己回帰型純粋デコーダーモデルとは、一連の前のトークンを与えられた場合に次のトークンを予測するようにモデルが学習されることを意味します。GPTモデルは、自己回帰型純粋デコーダーモデルの典型的な例です。

結果は、 Falconのアーキテクチャがトレーニング計算予算の75 %のみでGPT-3 を大幅に上回り、推論時にのみ計算を必要とすることを示しています。

大規模データの品質は、技術革新研究所（Institute of Technology Innovation）のチームにとって重要な焦点です。LLMはトレーニングデータの品質に非常に敏感であることを認識しているからです。チームは、数万個のCPUコアに拡張可能なデータパイプラインを構築し、迅速な処理を実現しました。また、広範なフィルタリングと重複排除を用いて、Webから高品質なコンテンツを抽出できます。

技術革新研究所には、さらに簡略化されたバージョンであるFalcon -7Bも存在します。これは70億のパラメータを持ち、 1.5兆トークンで学習されています。すぐに使えるチャットモデルをお探しの場合は、Falcon-40B-InstructとFalcon-7B-Instructをご利用ください。

Falcon 40B は何ができるのでしょうか?

他のLLMと同様に、 Falcon 40Bは次のことが可能です。

クリエイティブなコンテンツを生成する
複雑な問題を解決する
カスタマーサービス業務
仮想アシスタントを提供する
言語翻訳を提供する
感情分析を提供する
反復的なタスクを削減し自動化する
UAE企業の効率向上を支援

Falcon 40B はどのように訓練されるのですか?

2ヶ月以上にわたり、 AWS上の384基のGPUとRefinedWebの1兆トークンを用いて、 1兆トークンの学習が行われました。RefinedWebはTIIが構築した大規模な英語ウェブデータセットです。

事前学習データは、 CommonCrawlを使用してインターネットから収集した公開データセットで構成されました。チームは徹底的なフィルタリング段階を経て、機械生成テキストとアダルトコンテンツを削除し、重複排除を行い、約5兆トークンの事前学習データセットを生成しました。

CommonCrawlをベースに構築されたRefinedWebデータセットは、特定のデータセットでトレーニングされたモデルが、それらでトレーニングされたモデルよりも優れたパフォーマンスを発揮することを示しています。RefinedWebはマルチモーダルにも対応しています。

Falcon LLMはオープンソースです。

Falcon LLMのソースコードが公開され、研究者や開発者がFalcon 40Bおよび7Bをより利用しやすくなりました。Apacheライセンスバージョン2.0に基づいてリリースされています。

この法学修士課程は、これまで研究および商業目的のみに使用されていましたが、 AIへの包括的なアクセスを求める世界的な需要に応えるため、オープンソース化されました。UAEはAIの課題と限界を変えることに尽力しているため、商業利用制限に関連するロイヤリティは発生しません。

Apache 2.0 は、オープンソースソフトウェアのセキュリティを確保しながら、 AI分野における協調的、革新的、知識共有のエコシステムを促進することを目指しています。

Falcon - 7B Instruct LLM を使用するにはどうすればよいですか?

一般的なチャットボットスタイルのコマンドに適した、 Falcon -40 Bの簡易バージョンを試してみたい場合は、 Falcon-7Bから始めるとよいでしょう。

さあ、始めましょう。

まだインストールされていない場合は、次のパッケージをインストールしてください。

 !pip install transformers !pip install einops !pip install accelerate !pip install xformers

これらのパッケージをインストールすると、 Falcon 7 B Instruct用に提供されたコードの実行を継続できます。

 from transformers import AutoTokenizer, AutoModelForCausalLM import transformers import torch model = "tiiuae/falcon-7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model) pipeline = transformers.pipeline( "text-generation", model=model, tokenizer=tokenizer, torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto", ) sequences = pipeline( "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:", max_length=200, do_sample=True, top_k=10, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id, ) for seq in sequences: print(f"Result: {seq['generated_text']}")

結論

これまでで最高のオープンソースモデルとして、Falcon は LLaMA の栄冠を獲得しました。その強力な最適化されたアーキテクチャ、独自のライセンスによるオープンソースの性質、および40B と 7B のパラメータという2 つの仕様は人々を驚かせています。

原題: Falcon LLM: The New King of Open-Source LLMs 、著者: Nisha Arya

DUICUO