DUICUO

Falcon LLM: オープンソースLLMの新たな王者

翻訳者 |ブガッティ

校正者 | Chonglou

毎週のように新しい大規模言語モデル(LLM)が登場し、利用できるチャットボットもますます増えています。しかし、どのLLMが最適か LLMの側面の進歩はどの程度か、そしてどのLLMが最も有用かを判断するのは困難です

HuggingFaceは、新しくリリースされたLLMを追跡、評価、ランク付けするオープンなLLMリーダーボードを運営しています。独自のフレームワークを用いて、様々な評価タスクにおける生成言語モデルのパフォーマンスをテストします

以前は LLaMA (大規模言語モデル向けメタ人工知能)がリーダーボードで上位にランクされていました最近、事前トレーニング済みの新しいLLMであるFalcon 40Bに置き換えられまし

技術革新研究所について

F alcon LLMはアブダビ政府の先端技術研究評議会の傘下にある技術革新研究所 TII によって設立・発展しました政府UAE全土における技術研究を監督しており、研究所の科学者、研究者、エンジニアからなるチームは、革新的な技術と科学的発見の実現に注力しています。

ファルコン40Bの紹介

Falcon -40Bは、 400億のパラメータを持つ基本LLMであり 1兆個のトークンで学習されています。Falcon 40Bは自己回帰型純粋デコーダーモデルです。自己回帰型純粋デコーダーモデルとは、一連の前のトークンを与えられた場合に次のトークンを予測するようにモデルが学習されることを意味します。GPTモデル自己回帰型純粋デコーダーモデルの典型的な例です

結果は、 Falconのアーキテクチャがトレーニング計算予算75 %のみでGPT-3 を大幅に上回り推論時にのみ計算を必要とすることを示しています。

大規模データの品質は、技術革新研究所(Institute of Technology Innovation)のチームにとって重要な焦点です。LLMトレーニングデータの品質非常に敏感であることを認識しているからです。チームは数万個のCPUコアに拡張可能なデータパイプラインを構築し、迅速な処理を実現しました。また、広範なフィルタリングと重複排除を用いて、Webから高品質なコンテンツを抽出できます

技術革新研究所には、さらに簡略化されたバージョンであるFalcon -7Bも存在します。これは70億のパラメータを持ち、 1.5トークン学習されていますすぐに使えるチャットモデルをお探しの場合は、Falcon-40B-InstructとFalcon-7B-Instructをご利用ください

Falcon 40B は何ができるのでしょうか?

他のLLMと同様にFalcon 40Bは次のことが可能です

  • クリエイティブなコンテンツを生成する
  • 複雑な問題を解決する
  • カスタマーサービス業務
  • 仮想アシスタントを提供する
  • 言語翻訳を提供する
  • 感情分析を提供する
  • 反復的なタスクを削減し自動化する
  • UAE企業の効率向上を支援

Falcon 40B はどのように訓練されるのですか?

2ヶ月以上にわたり、 AWS上の384基のGPURefinedWebの1兆トークンを用いて 1兆トークンの学習が行われました。RefinedWebはTIIが構築した大規模な英語ウェブデータセットです。

事前学習データは、 CommonCrawlを使用してインターネットから収集した公開データセットで構成されました。チームは徹底的なフィルタリング段階を経て、機械生成テキストアダルトコンテンツを削除し重複排除を行い、約5兆トークン事前学習データセット生成しました

CommonCrawlをベースに構築されたRefinedWebデータセットは、特定のデータセットでトレーニングされたモデルが、それらでトレーニングされたモデルよりも優れたパフォーマンスを発揮することを示しています。RefinedWebマルチモーダル対応しています

Falcon LLMオープンソースです

Falcon LLMのソースコードが公開され、研究者や開発者がFalcon 40Bおよび7Bをより利用しやすくなりました。Apacheライセンスバージョン2.0に基づいてリリースされています。

この法学修士課程は、これまで研究および商業目的のみに使用されていましたが、 AIへの包括的なアクセスを求める世界的な需要に応えるため、オープンソース化されました。UAEはAI課題と限界を変えることに尽力しているため商業利用制限に関連するロイヤリティは発生しません

Apache 2.0 は、オープンソース ソフトウェアのセキュリティを確保しながら、 AI分野における協調的、革新的、知識共有のエコシステムを促進することを目指しています

Falcon - 7B Instruct LLM を使用するにはどうすればよいですか?

一般的なチャットボット スタイルのコマンドに適した、 Falcon -40 Bの簡易バージョンを試してみたい場合はFalcon-7Bから始めるとよいでしょう

さあ、始めましょう

まだインストールされていない場合は、次のパッケージをインストールしてください

 !pip install transformers !pip install einops !pip install accelerate !pip install xformers

これらのパッケージをインストールする Falcon 7 B Instruct用に提供されたコードの実行を継続できます

 from transformers import AutoTokenizer, AutoModelForCausalLM import transformers import torch model = "tiiuae/falcon-7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model) pipeline = transformers.pipeline( "text-generation", model=model, tokenizer=tokenizer, torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto", ) sequences = pipeline( "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:", max_length=200, do_sample=True, top_k=10, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id, ) for seq in sequences: print(f"Result: {seq['generated_text']}")

結論

これまでで最高のオープンソース モデルとして、Falcon は LLaMA の栄冠を獲得しました。その強力な最適化されたアーキテクチャ独自のライセンスによるオープンソースの性質、および40B と 7B のパラメータという2 つの仕様は人々を驚かせています。

原題: Falcon LLM: The New King of Open-Source LLMs 、著者: Nisha Arya