DUICUO

「Python 機械学習」の著者による新しい本: オープンソース コードを使用して、大規模な言語モデルをゼロから構築します。

ChatGPT のリリース以来、大規模言語モデル (LLM) は人工知能の発展を推進する重要な技術となっています。

最近、機械学習と AI の研究者であり、ベストセラー書籍『Machine Learning with Python』の著者でもある Sebastian Raschka 氏が、新しい書籍『Build a Large Language Model (From Scratch)』を執筆しました。この本では、大規模言語モデルの作成、トレーニング、調整方法など、大規模言語モデルをゼロから構築するプロセス全体を説明することを目的としています。

最近、Sebastian Raschka 氏は新しい本のコードベースを GitHub でオープンソース化しました。

プロジェクトアドレス: https://github.com/rasbt/LLMs-from-scratch/tree/main?tab=readme-ov-file

LLMでは、命令の微調整によってモデル性能を効果的に向上させることができるため、様々な命令の微調整手法が提案されています。Sebastian Raschka氏は、自身のプロジェクトにおける命令の微調整部分について、ハイライトとなるツイートを投稿し、次のように説明しています。

  • データを 1100 コマンド応答ペアとしてフォーマットする方法。
  • プロンプトスタイルのテンプレートを適用する方法。
  • マスクの使い方。

「大規模言語モデルの構築 (ゼロから)」では、初期の設計と作成から、一般的なコーパスを使用した事前トレーニング、特定のタスクの微調整まで、各段階をわかりやすいテキスト、図、例を使用して説明します。

具体的には、新しい本とプロジェクトでは次の方法を説明しています。

  • LLM のすべての部分を計画し、コーディングします。
  • LLM トレーニングに適したデータセットを準備します。
  • 独自のデータを使用して LLM を微調整します。
  • LLM が指示に従うように指示調整方法を適用します。
  • 事前トレーニング済みの重みを LLM にロードします。

著者紹介

個人ホームページ: https://sebastianraschka.com/

セバスチャン・ラシュカは機械学習と人工知能の研究者であり、以前はウィスコンシン大学マディソン校で統計学の助教授を務め、深層学習と機械学習を専門としています。彼はAIと深層学習に関する情報をより身近なものにし、これらの技術を大規模に活用する方法を人々に教えています。

さらに、セバスチャンはオープンソースソフトウェアに情熱を注ぎ、10年以上にわたり熱心な貢献者です。彼の手法は、Kaggleなどの機械学習コンペティションで成功を収めています。

コーディング以外にも、Sebastian は執筆も楽しんでおり、ベストセラー書籍の *Python Machine Learning* と *Machine Learning with PyTorch and ScikitLearn* の著者でもあります。