DUICUO

権威ある AI オープンソース標準バージョン 1.0 がリリースされました。Llama はオープンソースとは見なされません。

起こるべくして起こったことがついに起こった。

今週、人工知能(AI)分野において「オープンソース」の公式定義が発表されました。オープンソース・イニシアティブ(OSI)は、「オープンソースAI定義」バージョン1.0をリリースしました。この定義は、急速に進化するテクノロジー分野においてしばしば曖昧に扱われる「オープンソース」という用語を明確にすることを目的としています。

このメカニズムでは、オープンソースの大規模モデルのベンチマークとして常に使用されてきた Llama 3 もこのルールに準拠していないことは注目に値します。

OSIは長年にわたり、オープンソースソフトウェアの構成に関する業界標準を策定してきましたが、人工知能システムには、モデル学習データなど、従来のライセンスではカバーされていない要素が含まれています。現在、AIシステムが真にオープンソースシステムとみなされるためには、以下の要件を満たす必要があります。

  • AI のトレーニングに使用されたデータに関する詳細情報にアクセスできるため、他の人が理解して再現することができます。
  • AI を構築および実行するための完全なコード。
  • トレーニング中の設定と重みは、AI が対応する結果を生成するのに役立ちます。

この定義は、Metaが推進する大規模Llamaモデルに直接言及しています。Llamaは生成AI分野における最大のオープンソースAIモデルとして広く宣伝されており、利用規約では一般公開のダウンロードと利用が認められていますが、商用利用には一定の制限(7億人を超えるユーザーを抱えるアプリケーションの場合)があり、学習データへのアクセスも提供されていません。これは、OSI標準における使用、改変、共有の自由とは矛盾しています。

これに対し、Metaの広報担当者であるFaith Eischen氏は、「パートナーであるOSIとは多くの点で同意する」ものの、Metaはこの定義には同意できないと述べました。オープンソースAIの定義は単一であるべきではありません。なぜなら、これまでのオープンソースの定義は、急速に進化する今日のAIモデルの複雑さを捉えきれていないからです。

しかし、テクノロジーがどのように定義されるかに関係なく、Meta は、アクセシビリティと無料アクセスに向けて AI を責任を持って推進するために、OSI やその他の業界団体と引き続き協力していくと述べています。

非営利団体OSIは、「オープンソース」の概念において重要な役割を果たしてきました。OSIは業界で認められたライセンスリストを整備しており、オープンソースの定義には、自由な再配布、ソースコードの入手可能性、改変および二次的著作物の許可など、10以上の重要な用語が含まれています。1998年に「オープンソース」というラベルを定義して設立されて以来、OSIによるオープンソースソフトウェアの定義は開発者に広く受け入れられています。

人工知能(AI)が業界の様相を大きく変える今日、テクノロジー大手は重大な選択を迫られています。確立された原則を受け入れるか、それとも拒否するかです。Linux Foundationが最近「オープンソースAI」を定義しようと試みたことは、伝統的なオープンソースの価値観がAI時代にどう適合するかという議論の高まりを如実に示しています。


「今や明確な定義ができたので、オープンソースを隠蔽し、自分たちの成果物はオープンソースだと主張する企業に対し、より積極的に抵抗できるようになるかもしれない」と、オープンソースコードの独立研究者で作成者のサイモン・ウィリソン氏は述べた。

ハギングフェイスのCEO、クレメント・デラング氏は、「OSIの定義は、特にトレーニングデータの重要な役割に関して、人工知能のオープン性に関する議論に非常に役立ちます」と述べています。

OSIのエグゼクティブディレクター、ステファノ・マフーリ氏は、同社は2年間にわたり世界中の専門家と協議し、機械学習や自然言語処理を専門とする学者、哲学者、クリエイティブ・コモンズのコンテンツクリエイターとの協力を通じて定義を洗練させてきたと述べた。

オープンソースAIのOSI定義

OSI は、「オープンソース」の人工知能システムは次の基準を満たす必要があると述べています。

  • システムは許可なくいかなる目的にも使用できます。
  • これにより、システムがどのように機能するかを研究し、そのコンポーネントを検査することができます。
  • 出力の変更を含む、あらゆる目的でシステムを変更することを許可する。
  • システムは、変更されているかどうかに関係なく、あらゆる目的で他の人と共有できます。

これらの自由は、完全に機能するシステムとシステムの個々の要素の両方に適用されます。これらの自由を行使するための前提条件は、システムを変更する能力です。

さらに、OSIは機械学習システムの変更可能な形式も定義しています。これには以下の要素がすべて含まれている必要があります。

  • データ情報:技術者が実質的に同等のシステムを構築できるよう、システムのトレーニングに使用されたデータに関する十分に詳細な情報。データ情報は、OSIが承認した条件に従って提供される必要があります。特に、以下の内容を含める必要があります。
  • トレーニングに使用されたすべてのデータの完全な説明(共有できないデータの場合)、データのソース、範囲、特性の開示、データの取得方法と選択方法、ラベル付け手順、データ処理およびフィルタリング方法を含む)。
  • 公開されているすべてのトレーニング データのリストと、そのデータを取得する方法。
  • サードパーティから入手可能なすべてのトレーニング データとその入手先 (有料データを含む) のリスト。
  • コード: システムの学習と実行に必要な完全なソースコード。このコードは、データの処理方法とフィルタリング方法、そして学習の実行方法の完全な仕様を示す必要があります。コードはOSI承認のライセンスに基づいて提供される必要があります。
  • たとえば、使用する場合は、データの処理とフィルタリングのコード、トレーニングのコード(使用されるパラメーターと設定を含む)、検証とテスト、サポート ライブラリ(トークナイザーやハイパーパラメーター検索コードなど)、推論コード、モデル アーキテクチャを含める必要があります。
  • パラメータ: 重みやその他の設定などのモデルパラメータ。パラメータはOSI承認条件に従って提供する必要があります。
  • たとえば、中間トレーニング フェーズ中のチェックポイントやオプティマイザーの状態などです。

機械学習システムでは、モデルの重みも重要な要素です。OSIフレームワークのオープンソース定義では、次のように述べられています。

  • AI モデルは、モデル アーキテクチャ、モデル パラメーター (重みを含む)、およびモデルを実行する推論コードで構成されます。
  • AI 重みは、特定の入力に基づいて出力を生成するために使用される学習されたパラメータのセットです。

機械学習システムへの変更には重みも含まれます。「オープンソースモデル」および「オープンソース重み」には、これらのパラメータを導出するために使用されたデータとコードが含まれている必要があります。

最後に、OSIは、オープンソースAIの定義において、モデルパラメータが誰もが自由に利用できることを保証するための具体的な法的メカニズムは必要とされないと述べました。パラメータは本質的に無料である場合もあれば、利用可能性を確保するためにライセンスやその他の法的文書が必要となる場合もあります。AIにおけるオープン性を定義する規制は、今後より明確化されることが期待されます。