DUICUO

オープンソースAIは透明性がないのか?オープンソース・イニシアチブが新たな定義を提示

オープンソースの人工知能(AI)の定義については、研究者の間で長年意見の相違がありました。オープンソースの調停者を自認するオープンソース・イニシアティブ(OSI)は最近、オープンソースAIの新たな定義を発表しました。これは、AIに関連するリスクから消費者を保護するための規制策定を支援することを目的としています。

OSI は、70 人の研究者、弁護士、政策立案者、活動家、Meta、Google、Amazon などの大手テクノロジー企業の代表者を招き、オープンソース AI の実現可能な定義を共同で提案しました。

OSIは、「オープンソースのAIシステムは許可なくあらゆる目的に使用でき、研究者はAIシステムのコンポーネントを検査し、その動作を研究できるべきである。さらに、研究者は出力の変更を含むあらゆる目的のためにシステムを変更し、あらゆる目的で他の人と共有することができる」と規定している。さらに、この標準規格は、特定のモデルのトレーニングデータ、ソースコード、および重みに関する透明性のレベルを定義しようとしている。

この基準に照らせば、OpenAIとAnthropicはモデル、データセット、アルゴリズムに関する秘密主義を貫いており、明らかにクローズドソースのAIシステムと言える。一方、Meta LlamaとGoogleの自由にアクセスできるモデルも、ライセンスによってユーザーによるモデルへのアクセスが制限されており、トレーニングデータセットも公開されていないため、真のオープンソースAIモデルとは言えない。

「企業が自社モデルの宣伝やマーケティングでこの用語を誤用していることはよく知られています」と、AIモデル構築・共有プラットフォームであるHugging Faceのアプリケーションポリシー研究者、アビジット・ゴーシュ氏は述べています。ゴーシュ氏は、モデルが本当にオープンソースであるかどうかを研究者が独自に調査できない場合でも、モデルを「オープンソース」と表現することで、信頼性が高まる可能性があると述べています。

Mozillaのシニアアドバイザーであり、OSIプロセスにも参加しているアヤ・ブデール氏は、オープンソースの定義の一部、例えばモデルの重み(AIモデルの出力結果を決定するパラメータ)の公開の必要性などについては、比較的合意しやすい点があったと述べています。一方で、トレーニングデータをどのように公開すべきかという点については、議論が紛糾しました。

学習データの出所に関する透明性の欠如は、大手AI企業に対する数々の訴訟につながっています。OpenAIのような主要な言語モデルプロバイダーからSunoのような音楽ジェネレーターに至るまで、これらの企業は学習データについて、「公開情報」が含まれていると述べる以外、ほとんど情報を公開していません。

オープンソース支持者の中には、オープンソースモデルはすべてのトレーニングセットを公開すべきだと考える人もいます。Bdeir氏は、著作権やデータ所有権などの問題により、この標準を施行することは難しいと述べています。

最終的に、OSIが主導する新しい定義では、オープンソースモデルは、「熟練した人材が同一または類似のデータを使用して実質的に同等のシステムを再現できる」程度まで、トレーニングデータに関する情報を提供することが求められています。これは、すべてのトレーニングデータセットを完全に共有するという包括的な要件ではありませんが、今日の多くの独自モデル、あるいは表向きはオープンソースモデルであるにもかかわらず、さらに一歩先を行くものです。

ブデール氏は、「事実上誰にとっても効果的に実装不可能な、イデオロギー的に原始的なゴールドスタンダードに固執することは、最終的には逆効果になるだろう」と述べた。また、OSIは、オープンソースと称されながらもその定義に合致しないモデルにフラグを立てる、何らかの強制メカニズムの開発を計画していると付け加えた。

同組織はまた、新しい定義を満たすAIモデルのリストも公開する予定です。確定ではありませんが、Bdeir氏は、EleutherのPythia、Ai2のOLMo、オープンソースグループLLM360のモデルなど、比較的小規模なモデルがリストに含まれると予想しています。