DUICUO

大規模なオープンソースデータセットが衝撃的なスキャンダルに巻き込まれ、大手 AI 企業が関与していることが判明しました。

執筆者:Qingzhu

制作:51CTOテクノロジースタック(WeChat ID:blog)

大型模型の波が押し寄せるなか、必然的に次から次へと茶番劇が繰り広げられる。

まず、ByteDanceがOpenAIに禁止されるという「羅生門」のような事態が発生し、その後、GoogleのGeminiが中国語モデルの学習にBaiduのWenxin Yiyanを使用していたことが明らかになり、ネットユーザーを驚かせました。そして今、その大規模モデルがデータセットで再び失敗しました!

スタンフォード大学は最近、オープンソースのモデルトレーニングデータセット LAION-5B に関する研究を実施し、データセットには、安定拡散モデルなどの一般的な AI テキスト画像生成モデルのトレーニングに使用される、児童性的虐待資料 (CSAM) の既知の画像が数百枚含まれていることを発見しました。

ここで言及した、LAION-5B を使用して独自のモデルをトレーニングしている企業には、人気の Stability AI や Google などがあります。

この事件の後、Stability AIはすぐにこの問題から距離を置き、「Stable DiffusionモデルはLAION-5Bを使用してトレーニングされましたが、トレーニングセットの選択および微調整されたバージョンを使用していたため、モデルの出力には影響しませんでした」と述べました。Googleも、Imagenモデルの反復処理ではLAIONデータセットを使用していないと述べています。

1. モデル用の大規模オープンソースデータセットが「崩壊」

スタンフォード大学のInternet Watchによる最近の報告によると、大規模なオープンソースAIデータセットLAION-5Bが、Stable DiffusionやGoogleのImagenといった人気のAIテキスト画像生成ツールの学習に利用されていることが明らかになりました。このデータセットには、少なくとも1,008件の児童性的虐待コンテンツが含まれています。

報告書によると、2022年3月に公開されたLAION-5Bデータセットには、インターネットから収集された50億枚以上の画像と関連キャプションが含まれており、さらに数千点に及ぶ児童性的虐待の疑いのあるコンテンツ(CSAM)も含まれている可能性がある。報告書は、データセットに含まれるCSAMコンテンツの存在により、このデータに基づいて構築されたAI製品が、新たな、そしておそらくは現実の児童虐待コンテンツを出力する可能性があると警告している。

3ヶ月前、研究者たちはLAIONデータセットの精査を開始し、ハッシュ値や画像識別子を解析することで、そこに含まれる児童性的虐待素材(CSAM)の量を調査しました。調査の結果、データセットには、ソーシャルメディアの投稿や人気アダルトサイトから収集された少なくとも1,679枚の違法画像など、様々なソースから収集されたCSAMが含まれていることが明らかになりました。

研究者たちは、問題のある画像のURLを米国の国立行方不明・搾取児童センター(NCMEC)とカナダ児童保護センター(C3P)に報告しました。これらの機関は、主にPhotoDNAなどのハッシュツールを用いて画像を検出し、フィンガープリントをデータベースと照合しています。

研究者らは、悪用されたコンテンツは確認しておらず、一致した結果を国立被搾取児童センター(NCMEC)に報告し、必要であればカナダ児童保護センターによる検証を受けると述べている。

2. LAION: データセットは問題ありません。問題は検索方法にあります。

この事件を受けて、LAIONはメディアに対し、「極度の注意」からデータセットを一時的に削除し、「再公開する前に安全を確保する」と語った。

LAIONのウェブサイトによると、同データセットは画像リポジトリを維持していないとのことです。データセットは主にインターネットのインデックスから取得されており、クロールした画像へのリンクと代替テキストが含まれています。

LAION の公式 Web サイトにある FAQ をざっと見てみると、LAION はデータセットのセキュリティとコンプライアンスにあまり自信がないことがわかります。

例えば、LAIONデータセットに閲覧者の不快感を与える可能性のある画像が含まれているかどうかという質問に対し、LAIONは明確に「いいえ!」と回答しました。しかし、その後すぐにユーザーに責任を押し付け、「ただし、データセット内のリンクは、フィルターや検索方法によっては、画像が不快または不快に見える可能性があります」と反論しました。

写真

この「データセット事故」の被害者の1社であるStability AIは、モデルのトレーニングにLAION-5Bを使用したものの、データのセキュリティを確保するためにデータセットを微調整したと明言した。

Googleはすぐにこの問題から距離を置いた。Imagenの初期バージョンは研究目的のみで、LAION-5Bの旧バージョン(LAION-400M)で学習されており、その後のバージョンではLAIONデータセットは使用されていない。しかし、この回答はすぐに反論された。スタンフォード大学の報告書によると、Imagenの開発者は400Mに「ポルノ画像、人種差別的な中傷、有害な社会的偏見など、様々な不適切なコンテンツ」が含まれていると判断したという。

GoogleはLAIONデータセットの性質を実際に認識していました。Imagenがリリースされた当時、GoogleはLAION-400Mについて特に警告を発していました。未処理のネットワークデータに依存しているため、大規模モデルに固有の社会的バイアスや限界が組み込まれており、一般公開には適さないと警告していたのです。

スタンフォード大学の研究者らは、CSAMの存在がデータセットで学習したモデルの出力に必ずしも影響を与えるわけではないものの、モデルは常に画像から何かを学習できると述べています。また、問題のあるコンテンツ、特にAIモデルを完全に削除することは困難であると認め、LAION-5Bで学習したモデルを廃止し、可能な限り配布を停止することを推奨しました。

3. 過去に複数回の記録がある。

LAION の画像データセットが攻撃されたのは今回が初めてではないと誰が考えたでしょうか?

2021年10月、認知科学者のアベバ・ビルハネ氏(現在はMozilla AIのシニアリサーチャー)が、初期の画像データセットLAION-400Mを研究した論文を発表しました。この研究では、データセットに「不快なほど露骨な画像とテキストのペア」が含まれていることが判明しました。

さらに、LAIONは2件の訴訟に巻き込まれている。

2023年初頭、3人のアーティストがStability AIと他の2社を相手取り訴訟を起こしました。訴訟の提起者は、これらの企業がLAION-5Bの著作権で保護された数百万枚の画像を画像生成モデルの学習に使用したと主張しています。著名なアーティストの一人であるカーラ・オルティス氏も、演説でLAION-5Bデータセットを批判し、「LAION-5Bには、個人の医療記録、同意のないポルノ、子供の画像、さらにはソーシャルメディアに投稿された私たちの素顔写真など、非常に不快なコンテンツが含まれています」と述べました。

同様の理由から、別の訴訟も提起されました。ゲッティイメージズは、スタビリティAIを、露骨かつ大規模な知的財産権侵害で訴えました。ゲッティイメージズは、スタビリティAIがLAION経由で1,200万枚もの写真を無断で取得し、スタビリティ拡散の学習に使用したことで、ゲッティイメージズの著作権および商標権を侵害したと主張しました。

4. AIトレーニングにおけるデータコンプライアンスの問題

大規模AI学習データにおける「力ずく」の美学は、利用可能なデータ量が多く、その品質が高いほど、モデルの性能が向上するというものです。企業が自ら蓄積したデータに加え、オープンソースのデータセットも大規模モデルのデータソースの一部となっています。多様なソースから得られるAI学習データのコンプライアンスを確保することは、企業にとって大きな課題となっています。

人工知能技術の応用におけるデータコンプライアンスの問題には、主に次の側面が含まれます。

まず、データプライバシー保護の問題があります。個人や組織の機密情報は、機械学習モデルの学習やデータ分析に使用される可能性があります。そのため、データの暗号化、匿名化、アクセス制御など、データプライバシーを保護するための対策が必要です。

第二に、データの信頼性と正確性は非常に重要です。モデルの学習精度とパフォーマンスは、学習データの品質に依存します。そのため、データの信頼性と正確性を確保するためには、不要なデータの削除、データ品質の確認、機密情報の削除、データのラベル付けなどの対策が必要です。

第三に、データの所有権の問題があります。医療記録や交通流データなど、多くのデータは複数の組織によって共有されています。そのため、データの不正利用や侵害を防ぐために、データの所有権と共有方法を明確にする必要があります。

最先端技術の開発は小さな挫折によって損なわれる可能性がありますが、大規模AIモデルの開発への道のりは、これらの出来事によって影を落とすべきではなく、むしろ反省を促すべきです。今回の出来事の具体的な内容に戻ると、オープンソースデータセットを提供する組織と公開データセットを利用する企業の両方が、AIアプリケーションの円滑かつ確実な導入を確実にするために、業界標準と規制を遵守する必要があります。

参考リンク:

https://venturebeat.com/ai/a-free-ai-image-dataset-removed-for-child-sex-abuse-images-has-come-under-fire-before/

https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford

https://zhuanlan.zhihu.com/p/621678747