|
マイクロソフトは最近、AI駆動型コンテンツモデレーションシステムを監査し、AIモデルの潜在的なエラーを指摘するテストを自動作成するために設計された複数のツールとデータセットをオープンソース化したと発表しました。マイクロソフトによると、AdaTestプロジェクトと(De)ToxiGenプロジェクトは、人間レベルの複雑さを持つテキストを分析・生成するための、より信頼性の高い大規模言語モデル(LLM)、あるいはOpenAIのGPT-3に類似したモデルを生成できるとのことです。 現在、LLM(限定学習モデル)は多くのリスクに直面しています。これらのモデルはインターネット(ソーシャルメディアを含む)からの膨大なデータで学習されるため、学習中に有害なテキストに遭遇する可能性があります。再学習にかかるコストと膨大なエラー数のため、こうした欠陥を特定して修正することは依然として困難です。 有害性の問題に対処するため、Microsoft Researchチームは、有害な言語を検知するためのコンテンツモデレーションツールのトレーニングに用いられるデータセット「ToxiGen」を開発しました。Microsoftによると、ToxiGenには「中立的」および「有害」な発言の事例が27万4000件収録されており、公開されているヘイトスピーチのデータセットとしては最大級の規模を誇ります。 Microsoft Research パートナー研究領域マネージャー兼 AdaTest および (De)ToxiGen のプロジェクト リーダーである Ece Kamar 氏は次のように述べています... あらゆるコンテンツ・モデレーション・システムには欠陥があり、これらのモデルは継続的な改善が必要であることを認識しています。(De)ToxiGenの目標は、AIシステムの開発者が既存のコンテンツ・モデレーション技術におけるリスクや問題をより効果的に特定できるようにすることです。 私たちの実験では、このツールが多くの既存のシステムをテストするために使用できることが実証されており、このツールの恩恵を受ける新しい環境についてコミュニティから学ぶことを楽しみにしています。 サンプルを生成するために、Microsoft Research チームは、黒人、身体障害者および認知障害者、イスラム教徒、アジア人、ヒスパニック、LGBTQ+、ネイティブアメリカンを含む13のマイノリティグループを標的とした「中立的」な発言とヘイトスピーチのLLMサンプルを提供しました。これらの発言は、既存のデータセットに加え、ニュース記事、オピニオン記事、ポッドキャスト録音、その他の同様の公開テキストソースから抽出されました。 マイクロソフトチームは、ToxiGenステートメントの作成に使用される「(De)ToxiGen」と呼ばれるプロセスは、LLM生成ツールが誤認する可能性のあるステートメントを特定できるようにすることで、特定の監査ツールの弱点を明らかにするように設計されていると説明しました。チームは、手動で作成された3つの毒性データセットの調査を通じて、ツールをToxiGenで微調整することで、そのパフォーマンスを「大幅に」向上できることを発見しました。 マイクロソフトチームは、ToxiGenの作成に使用された戦略を他の分野にも応用し、より「巧妙」かつ「巧妙」な中立的・ヘイトスピーチの例を生成できると考えています。しかし、専門家はこれが万能薬ではないと警告しています。 |
Microsoft は、言語モデルをより調和のとれたものにするために、複数のツールとデータセットをオープンソース化しています。
関連するおすすめ記事
-
CPU使用率チェックってすごく楽しい!このとってもかわいいCPUツールを使ったことはありますか?
-
100 倍の高速化を実現!Google が強力なテンソル コンピューティング ライブラリ TensorNetwork をオープンソース化しました。
-
Web コンポーネント、始めましょう!Web コンポーネントの世界を探検しましょう!
-
5つの優れた.NETオープンソースおよび無料Redisクライアントコンポーネントライブラリ
-
国をあげてWindowsやLinuxに匹敵する国産OSを開発することは可能だろうか?
-
オープンソースのダウンロードのパワーハウス、Motrix:オールインワンのダウンロードツール