|
Meta Inc.は、テキスト、音声、画像、温度、動きの計測など、複数のデータストリームを統合する新しいオープンソースAIモデル「ImageBind」をリリースしました。現在はまだ研究プロジェクトであり、直接的な消費者や実用化への応用は未定ですが、このモデルは、没入型の多感覚体験を創造できる将来の生成AIシステムの可能性を示しています。また、このモデルはMetaのAI研究に対するオープンなアプローチを反映しており、OpenAIやGoogleなどの競合他社がますます閉鎖的になっていることとは対照的です。 この研究の中核となる概念は、複数の種類のデータを多次元インデックス(AI用語では「埋め込み空間」)に統合することです。この概念は抽象的に見えるかもしれませんが、近年の急成長を遂げている生成AIの基盤となっています。例えば、DALL-E、Stable Diffusion、MidjourneyといったAI画像生成ツールは、学習段階でテキストと画像を関連付けるシステムを利用しています。これらのシステムは、視覚データ内のパターンを探索しながら、その情報を画像の説明と関連付けます。そのため、これらのシステムはユーザーのテキスト入力に基づいて画像を生成できます。同じ原理は、同様に動画や音声を生成できる多くのAIツールにも当てはまります。 Metaは、同社のImageBindモデルが、6種類のデータを単一の埋め込み空間に統合した初のモデルであると主張している。これらの6種類のデータには、視覚情報(画像や動画を含む)、熱画像(赤外線画像)、テキスト、音声、深度情報、そして最も興味深いのは、慣性計測ユニット(IMU)によって生成される動きの読み取りデータが含まれる。(IMUはスマートフォンやスマートウォッチに搭載されており、スマートフォンを横向きから縦向きに切り替えることから、さまざまな種類の動きを区別することまで、様々なタスクを実行するために使用されている。) 将来のAIシステムは、現在のシステムがテキスト入力で行っているように、これらのデータを相互参照できるようになるでしょう。例えば、音声と視覚の入力だけでなく、周囲の環境や物理的なプラットフォームの動きも生成できる将来のVRデバイスを想像してみてください。このデバイスに長い航海のシミュレーションを依頼すれば、波の音を背景に船上にいるだけでなく、足元のデッキの揺れや潮風を感じることができるでしょう。 Metaはブログ投稿で、将来のモデルでは「触覚、音声、嗅覚、そして脳からの機能的磁気共鳴画像法(fMRI)信号」といった追加の感覚入力ストリームを組み込む可能性があると指摘した。同社はまた、この研究により「機械は、複数の異なる形式の情報から同時に、包括的に、そして直接的に学習する人間の能力に近づく」と主張した。 もちろん、これらの多くは予測に基づいており、この研究の直接的な応用は非常に限られるでしょう。例えば、昨年Metaは、テキストの説明に基づいて短くぼやけた動画を生成できるAIモデルを実証しました。ImageBindのような研究は、システムの将来のバージョンが、動画出力と一致する音声を生成するなど、他のデータストリームをどのように統合できるかを示しています。 この調査は業界関係者にとっても興味深いものです。IT Home は、Meta が基礎モデルをオープンソース化しており、この取り組みが人工知能の分野でますます注目を集めていると指摘しています。 |