|
AIがコンサートを独力で鑑賞できることをご存知ですか?しかも、演奏シーンにおける各楽器の演奏状況まで把握できるのです。驚きですよね?人間にとって美しいコンサートを鑑賞することは非常に楽しい体験ですが、機械にとって、美しいメロディーとエキサイティングな演奏シーンを組み合わせて鑑賞体験を高めることは、なかなか難しい課題です。 最近、中国人民大学高陵人工知能学院のGeWu研究室は、この問題に対処するための新しいフレームワークを提案し、AIが人間のように楽器の演奏を視聴し、与えられた視聴覚問題に対してクロスモーダルな時空間推論を実行できるようにしました。 この研究はCVPR 2022に採択され、口頭発表として選出されました。関連するデータセットとコードはオープンソース化されています。
この興味深い仕事を見てみましょう! 1. はじめに私たちは日常生活で視覚と聴覚の情報に囲まれており、これら2種類の情報を組み合わせることで、シーンを知覚し理解する能力が向上します。例えば、コンサートにいるところを想像してみてください。演奏されている楽器を見ながら音楽のメロディーを聴くことで、演奏を大いに楽しむことができます。これに着想を得て、機械がマルチモーダル情報、特に視覚や音などの自然モダリティを統合し、人間に匹敵するシーン知覚・理解能力を実現する方法は、興味深く価値のある研究課題です。そのため、本研究では、動画内のさまざまな視覚オブジェクト、音、およびそれらの関係性に関する質問に答えることを目指す、オーディオビジュアル質問応答(AVQA)タスクに焦点を当てています。正しい答えを生み出すには、オーディオビジュアルシーンの包括的なマルチモーダル理解と時空間推論が不可欠であることは明らかです。 近年、研究者たちは音物体知覚、音響シーン分析、視聴覚シーン解析、そしてコンテンツ記述において大きな進歩を遂げてきました。これらの手法は視覚オブジェクトと音を関連付けることはできますが、複雑な視聴覚シーンにおけるクロスモーダル推論能力は依然として限られています。一方、人間はマルチモーダルシーンにおける文脈内容と時間情報を最大限に活用し、視聴覚質問応答などの複雑なシーン推論タスクを解決することができます。既存の視覚質問応答(VQA)や音声質問応答(AQA)の手法は、多くの場合、単一のモダリティにのみ焦点を当てているため、現実世界の視聴覚シナリオにおける複雑な推論タスクを適切に処理することができません。 下図のクラリネットデュエットシーンにおいて、「どちらのクラリネットが先に音を出したか?」という問いに答えるには、まず視聴覚シーンの中で音を出したクラリネットを特定し、次に時間的次元においてどちらのクラリネットが先に音を出したかに注目する必要があります。この問いに正しく答えるには、視聴覚シーンの効果的な理解と時空間的推論が不可欠です。 図1. AVQAタスク問題の例 上記の例では、視覚モダリティベースのVQAモデルのみを考慮すると、問題に含まれる音声情報の処理が困難です。逆に、音声モダリティベースのAQAモデルのみを考慮すると、問題に含まれる空間位置情報の処理は同様に困難です。しかし、聴覚情報と視覚情報を同時に利用することで、シーンを理解しやすくなり、上記の質問に正しく答えることができることがわかります。 2. データセット視聴覚シーンの理解と時空間推論をより深く探求するために、本研究では、質問応答タスクに焦点を当てた大規模な視聴覚データセット(Spatial-Temporal Music AVQA、MUSIC-AVQA)を構築しました。 視聴覚質問応答タスクの研究には、高品質のデータセットが非常に価値があることがわかっています。したがって、楽器の演奏は、豊富な視聴覚コンポーネントとそれらの相互作用で構成される典型的な視聴覚マルチモーダルシーンであることを考えると、視聴覚シーンの理解と推論タスクの探求に非常に適しています。 そこで、本研究では、YouTubeからユーザーがアップロードした多数の楽器演奏ビデオを収集しました。データセット内のビデオには、ソロ、アンサンブル、デュエットなど、さまざまな演奏形式が含まれています。 具体的には、本研究では、22種類の楽器(ギター、ピアノ、二胡、スオナなど)を選択し、9つの質問テンプレートを設計し、音、視覚、視聴覚の3つの異なるモダリティをカバーしました。 表1. MUCIS-AVQAデータセットと他のQAデータセットの多次元比較 表1に示すように、本研究で公開されたMUSIC-AVQAデータセットには、次の利点があります。1)MUSIC-AVQAデータセットは、音、視覚、視聴覚に関する質問を含む多数の質疑応答ペアをカバーしているため、他の質疑応答データセットよりも包括的で豊富です。ほとんどの質疑応答タスクデータセット(ActivityNet-QA、TVQAなど)には視覚的な質問しか含まれていないため、視聴覚関連の研究を調査することは困難です。既存のAVQAデータセット(AVSD、Pano-AVQAなど)も視聴覚に関する質疑応答ペアを提供していますが、比較的単純な質問(存在または場所)に重点を置いており、回答には空間的な推論のみが必要です。2)MUSIC-AVQAデータセットは、豊富な視聴覚コンポーネントを含む楽器演奏シーンで構成されており、視聴覚インタラクションシーンの理解と推論をよりよく研究するのに役立ち、シーン内のノイズの問題をある程度回避できます。公開されている多くの質疑応答データセット(ActivityNet-QA、AVSDなど)では、音声情報が視覚オブジェクトと一致せず、BGMなどのノイズが目立つため、異なるモダリティ間の相関関係を探ることが困難です。さらに、TVQAデータセットは視覚と音声のモダリティを含んでいますが、音声は人間の発話で構成されており、質疑応答ペアを構築する際には対応するキャプション情報のみを使用しているため、真の視聴覚連想シナリオとは言えません。 最終的なデータセットには、22種類の楽器が登場する9,288本の動画が含まれており、合計150時間以上にわたります。また、クラウドソーシングを通じて45,867の質問と回答のペアが生成され、動画1本あたり平均約5ペアが生成されました。これらのペアは、異なるモダリティの9種類の質問と33種類の質問テンプレートを網羅しています。この豊富で多様性に富み、複雑なデータセットは、AVQAタスクの研究にとって非常に価値があり、意義深いものです。 図2 MUSIC-AVQAデータセットの多次元統計解析 3. モデリングアプローチ前述の AVQA タスクに対処するために、本研究では、空間的認識と時間的認識の両方の観点から、動的な視聴覚シナリオに対する時空間的質問応答モデルを提案します (下の図を参照)。
図3 動的視聴覚シーンのための空間的・時間的質問応答モデル 4. 実験結果表2に示すように、音声と視覚の両方のモーダル情報を組み込むことで、モデル性能の向上が見られます。さらに、音声と視覚の両方のモーダル情報を組み合わせた場合、AV+QモデルはA+QモデルとV+Qモデルの両方よりも優れた性能を示しており、多感覚知覚が質問応答タスクの性能を向上させることを示しています。また、視聴覚空間連想モジュールと時間連想モジュールの両方がモデル性能を大幅に向上させ、シーンの理解度向上につながっていることもわかります。 表2 異なるモダリティにおけるアブレーション実験 表3は、MUSIC-AVQAデータセットにおけるいくつかの最近のQA手法の結果を示しています。まず、すべてのAVQA手法がVQA、AQA、VideoQA手法よりも優れていることが示されており、マルチモーダル知覚がAVQAタスクに有益であることを示しています。次に、本研究で使用した手法は、ほとんどの視聴覚問題、特に空間的および時間的推論(時間的推論や定位など)を必要とする問題において、大きな進歩を遂げています。 表3 他のQA方法との比較 提案モデルの有効性と解釈可能性をさらに示すために、いくつかの視覚化が提示されました。ヒートマップは音源の位置を表し、ヒートマップの下の表は時間経過に伴う注目度スコアを示しています。これらの視覚化は、提案モデルがマルチモーダルな視聴覚シナリオにおいて優れた理解力と推論力を備えていることを明確に示しています。 図4 可視化結果 5. 概要本論文では、動画内の様々な視覚オブジェクト、音、およびそれらの関連性に関する質問への回答方法を探り、動的に複雑な視聴覚シーンのきめ細かな理解と推論を可能にすることを目指しています。著者らは、様々な視聴覚様式と質問タイプにわたる45,867の質問と回答のペアを含む大規模なMUSIC-AVQAデータセットを構築し、AVQA問題を効果的に解決するためのシンプルで効率的な視聴覚時空間モデルを提案しました。本研究では、提案されたMUSIC-AVQAデータセットが、視聴覚シーンにおけるきめ細かな理解と時空間推論を評価するためのベンチマークプラットフォームとして利用できると考えています。また、本研究は視聴覚推論の探究における先駆的な取り組みであり、この分野にとって良い先例となるものであり、より多くの研究者が本分野の探究に協力してくれることを期待しています。 チームのメンバーは主に人民大学人工知能学部の出身者です。 この研究は、中国人民大学高陵人工知能学院がロチェスター大学と共同で行ったものです。責任著者はGeWu研究室のHu Di助教授であり、主な研究内容はGeWu研究室の博士課程学生であるGuangyao Liが主導しました。 GeWu研究室の現在の研究は、マルチモーダルシーン理解、マルチモーダル学習メカニズム、そしてクロスモーダルインタラクションと生成に焦点を当てています。過去6ヶ月間で、研究室のメンバーは、TPAMI(人工知能分野で最も高いインパクトファクターを持つジャーナル、IF=17.861)やCVPR論文(すべて口頭発表)など、質の高い論文を複数発表しました。 追記:研究者らは、一般的に使用されているマルチモーダルモデルが、特定のシナリオにおいて他の支配的なモダリティの影響により、シングルモーダル表現が最適化されていないという問題を抱えていることを発見しました。この問題に対処するため、研究者らはOGM-GE法を設計しました。この法は、学習目標に対する異なるモダリティの貢献度の違いを監視することで、各モダリティの最適化を適応的に調整し、この最適化の不均衡を軽減します。この研究はCVPR 2022でも口頭発表として採択されており、詳細は後日発表される予定です。 また、GeWu研究室では、上記の研究分野に興味のある学生(学部生、修士課程、博士課程、訪問学生)の参加を心より歓迎いたします。詳細は、研究室の募集情報(https://zhuanlan.zhihu.com/p/496452639)をご覧ください。 |