DUICUO

76 時間のモーション キャプチャ、オープン ソースでこれまでにリリースされた最大のデジタル ヒューマン マルチモーダル データセット。

メタバースの台頭とデジタルヒューマンモデリング技術の商用化に伴い、デジタルヒューマンアニメーション技術チェーンの次の重要なリンクとしてのAI駆動型デジタルヒューマンアルゴリズムは、学界と産業界からますます関心と注目を集めています。これらのうち、会話型モーション生成(音などの制御信号から手足や手の動きを生成)は、VRチャット、仮想ライブストリーミング、ゲームNPCなどのシナリオでの駆動コストを削減できるため、過去2年間で研究のホットスポットとなっています。ただし、オープンソースデータの不足により、既存のモデルは、ポーズ検出アルゴリズムによって提供される疑似ラベル付きデータセットや、単一の話者の小規模モーションキャプチャデータセットでテストされることがよくあります。データ量、データアノテーション、およびデータ品質の制限により、既存のアルゴリズムは、感情に関連し、アクションセマンティクスに関連した、パーソナライズされた高品質の手の動きを生成するのに苦労しています。

前述の課題に対処するため、ファーウェイ東京研究所デジタルヒューマンラボは、東京大学などの研究機関と共同で研究を行い、これまでで最大規模のデジタルヒューマンマルチモーダルデータセットであるBEAT(Body-Expression-Audio-Text)を提案しました。このデータセットは、モーションキャプチャデバイスで収集された76時間の会話データと意味的感情注釈で構成されています。生データには、手足と手のモーションキャプチャデータ、ARKit標準の52次元顔ブレンドシェイプウェイト、音声、テキストが含まれます。注釈データには、8つの感情分類ラベル、動作タイプ分類、意味的関連スコアが含まれます。BEATをベースにした新しいベースラインモデルであるCaMN(Cascade-Motion-Network)は、BEATの他の3つのモダリティと注釈を入力として使用し、カスケードニューラルネットワーク構造を採用しています。これは、動作生成タスクにおいて既存の最先端(SoTA)アルゴリズムを大幅に上回ります。論文「BEAT: 会話ジェスチャー合成のための大規模な意味的および感情的マルチモーダルデータセット」は ECCV 2022 で公開され、データセットは現在オープンソースとなっています。


  • 著者:Haiyang Liu、Zihao Zhu、岩本直也、Yichen Peng、Zhengqing Li、You Zhou、Elif Bozkurt、Bo Zheng。
  • 機関: Huawei 東京研究所デジタルヒューマンラボ、東京大学、慶応義塾大学、北陸先端科学技術大学院大学。
  • 論文リンク: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136670605.pdf
  • プロジェクトホームページ: https://pantomatrix.github.io/BEAT/
  • データセットのホームページ: https://pantomatrix.github.io/BEAT-Dataset/
  • ビデオ結果: https://www.youtube.com/watch?v=F6nXVTUY0KQ

レンダリングされたデータを以下に示します (上から下へ: 怒り、恐怖、驚き、悲しみの感情を抱いている人々の行動):






レンダリング結果には、HumanGeneratorV3 によって生成されたボディ モデルと顔モデルが使用されました。

BEATデータセットの詳細

アクションテキスト意味関連性注釈

会話型アクション生成の分野における重要な課題は、生成されたアクションとテキストとの間の意味的関連性をどのように生成し評価するかである。この関連性は、生成されたアクションの品質に対する人々の主観的な評価に大きく影響する。既存の研究では、アノテーションの欠如により、評価のために一連の主観的な結果を選択することが多く、不確実性が高まっている。BEATデータセットでは、アクションカテゴリ分類に基づく関連性スコアがアクションに与えられており、ビート(1)、指示的(2-4)、イクノイック(5-7)、メタフォイック(8-10)の4つのカテゴリに10段階に分類されている。この分類は、1992年にMcNeillらが行った会話型アクションの分類を参照しており、後者の3つのカテゴリにはそれぞれ低、中、高品質の3つのレベルがある。

しかし、実際の会話では、現在のテキストセマンティクスに対応するアクションが、それよりも早く、あるいは遅く発生する可能性があります。この問題に対処するため、アノテーターはアノテーションプロセス中に、現在のアクションが属するカテゴリを決定します。

1. アクションの開始と終了によって注釈の範囲を決定することで、アクションの整合性が確保されます。

2. 現在のアクションに最も関連性の高いキーワードを入力して、アクションとそれに対応するテキストが表示された正確な時刻を取得します。

感情に基づく対話

BEATデータセットでは、各話者に8つの異なる感情下での会話行動を記録してもらい、行動と感情の本質的な関係性を分析しています。プレゼンテーション中、自然な感情は51%を占め、怒り、幸福、恐怖、嫌悪、悲しみ、軽蔑、驚きはそれぞれ7%を占めていました。行動のクラスタリング結果は、下図に示すように、行動と感情の相関関係を示しています。

データの規模と収集の詳細

BEATは、16台のカメラを搭載したモーションキャプチャシステムViConを使用して、音声と会話データを記録します。すべてのデータは最終的に、関節の回転角度を表す120fpsのBVHファイルとしてリリースされます。顔データについては、BEATはiPhone 12 Proを使用して、話者の52次元ブレンドシェイプウェイトを記録します。ただし、各人物の頭部モデルは除外されます。iPhoneのニュートラルフェイスビジュアライゼーションの使用が推奨されます。BEATは16kHzのオーディオデータを使用し、音声認識アルゴリズムによってテキスト疑似タグを生成し、タイムスタンプ付きのTextGridデータを生成します。

BEATには、英語、中国語、スペイン語、日本語の4言語のデータが含まれており、それぞれ60時間、12時間、2時間、2時間のデータ量です。データは10カ国30人の話者によって録音されました。中国語、スペイン語、日本語の話者は、言語間の行動の違いを分析するために、同時に英語のデータも録音しました。

発話セクション(データセットの50%)では、30人の話者にそれぞれ約1分間の同じ大量のテキストを読ませ、合計120本のテキストを読ませました。これは、テキスト内容が同一であることを考慮に入れ、話者間の文体の違いを研究することで、パーソナライズされたアクション生成を実現することを目的としています。会話セクション(50%)では、話者は与えられたトピックについて監督と約10分間の議論を行いましたが、ノイズを除去するため、話者自身のデータのみが記録されました。

下の表は、BEATと既存のデータセットを比較したもので、緑色のハイライトは最も高い値を示しています。BEATは現在、マルチモーダルデータとアノテーションを含む最大のモーションキャプチャデータセットであることがわかります。


マルチモーダル駆動型アクション生成ベースラインモデル

BEATは、マルチモーダル駆動型行動生成ベースラインモデルであるCaMN(Cascade Montion Network)を提案します。CaMNは、音声・テキスト・顔データに加え、感情や意味の注釈を入力として受け取り、より高品質な会話行動を生成します。ネットワークのバックボーンは、複数のカスケード接続されたエンコーダと、2つのカスケード接続されたLSTM+MLPデコーダで構成され、体の動きと手の動きを生成します。データは15fpsにダウンサイジングされ、単語と文には音声の無音時間に対応するマーカーが埋め込まれます。具体的なネットワーク構造を下図に示します。

テキスト、音声、および話者識別エンコーダのネットワーク選択は既存の研究に基づいており、BEATデータセットに合わせて構造的に修正されています。顔ブレンドシェイプの重みデータには、残差ネットワークに基づく1次元TCN構造が使用されています。最終的なネットワークの損失関数は、セマンティックアノテーションの重みと動作再構成損失の組み合わせです。

異なる話者からのデータの場合、ネットワークは、生成されるアクションの多様性を向上させるために、異なる敵対的損失も採用します。

実験結果

研究者らはまず新しい評価指標であるSRGRを検証し、次に主観的な実験に基づいてBEATのデータ品質を検証し、提案されたモデルを既存の方法と比較しました。

SRGRの有効性

SRGRの有効性を検証するため、研究者らは動作シーケンスを約40秒のセグメントにランダムに分割し、参加者に各セグメントをジェスチャーの正確性、多様性、魅力に基づいて評価してもらいました。合計160人が評価に参加し、各参加者は平均15個のランダムなジェスチャーセグメントを評価しました。グラフは、ジェスチャーの多様性を評価する上で、L1の多様性と比較して、SRGRが人間の感覚知覚に近いことを示しています。

データ品質

研究者らは、この新しいBEATデータセットの品質を評価するために、広く使用されているモーションキャプチャデータセットTrinityをベンチマークとして使用しました。各データセットは、トレーニング、検証、テスト用にそれぞれ19:2:2の比率で分割され、既存の手法であるS2Gとaudio2gesturesを用いて比較されました。評価では、異なるデータセット間のトレーニング結果の正確性(体の動きの正確さ)、手の正確性(手の動きの正確さ)、多様性(動きの可変性)、同期性(動きと音声の同期)に主に焦点が当てられました。結果は以下の表に示されています。

表からわかるように、BEATはあらゆる側面において監督者から高い評価を得ており、このデータセットがTrinityをはるかに上回っていることを示しています。また、データ品質の面では既存のビデオデータセットS2G-3Dを上回っています。

ベースラインモデルの評価

提案モデルCaMNの性能を検証するため、以下の条件下で既存手法Seq2Seq、S2G、A2G、MultiContextと比較しました。実験の詳細は以下のとおりです。

  • このデータセットは、4人の話者からのデータを用いて15時間にわたってモデルを学習するために使用されました。その後、検証セットにおける様々なモデルの最適な重みがテストセットでテストされました。
  • L1 損失は生成されたアクションのパフォーマンスを評価するのに適していないことが示されているため、評価メトリックとして FGD が採用されました。
  • ジェスチャーの多様性と音声との同期を評価するために、研究者らは本論文で提案された SRGR と、ダンスモーション生成で一般的に使用される BeatAlign インデックスを使用しました。

検証結果は下表の通りです。CaMNは全ての評価指標において最高得点を獲得しました。

以下は CaMN によって生成されたジェスチャの例です。

この図は、実際のデータ サンプル (上) と CaMN によって生成されたアクション (下) を示しており、生成されたアクションには意味的な関連性があります。

要約

本論文では、より生き生きとした会話動作を生成するための、大規模マルチモーダルデジタルヒューマン駆動型データセットであるBEATを紹介します。このデータセットは、リップシンク、表情認識、発話スタイル変換など、デジタルヒューマン駆動型コンピューティングの他の分野にも応用できます。