DUICUO

Metaは、閩南語と英語間の直接音声翻訳を可能にする、初のオープンソースAI搭載音声翻訳システムをリリースしました。

機械翻訳は、人類にとって言語の壁を取り除き、バベルの塔を再建するための新たなツールです。しかし、世界には7,000以上存在する言語がありますが、リソースの少ない言語の多くは十分な注目を集めていません。特に、その半数近くが標準的な表記体系を欠いているためです。これは機械翻訳ツールの構築における大きな障害となっており、現在のAI翻訳は主に表記言語に焦点を当てています。

Meta は、AI を活用して自然言語翻訳を推進し、「取り残される言語をゼロにする」という目標に取り組んでいます。

例えば、中国語の方言の一つである閩南語には現在、専用の機械翻訳システムがあり、閩南語話者は英語話者とバリアフリーの会話を行うことができる。

これはMetaがオープンソース化した、AIを活用した非筆記音声翻訳システムとしては初の試みです。Meta AIの主任研究員であるPeng-Jen Chen氏とMark Zuckerberg氏の会話をお聞きください。Chen氏は中国台湾生まれです。

このシステムは、福建語を英語に、またその逆の翻訳が可能です。福建語を話す読者の方は、ぜひお試しいただき、翻訳品質の高さをご確認ください。

このオープンソース翻訳システムは、MetaのUniversal Speech Translation(UST)プロジェクトの一部であると考えられています。このプロジェクトは、既存のあらゆる言語のリアルタイム音声翻訳を実現するための新たな人工知能手法の開発を目指しています。Metaはすでに翻訳モデルと評価データセットをオープンソース化しており、その研究論文は以下の通りです。

論文リンク: https://research.facebook.com/file/799432337944526/Speech-to-speech-translation-for-a-real-world-unwritten-language.pdf

1.トレーニングデータの課題を克服する

閩南語は中国語の方言です。リソースが乏しく、標準的な表記体系を持たない言語です。また、英語から閩南語への翻訳者も比較的少ないため、モデルの学習データの収集とラベル付けが困難になっています。

キャプション:福建語を話す人の数

この問題を解決するため、Meta AIの研究チームは独自のアプローチを採用しました。中国語(高リソース言語)を中間言語として用い、疑似ラベルと人間による翻訳を構築しました。まず英語(または閩南語)の音声を中国語のテキストに翻訳し、それを閩南語(または英語)に再翻訳して学習データに追加しました。この手法により、類似の高リソース言語のデータを活用することで、モデルの性能が大幅に向上しました。

音声マイニングは、学習データを生成するもう一つの手法です。事前学習済みの音声エンコーダを用いることで、福建語の音声を他の言語と同じ意味空間に埋め込むことができるため、福建語に書き言葉が存在しないという問題も解消されます。福建語の音声は、意味的に類似した英語の音声やテキストと整合させることができ、そのテキストから英語の音声を合成することで、福建語と英語の音声を並列に生成することができます。

キャプション: 人間による注釈なしの音声翻訳モデル

2.新しいモデリングアプローチ:音声対音声

多くの音声翻訳システムは、文字起こしや音声テキスト変換システムに依存しています。しかし、福建語は主に話し言葉で、標準的な文字体系がないため、テキストへの文字起こしは不可能です。そこでMetaは、音声翻訳システムを構築しました。

研究者らは、Metaが先駆的に開発した音声単位変換(S2UT)を用いて、入力音声を一連の音響単位に直接変換しました。そして、これらの音響単位から波形が生成されました。さらに、研究者らはUnityをデュアルチャネルデコード機構として採用しました。第1チャネルデコーダーは関連言語(例えば、中国語)でテキストを生成し、第2チャネルデコーダーは単位を作成しました。

キャプション: Unity モデルアーキテクチャ

3.新しい精度評価システム

音声翻訳システムの評価ツールは通常、ASR-BLEU メトリックです。これは、最初に自動音声認識 (ASR) を使用して翻訳された音声をテキストに書き起こし、次に書き起こされたテキストを人間が翻訳したテキストと比較して BLEU スコアを計算します。

しかし、福建語の音声翻訳システムの評価における課題は、標準的な表記法が存在しないことです。そこで研究者らは、評価を自動化するために、福建語の音声をTâi-lôと呼ばれる標準化された音声表記法に書き写すシステムを開発しました。これにより、音節レベルでBLEUスコアを計算できるようになり、異なる手法による翻訳品質の比較が可能になります。

研究者たちは、閩南語と英語の音声翻訳を評価するためのこの手法の開発に加え、閩南語方言コーパス「台湾語(Taiwanese Across Taiwan)」に基づいて、閩南語と英語の双方向音声翻訳のベンチマークデータセットを初めて作成しました。このベンチマークデータセットは、より多くの研究者が閩南語方言の音声翻訳研究を行えるよう、オープンソース化されます。

4.福建語だけじゃない

この研究で使用された手法は、他の多くの書き言葉や非書き言葉にもさらに拡張することができます。

この目的のため、MetaはSpeechMatrixもリリースしました。これは、Metaの革新的なデータマイニング技術LASERを用いて、欧州議会で録音された実際の演説からデータを抽出する、大規模な音声翻訳コーパスです。このデータベースには、136の言語ペア、合計41万8000時間の音声が収録されています。マイニングされたデータとモデルは無料で提供されるため、研究者は独自の音声翻訳(S2ST)システムを構築できます。

キャプション:LASERマイニングによって得られた音声対音声ペアデータ

Metaの教師なし音声認識(wav2vec-U)と教師なし機械翻訳(mBART)における研究の進歩は、音声翻訳作業にも貢献しています。例えば、音声モデルの事前学習に用いられる教師なしドメイン適応技術は、特にリソースの少ない言語において、下流の教師なし音声認識の性能を向上させ、手作業によるアノテーションを必要とせずに高品質な音声翻訳モデルの構築を可能にしました。

このモデルはまだ開発中であり、現時点では一度に1つの完全な文しか翻訳できませんが、これは将来、言語間の同時通訳を実現するための一歩となります。

Meta AIの研究者であるPeng-Jen Chen氏によると、この福建語翻訳システムは、彼の個人的な願望に着想を得たものだという。彼は台湾で育ち、北京語を話せるが、父親の北京語は下手で、父親が誰とでも福建語で流暢にコミュニケーションを取れるよう願っていたという。これもまた、AIが人類にとって持つ意味の一つである。