優れたオープンソースTTSエンジン11選

TTSエンジンはテキストを音声に変換するために使用されます。人工知能の普及とデジタルデバイスの応用拡大に伴い、関連システムは音声認識とテキスト読み上げ技術への依存度が高まり、TTSの重要性はますます高まっています。

この技術により、テキストコンテンツを音声録音に変換できます。これにより、視覚障害者がテキストコンテンツを理解しやすくなり、運転手はテキストによる作業報告を聞くことができるだけでなく、誰かの声を真似てメッセージを放送したり歌を歌ったりすることで、バーチャルアナウンサーやバーチャルシンガーを実現できます。

この記事では主に、優れたオープンソースのTTSエンジンをいくつか紹介します。これらのプロジェクトは、TTSの機能をより深く理解するのに役立ちます。

1. コキーTTS

https://github.com/coqui-ai/TTS

これは、研究および実稼働環境でテスト済みのTTSディープラーニングツールキットです。200ミリ秒のレイテンシでストリーミングでき、13言語（中国語を含む）をサポートしています。

2. モジラTTS

https://github.com/mozilla/TTS

TTSは、テキスト音声生成のための高水準ライブラリです。学習の容易さ、高速性、そして高品質の間で最適なバランスを実現することを目指しています。事前学習済みのモデルに加え、データセットの品質を測定するツールも提供しており、製品および研究用途向けに中国語を含む20以上の言語をサポートしています。

3. オープンTTS

https://github.com/synesthesiam/opentts

OpenTTS は、中国語を含む複数の言語をサポートしているため、最も効果的なオープンソース TTS モデルの 1 つです。

4. メアリーTTS

https://github.com/marytts/marytts

MARY Text-to-Speech は、英語 (英国および米国)、フランス語、ドイツ語、イタリア語、ロシア語などの言語をサポートする多言語 TTS プラットフォームです。

特徴：

トークナイザーや数値拡張などの前処理技術を使用します。
マルチスレッドネットワークアーキテクチャを採用し、複数のリクエストを並行して処理します。
本質的に柔軟性があるため、純粋な Java モデルと外部モデルの両方を使用できます。
XML 構造を使用することで透明性が向上し、一般ユーザーにとっても理解しやすくなっています。

5. eスピーク

https://github.com/espeak-ng/espeak-ng

eSpeakは、WindowsとLinuxで動作するコンパクトなオープンソースのTTSエンジンです。100以上の言語と音声（中国語を含む）をサポートしています。

特徴：

このプラットフォームはテキストを簡単に音声に変換できます。これにより、システムはテキストの意味を理解することができます。
2つのシンセサイザーを搭載しています。1つはeSpeakinGシンセサイザーで、母音と強い子音を音階に合成する音加算技術を用いて音を完成させます。もう1つはKlattシンセサイザーで、同様の技術を用いながらも減算合成を採用しています。Klattシンセサイザーはデジタルフィルターを用いて子音、母音、そして強い音を区別します。
このツールは、テキストを音声に変換する際の差別化されたテクノロジーと速度の優位性により、2010 年に Google 翻訳に採用されました。
音質はクリアで心地よいです。

6. 模倣

https://github.com/MycroftAI/mimic3

Mimic は、超高速のオープンソース TTS エンジンです。

特徴：

FLITEテクノロジーをベースとしているので、音声のサウンドをカスタマイズできます。
低レイテンシのプラットフォームであり、消費するリソースはわずかです。
Linux、Android、Windows 上でシームレスに実行できます。

現在、このツールは言語障害を持つ人々にリアルな音声を提供しています。

7. CMU フライト TTS

https://github.com/festvox/flite

Festival LiteはFliteとも呼ばれます。小型のランタイムエンジンで、最速のTTSエンジンの一つと考えられています。

オープンソースで無料のエンジンであるため、多くのカスタム機能を構築できます。そのため、多くの企業がこのTTSエンジンを採用しています。

主な機能:

小さいファイルにも大きいファイルにも使えます。
スレッドセーフであり、最新バージョンでは簡単な TTS 変換が提供されます。
Windows、Linux、Android と互換性があります。
複数の言語でもご利用いただけます。

8. ムブロラ

https://github.com/numediart/MBROLA

MBROLAはMulti-Band Resynthesis OverLap Addの略で、最も広く使用されているオープンソースのTTSエンジンの一つです。複数の言語をサポートしています。

特徴：

多言語データベースを提供します。
内部のテキスト音声変換に非常に便利です。
以前は非商用ソフトウェアでしたが、現在はオープンソースのTTSエンジンとして公開されています。
安定した正確なピッチで心地よい音質を実現します。

9. マンダリンTTS

https://github.com/ranchlai/mandarin-tts

これは、研究と迅速な製品開発をサポートするために設計されたモジュール式の中国語標準語 TTS 音声合成フレームワークです。

主な機能は次のとおりです:

すべてのモジュールは YAML 経由で設定できます。
スピーカー埋め込み/韻律埋め込み/マルチストリームテキスト埋め込みをサポートし、構成可能です。
アダプターはさまざまなボコーダー (VocGAN、hifi-GAN、waveglow、melgAN) をサポートしているため、さまざまなボコーダーを簡単に比較できます。
持続時間/ピッチ/エネルギーの変動予測をサポートしており、追加の変動も簡単に追加できます。

10. FCH-TTS

https://github.com/atomicoo/FCH-TTS

英語、北京語/中国語、日本語、韓国語、ロシア語、チベット語に適用可能な高速音声合成モデル。

11.ラッスピー・パイパー

https://github.com/rhasspy/piper

Piper は、Raspberry Pi 4 向けに最適化された高速ネイティブ音声合成システムです。中国語を含む複数の言語をサポートしています。

次のようなデモを使用します。

 echo 'Welcome to the world of speech synthesis!' | \ ./piper --model en_US-lessac-medium.onnx --output_file welcome.wav

DUICUO