DUICUO

Google は、機械学習を使用して音声通話の帯域幅使用量を削減する Lyra コーデックをオープンソース化しました。

過去1年間続いたパンデミックの影響は、私たちの生活におけるオンラインコミュニケーションの重要性を如実に示しました。場所やインターネット接続の有無に関わらず、お互いのオンライン状態を知ることはかつてないほど重要になっています。だからこそ、Googleは2月にLyraを発表しました。これは、機械学習を用いて高品質な音声通話を実現する革新的な新オーディオコーデックです。

このコーデックをさらに改良するため、Googleは先日公式ブログでLyraをオープンソース化し、他の開発者がコミュニケーションアプリケーションに貢献できるようにすると発表しました。このバージョンでは、Lyraをオーディオのエンコードとデコードに使用するために必要なツールが開発者に提供され、64ビットARM Androidプラットフォーム向けに最適化され、Linux向けに開発されています。Googleはこのコードベースを拡張し、コミュニティと協力して他のプラットフォームのサポートと改善を進めたいと考えています。

ライラアーキテクチャ

Lyraのアーキテクチャは、エンコーダとデコーダの2つの部分で構成されています。誰かが電話に向かって話すと、エンコーダは音声から固有の特性を捕捉します。これらの音声特性(特徴とも呼ばれます)は40ミリ秒単位で抽出され、圧縮されてネットワーク経由で送信されます。デコーダの役割は、これらの特性を音声波形に変換し直し、電話機のハンドセットで再生できるようにすることです。

特徴量を波形にデコードするプロセスは、生成モデルによって処理されます。これは、有限の特徴量から完全な音声波形を再構築するのに適した特殊な機械学習モデルです。Lyraのアーキテクチャは、数十年にわたりインターネット通信の基盤を形成してきた従来の音声コーデックと非常によく似ています。これらの従来のコーデックはデジタル信号処理(DSP)技術に基づいていますが、Lyraの最大の強みは、生成モデルを用いて高品質の音声信号を再構築できることにあります。

Lyraアーキテクチャ図

影響

過去10年間、デバイスのコンピューティング能力の爆発的な成長は、信頼性の高い高速ワイヤレスインフラの構築ペースを上回っています。このような格差が存在する地域、特に発展途上国では、人々がより密接につながることを可能にするテクノロジーの実現は、依然として遠い未来のことです。信頼性の高いネットワーク環境が整っている地域でさえ、「いつでもどこでも」仕事ができる環境やリモートワークの台頭により、モバイルデータの利用はさらに制限されています。Lyraは、Opusなどの他のコーデックと比較して優れた品質で生のオーディオを3kbpsに圧縮しますが、完全な代替品ではなく、このような状況における帯域幅の節約を目的としています。

さらに、Google は、Lyra がオーディオ ファイルのサイズを大幅に削減できるため大量の音声データをアーカイブしたり、Lyra エンコーダーを利用してモバイル デバイスのバッテリ電力を節約したり、緊急時に多くの人が同時に電話をかけようとしたときにネットワークの混雑を緩和したりするなど、他の独自の用途もある可能性があることを認識しています。

オープンソース版

Lyraのコードは、速度、効率、相互運用性を向上させるためにC++で記述されています。徹底的なユニットテストのためにBazelビルドフレームワークとGoogleTestフレームワークを使用しており、Apacheライセンスの下で配布されています。ご興味のある方は、GitHubにアクセスしてソースコードとデモをご覧ください。

この記事はOSCHINAから転載したものです。

記事タイトル: GoogleがLyraコーデックをオープンソース化、機械学習を活用して音声通話の帯域幅使用量を削減

この記事のアドレス: https://www.oschina.net/news/136239/google-open-source-lyra