|
Facebook AI Research(FAIR)は先日、初の完全畳み込み音声認識ツールキットであるwav2letter++のオープンソース化を発表しました。このシステムは音声認識に完全畳み込みアプローチを採用しており、音声認識のためのエンドツーエンドのニューラルネットワークの学習速度は他のフレームワークの2倍以上です。FAIRはブログでこのオープンソース化の詳細な紹介を掲載しています。
エンドツーエンドの音声認識技術は、複数の言語に容易に拡張でき、多様な環境でも認識品質を維持できるため、効率的で安定した技術であると広く認識されています。リカレント畳み込みニューラルネットワーク(RNN)は、言語モデリング、機械翻訳、音声合成など、長距離依存性を持つモデリングタスクの処理に有利ですが、エンドツーエンドの音声認識タスクにおいては、リカレントアーキテクチャが依然として主流のアプローチとなっています。 こうした状況を踏まえ、Facebook AI Research(FAIR)の音声グループは先週、同社初の完全畳み込み型音声認識システムを発表しました。このシステムは完全に畳み込み層で構成されており、特徴抽出ステップを省略し、音声波形から書き起こしテキストを予測するエンドツーエンドのトレーニングのみを採用しています。その後、外部の畳み込み言語モデルを用いてテキストをデコードします。これに続き、Facebookは、エンドツーエンドの音声認識技術の迅速なイテレーションを可能にする高性能フレームワークであるwav2letter++のオープンソース化を発表しました。これにより、将来の最適化とモデルチューニングのための強固な基盤が築かれます。 wav2letter++に加え、機械学習ライブラリFlashlightもオープンソースとして発表されました。FlashlightはC++で構築された機械学習ライブラリで、ArrayFireテンソルライブラリを使用し、C++でリアルタイムコンパイルされています。CPUとGPUバックエンドの効率性とスケーラビリティを最大化することを目指しています。wave2letter++ツールキットは、同じくC++で記述されたFlashlightをベースに構築されており、テンソルライブラリとしてArrayFireを使用しています。 このセクションでは、CUDA GPUおよびCPUがサポートする様々なバックエンドで実行可能なArrayFireに焦点を当てます。ArrayFireは、複数のオーディオファイル形式(wav、flacなど)と、生のオーディオ、線形スケーリングされたパワースペクトル、対数メルスペクトル(MFSC)、MFCCなど、様々な関数タイプをサポートしています。
Facebookが発表した論文では、wav2letter++が他の主流のオープンソース音声認識システムと比較され、wav2letter++は音声認識のためのエンドツーエンドのニューラルネットワークを他のフレームワークの2倍以上の速度で学習することが明らかになりました。1億パラメータのモデルで1~64個のGPUを使用してテストされ、学習時間は線形に変化しました。 画像出典: Facebook 上記はシステムのネットワーク構造図であり、主に4つの部分で構成されています。 学習可能なフロントエンドは、 2x2畳み込み(プリエンファシス処理のシミュレーションに使用)と25msの多変量畳み込みで構成されています。二乗係数を計算した後、ローパスフィルタとストライドを用いてデシメーション処理を実行します。最後に、対数圧縮とチャネルごとの平均分散正規化を行います。 音響モデル:これは、学習可能なフロントエンドの出力を処理するゲート線形ユニット(GLU)を備えた畳み込みニューラルネットワークです。自動セグメンテーション基準に基づいて、文字予測タスクでモデルを学習します。 言語モデル: この畳み込み言語モデルには 14 個の畳み込み残差ブロックが含まれており、ゲート線形ユニットを活性化関数として使用します。主にバンドル検索デコーダーで言語モデルの準備された転写コンテンツにスコアを付けるために使用されます。 ビームサーチデコーダー:音響モデルの出力に基づいて単語シーケンスを生成します。 この記事はhttps://www.leiphone.com/news/201812/t4K6BSfiYXkruwZb.htmlから転載されています。著者:黄山青 |