はじめに
前回の記事では音声認識の基本と代表的な大規模学習済みモデルを紹介させていただきました。 音声認識や音声合成はさまざまなアプリケーションで目にする機会が増えました。一方で、現在の技術でもまだまだ課題はあります。
本稿は近年の研究モチベーションを代表的なタスクである音声認識をベースに紹介させていただきたいと思います。
INTERSPEECH 2024から見る音声認識研究の動向
本稿は、音声認識を扱う国際会議のINTERSPEECHを中心に、近年の研究の動向をまとめたいと思います。
複数話者の音声認識
音声認識の応用が広がる中で、研究領域でもより実応用を想定したタスクへの拡張が行われています。 その一つが複数話者を前提とした音声認識タスクです。 会議音声への応用を考えた場合は複数話者を想定し、どの話者が何を喋ったを推定することで後の処理に有用になると考えられます。
話者分離と音声認識の同時最適化
複数話者が存在する場合、話者同士の話し声に重なりが生じる可能性があります。 そのため、話者分離という複数話者の音声をそれぞれの単一話者の音声に分ける技術を前処理として利用することがあります (一般の記事では話者分離が各話者ごとの文字起こしを指す場合もありますが、研究では分離後の音声自体の品質を評価します)。 W. Ravenscroftら[1]は、話者分離で生成された音声は音声認識のパフォーマンス低下につながるとし、 学習済みの音声認識モデルに対して、話者分離と音声認識のエンコーダを同時に学習する方法を取り入れています(図1)。 具体的には複数話者の話者分離後の音声認識モデルのエンコーダ出力とターゲット単一話者のエンコーダ出力との平均二乗損失により話者分離モデルと音声認識モデルのエンコーダを同時に学習しています (学習時には複数話者の音声は単一話者の発話の波形を単純に足し合わせることで生成できます)。 分離後の出力は複数あるため、順列不変学習(Permutation Invariant Training)損失と呼ばれる複数の出力とターゲットの組み合わせパターンの中から 損失が最小となるパターンを選ぶ方法をベースに学習されます。 実験では、英語音声データを用いて話者分離の学習を分けて行なった場合との比較が行われ、 複数話者のための単語誤り率で43.6%から37.1%と改善が見られました。 複数話者の単語誤り率は正解のリストと推論結果の全ての対応パターンを試した上で最小となる単語誤り率を採用するものです。
類似したシステムとして、SURT 2.0[2]と呼ばれるシステムがあります。 この手法でも話者分離と音声認識全体を一つのシステムとして、全体の最適化を図っています。 面白いシステムなので興味がある方はぜひ見てみてください。
このように、従来は2つのシステムに分けてそれぞれで最適化されていたモデルが、 近年ではそれら全体を一括で最適化するアプローチも現れています。
複数言語の音声認識
複数言語の音声認識も一つの課題です。 主に2つのことに焦点が当てられます。
複数言語のマルチオブジェクト学習
M2ASR[3]は1つのモデルで複数言語の認識をするためのモデルの構築の方法として、 複数言語の音声認識損失のマルチオブジェクト学習を取り入れています。 マルチオブジェクト学習は複数の損失関数(オブジェクト)を同時に最適化することを目的としたタスクで、 全ての損失関数のパレート最適解を探します (パレート最適解とは、どの目的関数を改善しようとしても必ず他の目的関数の値が低下してしまう解のことです)。 M2ASRでは、パラメータ更新時に各損失関数の勾配に対して動的に変化する重みを適用して更新する手法を採用しています。 評価は英語と中国語のデータセットで行われ、ベースラインと比較し単語誤り率の改善(英語:7.3%、中国語6.2%)が見られました。
リソースが十分でない言語の音声認識モデル学習
Y. Khassanovら[4]はリソースが十分でない言語の音声認識システムの構築のために、高リソース言語で学習した モデルに対し、LoRA[5]を利用した低リソース言語のFine tuning方法を提案しています(図2)。 LoRAはFine tuning時に、学習済みのパラメータを固定し、追加のパラメータ$\Delta W$を挿入する方法です。 特定の層の変換行列$W \in \mathbb{R}^{mn}$と入力$x$に対し、
$$ h = Wx + \Delta Wx $$ $$ \Delta W = BA, B \in \mathbb{R}^{ml}, A \in \mathbb{R}^{ln} $$ で計算されます。$l$を十分に小さくすることでFine tuning時のパラメータ数を抑えられます。 19言語に対して実験を行い、ベースラインと比較して性能に改善が見られました (平均文字誤り率で12.79%。文字誤り率は単語単位ではなく1文字単位で集計する指標です)。
デコーディング処理
音声認識におけるデコーディングとは、最終的なテキストを出力するための処理のことです。
前の記事でも紹介したようにCTCでは、学習時に1つの最終出力に対して、空白(Null)を含む複数の出力パターンが存在します。 この性質はデコーディング時にも考慮する必要があり、特にRNN-Tの場合は処理がさらに複雑になります。 リアルタイム推論が求められるシステムでは、デコーディング処理の遅延が大きな問題となることがあります。
RNN-tの軽量化
CTCのデコーディングでは、各出力が互いに独立しているため、探索処理が比較的軽量です。 一方、RNN-Tは過去の出力に基づいて推論を行うため、出力間に依存関係が生じ、計算がより複雑になります。
Lightweight Transducer[6]ではRNN-tベースの音声認識における計算の複雑さを軽減する手法が提案されています。 まず、エンコーダの出力からCTCベースのデコーディングを行い、各音声特徴がテキストのどの部分に対応するかを求めます(アライメント情報という)。 このアライメント情報を利用することで、音声とテキストの対応が明確になり、予測ネットワークの出力をエンコーダの出力と効率的に統合できます。 その結果、従来のRNN-tで見られる出力間の依存関係による複雑な計算が回避され、シンプルな2次元テンソルで処理できます。 このアプローチは、効率的なデコーディングを可能にし、リアルタイム音声認識への応用が期待されます。
評価は中国語の音声で行われ、RNN-tベース、Attentionベースの2つのベースライン手法と比較されました。 提案手法(単語誤り率:4.76%)はベンチマークではAttentionベースのモデル(4.67%)に劣るものの入力音声が長くなった場合(実験では元の音声の8倍の長さ)、Attentionベースの手法(57.92%)より大きく良い結果(14.03%)となりました。 従来のRNN-tとの比較においても、入力系列長によらず単語誤り率が良いという結果が出ています (Attentionベースの自己回帰モデルでは、推論が困難な場合に「繰り返し」と呼ばれる現象が発生することがあります。 INTERSPEECH2024でもこの問題に注目した論文が発表されるなど、音声認識分野における重要な課題の一つとして取り上げられています[7])。
Attentionベースモデルのストリーミング処理対応
Attentionベースの手法は一般にリアルタイムで入力データを逐次処理するストリーミング処理には対応していません。 Speech ReaLLM[8]は、RNN-tの処理を参考にBlankトークン(前回の記事でNullと表現していたもの)を追加することでストリーミング処理を可能にしました。 具体的には一定の時間間隔ごとに推論を行い、Blankトークン以外の出力があった場合に、デコーダの入力に出力を追加するという方法が取られています (論文中ではDecoder-only ASRと呼ばれる構造のモデルが採用されていて、上記で図示したAttentionとは厳密には異なります)。 INTERSPEECH 2024ではAttentionベースのモデル構造からの派生モデルにおけるストリーミング処理に関して複数発表([9]、[10]など)があり、 重要な課題の一つとなっています。
評価は英語のベンチマーク(Librispeech)で行われ、単語誤り率が7.4%とベースラインの8.0%と比較し改善が見られています。
文脈バイアス
音声認識の課題の一つとして、専門用語や、学習データに含まれていない固有名詞の認識が挙げられます。 この問題をより一般的に解決するために、文脈などの情報を活用し、認識結果をパーソナライズすることで性能を向上させるアプローチが求められています。
プロンプトの利用
音声認識モデルにおいても文脈やドメインなどを示すプロンプトを利用する方法により性能が向上することが示されています([11]など)。 文脈をプロンプトとしてあらかじめモデルに入力することで、会話の流れを理解しやすくなり、曖昧な言葉や専門用語の認識が向上します。 一方で、常に十分にプロンプトとして利用できるテキストが揃っているとは限りません。 J. Suhら[12]は、データセットのメタデータを基に大規模言語モデル(LLM)を用いてプロンプトを生成する方法を提案しています。 例えば、評価の一つに講義音声を利用していますが、メタデータとして「何の講義の何回目か」という情報があります。 その場合、LLMに対し「〜の〜回目の講義です」と入力し、そのLLMの出力をプロンプトとして利用しています。
学習は大規模学習済みモデルのWhisperをベースとし、プロンプトを利用するデコーダのみファインチューニングを行なっています。 一方でアイスブレイクなどの文脈に関係ない会話などに対して文脈を過剰に捉えることを防ぐために、 学習時に5%の確率で文章をランダムで入れ替えるコンテキスト摂動も取り入れています。
Whisperのタスク指定のための特殊な入力もプロンプトの1つです。 このように近年、音声認識へのプロンプトの利用は注目を集めているトピックの一つです。
バイアスの挿入
Y. Nakagomeら[13]は未知語や専門用語の性能を改善するためにエラーリストをもとに音声認識のモデル適応する方法を取り入れています。 既存のモデルで誤認識した単語のエラーリストを作成し、リスト内のそれぞれの単語に対して音声合成を適応し音声サンプルを取得します。 合成音声の中間層の表現をもとに、推論時はエラーリストの合成音声の中間層の特徴と入力音声の中間層の特徴と比較し、 マッチした場合はその単語に対応するバイアスを中間層の特徴に挿入します(対応する単語の最終出力スコアが高くなるようなバイアスが挿入されます)。
実験は日本語のデータセットで行われ、文字誤り率とF1スコア(未知語、既知語それぞれ)で評価されました。 ドメイン適応のターゲットとなるデータセットだけでなく、既存の学習データに対応する評価データついても文字誤り率とF1スコアそれぞれで改善が見られています。 複数データで評価され、既存の学習データと対応する評価データの文字誤り率では、従来のモデルの3.7%対して本モデルでは最良で2.8%を達成しました。 ドメイン適応のターゲットとなるデータでは従来モデルの11.5%に対して11.5%と単語誤り率に大きな変化は見られなかったものの、 学習データに存在しない単語のF1スコアが12.1%から41.5%と大幅に改善が見られました。
テキスト摂動
R. Huangら[14]はコンテキスト音声認識のためにシンプルな2つの方法を適応し、性能を改善させました。 一つ目はコンテキストに対応したフレーズや単語バイアスを挿入する位置に関してです。 従来は、RNN-tのエンコーダの最終層に文脈情報が挿入されていましたが、著者らは入力に近い層に挿入した方が効果が大きいことを示唆しています。
2つ目はテキスト摂動です。RNN-tのPredict networkの入力には学習時は通常正解テキストラベルが利用されます。 その入力単語の一部を発音の類似度の高い別単語に置き換える方法(テキスト摂動)が適用されています。 これにより、モデルが周囲の文脈を活用しながら、より正確に推論できるように学習が促されます。
評価は複数の英語音声データの単語誤り率(全体、既知語、未知語)で行われ、2つの提案手法それぞれで効果が確認されました (500単語の文脈バイアスリストを挿入した場合8.19%の未知語に対する単語誤り率を達成、 ベースライン手法では21.83%であったため大幅に改善されました)。
表現学習
Wav2vec 2.0のような音声のみのデータセットでの表現学習はテキストラベルを必要としません。 テキストラベルの作成には高いコストがかかるため、ラベルなしで学習可能なモデルの構築は、引き続き重要な研究テーマの一つとされています。
複数言語に対応した大規模学習済みモデル
HuBERTを多言語対応させたmHuBERT-147[15]が提案されています。 mHuBERT-147は学習方法はHuBERTを参考に、permissive licenseのデータ147言語を利用して学習されています。 FAISS[16]という高速特徴探索ライブラリの利用(クラスタリングに利用)、 言語ごと・データ収集方法ごとで2段階のアップサンプリングを利用した学習戦略を取り入れています。
学習パラメータ数は他の比較モデルよりも少ないものの、複数タスクのベンチマークであるSuperBベンチマークにおいて他のモデルと同等の音声認識性能を示しています。 例えば、複数言語の10分間の発話データを用いたファインチューニングによる音声認識実験では、文字誤り率が23.6%となり、mHuBERT-147はパラメータ数が95Mでありながら、317Mのパラメータを持つ他のモデル群の中で最も良好なモデルが示した28.7%を上回る精度を達成しました。一方で、965Mのパラメータを持つモデルが示した性能(21.3%) には及びませんでした。
学習時と推論時のミスマッチの改善
HuBERTと同じ構造を持つモデルは学習時にはマスクを適応します。一方で推論時はマスクなしで推論を行います。 この学習時と推論時の処理のミスマッチが生じます。 MS-HuBERT[17]はこのミスマッチにより性能が低下していると考え、学習時にマスクした特徴とマスクを適応しない特徴を両方用意し、 Transformerの各レイヤーでマスク部分の特徴をスワップするという処理を加えました(図3)。
モデルは英語の音声データ(Librispeech)で評価されました。パラメータ数が同じHuBERTのモデルと比較した場合、 10時間の発話データを利用したFine tuningでWERが8.8%とHuBERTの9.4%と比較し改善が見られました (HuBERTはモデルサイズが複数存在し、本実験ではBaseサイズのモデルをベースに比較されています)。
その他トピック
推論的音声認識の提案
音声認識を利用したAIエージェント等において、応答を早くすることは一つの大きな課題です。 上記のデコーディング高速化による問題の解決の他に、推論的音声認識(Speculative Speech)という新しいタスク[18]が提案されています。 具体的には、音声の入力されている部分だけでなく、その文脈から未来の単語を予測するというタスクです。
評価は事前に定義した$k$個の予測の中で単語誤り率が最小となる誤り率を指標とします。 論文内ではベースラインモデルでは$k=1$で最良の平均の単語誤り率が75.8%となっています。 単語誤り率だけを見ると、まだ改善の余地はあるものの、入力前に複数の予測(指標上は$k > 1$に設定)を活用することで、 応答に向けた次のステップをあらかじめ準備できるようになります。これにより、応答全体としての性能向上につながることが期待されます。
ベースラインモデル自体もLoRAやプロンプトの利用など興味深い構成となっています。
複数の学習済みモデルの利用についての検討
複数の事前学習済みモデルを利用することで音声認識性能が上がることが期待されます。 一方で計算コストは大きくなります。EFFUSE[19]ではこの問題に対して複数の学習済みモデルによる音声認識システムを構築した上で、 1つの学習済みモデルで他の学習済みモデルの出力を推定する方法が提案されています。
実験は表現学習を評価するための複数タスクが存在するベンチマーク(ML-SUPERB)で行われ、 実際に複数の学習済みモデルを利用した推論に近い性能、場合によってはそれを超える性能を出しました。 この論文はINTERSPEECH2024のベストペーパーアワードの中の一つに選ばれています。
Conformer
Conformer[20]は、畳み込み(Convolution)層とTransformer層を組み合わせた構成で音声認識モデルの学習済みモデルとして頻繁に利用されるモデルです。 音声における畳み込み層は時間方向に畳み込まれます。 そのため、畳み込み層で近隣フレームの局所的な依存関係を捉えつつ、Transformer 層によって長期的な依存関係を効果的に学習することが期待されます。
Multi-Convformer[21]では、複数の時間スケールの特徴を捉えるために複数のカーネルサイズの畳み込みを組み合わせています。 これにより、複数の英語音声データベンチマークで従来のConformerの性能を上回っています (Librispeechの100時間発話では単語誤り率が最大16.60%とConformerの17.27%より改善)。
一方で、M. V. keirsbilckら[22]はConformerにおいて、畳み込み層を取り除き、シンプルなシフトと平均処理に置き換えています。 これにより計算コストが減るだけでなく、英語音声データ(Librispeech)においてもベースラインと比較し、単語誤り率が6.52%と改善が見られています (Multi-Convformerとは実験条件が異なるため直接の比較はできません)。
また、Conmer[23]はConformerからTransformer層を取り除いたモデルで、短い発話においてはConformerと遜色ない結果を得ています。
上記の通り、Conformerは音声認識において広く利用されていますが、現在でもネットワーク構造についてさまざまな議論がされています。
1stepのDiffusionモデル
拡散(Diffusion)モデルはデータ生成の際に複数ステップが必要となります。FastVoiceGrad[24]は拡散モデル(Conditional DDPM)による声質変換において、 1ステップで推論を行う方法を提案しています。声質変換とは、話者の音声の特徴を保ちながら、別の話者の声質に変換する音声処理技術です。 具体的な方法として、
- ステップの初期値の選定
- 1ステップ推論後の音声に対する敵対的損失の利用
- 複数ステップの拡散モデルの出力を利用した知識の蒸留
を利用しています。
実験は英語の音声ベンチマークでMean Opinion Score(MOS、品質を主観的に評価する指標)ベースの評価指標と生成音声で 音声認識を行った際の文字誤り率、話者認識を行った時の話者認識率を利用して評価されました。 通常の拡散モデルベースのモデルと比較し、主観的品質の評価も遜色なく文字誤り率(1.89%)と話者認識率(83%)も改善が見られています。
まとめ
INTERSPEECH2024を中心に近年の研究のモチベーションを紹介させていただきました。 音声認識という1つのタスクを見てもまだまだたくさん取り組めることがあることがわかっていただけたと思います (ビジネスの観点も含めるとよりたくさんの課題が出てくると思います)。
今回紹介できなかった中にも興味深い技術がたくさんあります。 また、音声関連のタスクは音声合成、声質変換などの生成系のタスク、話者認識や感情認識など幅広く存在しています。
本稿は、読者の皆様に興味を持っていただくことを重視した構成としており、基本的な考え方や主要な技術については理解を深めていただけたのではないかと期待しています。一方で、各技術の詳細までは十分に触れられておらず、読んでいる中で疑問が生じた方もいらっしゃるかもしれません。
こうした疑問を解決する手がかりとして、ぜひ一度 INTERSPEECH の予稿集 などを覗いていただければと思います(INTERSPEECH 2024 Archive)。 本稿を通じて、多くの方に音声認識やその周辺技術への関心を持っていただければ幸いです。
参考文献
[1] W. Ravenscroft et al., "Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition," In Proceedings of the INTERSPEECH, pp. 4998- 5002, 2024.
[2] D. Raj et al., "SURT 2.0: Advances in Transducer-based Multi-talker Speech Recognition," IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 31, pp. 3800-3813, 2023.
[3] A F M Saif et al., "M2ASR: Multilingual Multi-task Automatic Speech Recognition via Multi-objective Optimization," In Proceedings of the INTERSPEECH, pp. 1240-1244.
[4] Y. Khassanov et al., "Dual-Pipeline with Low-Rank Adaptation for New Language Integration in Multilingual ASR," In Proceedings of the INTERSPEECH, pp. 787 - 791, 2024.
[5] E. J. Hu et al., “LoRA: Low-rank adaptation of large language models,” in Proceedings of the International Conference onLearning Representations, 2022.
[6] G. Wan et al., "Lightweight Transducer Based on Frame-Level Criterion," In Proceedings of the INTERSPEECH, pp. 247-251, 2024.
[7] D. Galvez et al., "Speed of Light Exact Greedy Decoding for RNN-T Speech Recognition Models on GPU," In Proceedings of the INTERSPEECH, pp. 277-281, 2024.
[8] F. Seide et al., "Speech ReaLLM – Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time," In Proceedings of the INTERSPEECH, pp. 1900-1904, 2024.
[9] E. Tsunoo et al., "Decoder-only Architecture for Streaming End-to-end Speech Recognition," In Proceedings of the INTERSPEECH, pp. 4463-4467, 2024.
[10] P. Chen et al., "Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech Units: A Pilot Study," In Proceedings of the INTERSPEECH, pp. 4468-4472, 2024.
[11] S. Dingliwal et al, "Domain Prompts: Towards Memory and Compute Efficient Domain Adaptation of ASR Systems," In Proceedings of the INTERSPEECH, pp. 684-688, 2022.
[12] J. Suh et al., "Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions," In Proceedings of the INTERSPEECH, pp. 1255- 1259, 2024.
[13] Y. Nakagoe et al., "InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions," In Proceedings of the INTERSPEECH, pp. 207-211, 2024.
[14] R. Huang et al., "Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation," In proceedings of the INTERSPEECH, pp. 752-756, 2024.
[15] M. Z. Boito et al., "mHuBERT-147: A Compact Multilingual HuBERT Model," In Proceedings of the INTERSPEECH, pp. 3939-3943, 2024.
[16] M. Douze et al., "The FAISS Library," arXiv preprint, arXiv:2401.08281, 2024, https://arxiv.org/pdf/2401.08281.
[17] H. Yadav et al., "MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations," In Proceedings of the INTERSPEECH, pp. 5053-5057, 2024.
[18] B. Yusuf, "Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models," In Proceedings of the INTERSPEECH, pp. 792 - 796, 2024.
[19] T. Srivastava et al., "EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Low Resource and Multilingual Scenarios," In Proceedings of the INTERSPEECH, pp. 3989-3993, 2024.
[20] A. Gulati et al., "Conformer: Convolution-augmented Transformer for Speech Recognition," In Proceedings of the INTERSPEECH, pp. 5036-5040, 2020.
[21] D. Prabhu et al., "Multi-Convformer: Extending Conformer with Multiple Convolution Kernels," In Proceedings of the INTERSPEECH, pp. 232-236, 2024.
[22] M. V. keirsbilck et al., "Conformer without Convolutions," In Proceedings of the INTERSPEECH, pp. 3475-3479, 2024.
[23] M. Radfar et al., "Conmer: Streaming Conformer without self-attention for interactive voice assistants," In Proceedings of the INTERSPEECH, pp. 2198-2202, 2023.
[24] T. Kaneko et al., "FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation," In Proceedings of the INTERSPEECH, pp. 192-196, 2024.