はじめに INTERSPEECH 2024から見る音声認識研究の動向 複数話者の音声認識 複数言語の音声認識 デコーディング処理 文脈バイアス 表現学習 その他トピック まとめ 参考文献 はじめに 前回の記事では音声認識の基本と代表的な大規模学習済みモデルを紹介させ…
はじめに 音声認識の基本的な仕組み CTC損失ベースの手法 RNN Transducer (RNN-t) Attentionベースの手法 音声に関する大規模学習済みモデル Wav2vec 2.0 HuBERT XLS-R WavLM Whisper まとめ 参考文献 はじめに AIとの関連性が高いタスクの1つに音声認識があ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。