2025-04-01から1ヶ月間の記事一覧

INTERSPEECH2024から見る音声認識研究の動向

はじめに INTERSPEECH 2024から見る音声認識研究の動向 複数話者の音声認識 複数言語の音声認識 デコーディング処理 文脈バイアス 表現学習 その他トピック まとめ 参考文献 はじめに 前回の記事では音声認識の基本と代表的な大規模学習済みモデルを紹介させ…

音声認識のための大規模学習済みモデルについて

はじめに 音声認識の基本的な仕組み CTC損失ベースの手法 RNN Transducer (RNN-t) Attentionベースの手法 音声に関する大規模学習済みモデル Wav2vec 2.0 HuBERT XLS-R WavLM Whisper まとめ 参考文献 はじめに AIとの関連性が高いタスクの1つに音声認識があ…