2025-04-01から1ヶ月間の記事一覧

2025-04-30

INTERSPEECH2024から見る音声認識研究の動向

はじめに INTERSPEECH 2024から見る音声認識研究の動向複数話者の音声認識複数言語の音声認識デコーディング処理文脈バイアス表現学習その他トピックまとめ参考文献はじめに前回の記事では音声認識の基本と代表的な大規模学習済みモデルを紹介させ…

2025-04-09

音声認識のための大規模学習済みモデルについて

はじめに音声認識の基本的な仕組み CTC損失ベースの手法 RNN Transducer (RNN-t) Attentionベースの手法音声に関する大規模学習済みモデル Wav2vec 2.0 HuBERT XLS-R WavLM Whisper まとめ参考文献はじめに AIとの関連性が高いタスクの1つに音声認識があ…