Skip to main content

ASR ガイド 第2回

自動音声認識(ASR、音声→テキスト)とは、話し言葉を自動で文字起こしする技術です。本記事では、NVIDIA NeMo ツールキットを用いてエンドツーエンドの ASR システムを訓練し、Weights & Biases(W&B)で実験管理と評価指標の追跡を行う方法を解説します。これは記事の翻訳版です。誤訳などがあればコメント欄でお知らせください。
Created on August 26|Last edited on August 26

開発環境の準備

自動音声認識(ASR)と本記事で使用するツールの概要を把握できたところで、まずはコードを実行できるよう環境をセットアップしましょう。