Skip to main content

ASRガイド第2部

[NOTE: This is a translated version of the article.] 自動音声認識(ASR)は、話し言葉を自動的に文字起こしする、いわゆる音声からテキストへの変換を指します。本記事では、NVIDIAのNeMo(NVIDIA NeMo)ツールキットを用いてエンドツーエンドのASRシステムを訓練し、Weights & Biasesを使って各種実験や性能指標を追跡する方法を学びます。
Created on August 26|Last edited on August 26

環境のセットアップ

自動音声認識と本記事で使用するツールの概要が分かったところで、まずはコードを実行できる環境をセットアップしましょう。