ASRガイド 2
自動音声認識(ASR)は、人間の発話を自動で文字起こしする技術であり、いわゆる音声からテキスト変換(speech-to-text)を指します。本記事では、NVIDIA Neural Modules(NeMo)ツールキットを用いてエンドツーエンドのASRシステムを学習し、Weights & Biasesで実験や各種指標を記録・管理する方法を解説します。
Created on August 25|Last edited on August 25
Comment
環境のセットアップ
自動音声認識と本記事で使用するツールの概要を把握できたところで、まずはコードを実行できるよう環境をセットアップします。
まず、次の手順でインスタンスを起動しますAWS続いて、マシン上で NeMo を動作させるために必要な依存関係をインストールします。ここでは次を使用します。 NVIDIA NGC および Jupyter Notebook はこちら。
- AWSインスタンスにSSH接続するおよびポート8888を転送する
- NGC から NVIDIA NeMo の Docker コンテナを取得する ここにあるNGCからNVIDIA NeMoのDockerコンテナを取得し、Jupyter Notebookをダウンロードします。AWSインスタンスにSSH接続し、ポート8888を転送します。NVIDIA GPU最適化版AMIを使用します。これによりダウンロードされます。 docker pull nvcr.io/nvidia/nemo:1.6.1。
- Dockerコンテナを実行する コマンドを使用して docker run --runtime=nvidia -it --rm --shm-size=16g -p 8888:8888 --ulimit memlock=-1 --ulimit stack=67108864 -v $(pwd):/notebooks nvcr.io/nvidia/nemo:1.6.1。
- Dockerコンテナ内に入ったら、Jupyter Notebook を起動する ・ jupyter notebook --port 8888。
- 移動する localhost:8888 へ Jupyter Notebook にアクセスする。
- ダウンロードしたものをアップロードする files.zip ステップ3で解凍し、ASRとW&Bのノートブックにアクセスします。
以上です。6ステップで、NeMoのコードを実行できる状態のAWSインスタンスに入れました。
Add a comment