Skip to main content

ASRガイド 2

自動音声認識(ASR)は、人間の発話を自動で文字起こしする技術であり、いわゆる音声からテキスト変換(speech-to-text)を指します。本記事では、NVIDIA Neural Modules(NeMo)ツールキットを用いてエンドツーエンドのASRシステムを学習し、Weights & Biasesで実験や各種指標を記録・管理する方法を解説します。
Created on August 25|Last edited on August 25

環境のセットアップ

自動音声認識と本記事で使用するツールの概要を把握できたところで、まずはコードを実行できるよう環境をセットアップします。
まず、次の手順でインスタンスを起動しますAWS続いて、マシン上で NeMo を動作させるために必要な依存関係をインストールします。ここでは次を使用します。 NVIDIA NGC および Jupyter Notebook はこちら。
環境をセットアップする手順は次のとおりです。 NVIDIA NeMo
  1. AWSインスタンスを起動する-p2.xlargeおよび使用する NVIDIA GPU最適化版 AMI
  2. AWSインスタンスにSSH接続するおよびポート8888を転送する
  3. Jupyter Notebookをダウンロードする NGC はこちら。これによりダウンロードされます files.zip
  4. NGC から NVIDIA NeMo の Docker コンテナを取得する ここにあるNGCからNVIDIA NeMoのDockerコンテナを取得し、Jupyter Notebookをダウンロードします。AWSインスタンスにSSH接続し、ポート8888を転送します。NVIDIA GPU最適化版AMIを使用します。これによりダウンロードされます。 docker pull nvcr.io/nvidia/nemo:1.6.1
  5. Dockerコンテナを実行する コマンドを使用して docker run --runtime=nvidia -it --rm --shm-size=16g -p 8888:8888 --ulimit memlock=-1 --ulimit stack=67108864 -v $(pwd):/notebooks nvcr.io/nvidia/nemo:1.6.1
  6. Dockerコンテナ内に入ったら、Jupyter Notebook を起動するjupyter notebook --port 8888
  7. 移動する localhost:8888Jupyter Notebook にアクセスする
  8. ダウンロードしたものをアップロードする files.zip ステップ3で解凍し、ASRとW&Bのノートブックにアクセスします。
以上です。6ステップで、NeMoのコードを実行できる状態のAWSインスタンスに入れました。