Skip to main content

ASRガイド 2

自動音声認識(ASR)は、話された言語を自動的に文字に変換する、いわゆる音声→テキストのことを指します。本記事では、NVIDIA の NeMo ツールキットを使ってエンドツーエンドの ASR システムを訓練する方法と、Weights & Biases を用いて各種実験や性能指標を追跡する方法を解説します。
Created on August 26|Last edited on August 26

環境のセットアップ

自動音声認識と本記事で使用するツールの概要が分かったところで、まずはコードを実行できるように環境を整えることが最初のステップです。
まず、インスタンスを起動しますAWSそして、マシン上で NeMo を実行するために必要な依存関係をインストールします。使用するのは、 NVIDIA NGC および Jupyter ノートブックはこちら。
環境をセットアップする手順は次のとおりです。 NVIDIA NeMo
  1. AWS インスタンスを起動するこの記事では、NVIDIA の NeMo ツールキットを用いてエンドツーエンドの自動音声認識(ASR)システムを構築し、Weights & Biases(W&B)で実験を追跡する方法を紹介します。まず ASR(音声→テキスト)の簡単な定義を示し、目標を次のように述べます:NeMo で ASR モデルを学習させ、その性能や実験を W&B にログすること。主な焦点は、AWS 上で NeMo のサンプルと Jupyter ノートブックを実行するために必要な環境のセットアップ手順です。手順は以下の6ステップで構成されています。 1. NVIDIA GPU‑Optimized AMI を使って AWS の p2.xlarge インスタンスを起動する。 2. インスタンスに SSH 接続し、ポート 8888 をフォワードする。 3. NVIDIA NGC から Jupyter ノートブックをダウンロードする。 4. NGC から NVIDIA NeMo の Docker コンテナをプルする。 5. Docker コンテナを起動する。 6. コンテナ内で Jupyter Notebook を起動し、ダウンロードしたノートブックをアップロードして解凍し、ASR の W&B サンプルにアクセスする。 これらの手順を実行することで、NeMo のコードとノートブックを使って ASR モデルを学習させ、W&B と連携して実験追跡ができる環境が整います。p2.xlargeおよび使用してください NVIDIA GPU 最適化 AMI
  2. AWS インスタンスに SSH 接続するおよびポート8888をフォワーディングする。
  3. NGC から Jupyter ノートブックをダウンロードする ここからNGCへ。これをダウンロードします files.zip
  4. NGC から NVIDIA NeMo の Docker コンテナをプルする 以下は、NVIDIAのNeMoツールキットを用いてエンドツーエンドのAutomatic Speech Recognition(ASR:音声→テキスト)システムを構築し、Weights&Biasesで実験を追跡する方法の概要です。目的は、NeMoでASRモデルを訓練しつつ、Weights&Biasesで性能指標や実験ログを記録することです。ここでは、AWS上でNeMoのサンプルとJupyterノートブックを実行するために必要な環境設定手順を6つのステップで説明します。 1. NVIDIAGPU‑OptimizedAMIを使ってAWSのp2.xlargeインスタンスを起動する。 2. インスタンスにSSHで接続し、ポート8888をローカルへポートフォワーディングする。 3. NGCからJupyterノートブックをダウンロードする。 4. NGCからNVIDIA NeMoのDockerコンテナをプルする。 5. Dockerコンテナを起動する。 6. コンテナ内でJupyter Notebookを起動し、ダウンロードしたノートブックをアップロードして解凍し、ASRとWeights&Biasesのサンプルにアクセスする。 以上の手順に従うことで、NeMoのコードとノートブックが揃ったASR訓練およびW&Bによる実験追跡が可能な環境が整います。 docker pull nvcr.io/nvidia/nemo:1.6.1
  5. Docker コンテナを実行する コマンドを使用して docker run --runtime=nvidia -it --rm --shm-size=16g -p 8888:8888 --ulimit memlock=-1 --ulimit stack=67108864 -v $(pwd):/notebooks nvcr.io/nvidia/nemo:1.6.1
  6. コンテナ内では、Jupyter Notebook を起動する 以下は、NVIDIA の NeMo ツールキットを用いてエンドツーエンドの Automatic Speech Recognition(ASR:音声→テキスト)システムを構築し、Weights & Biases(W&B)で実験を追跡する方法の概要です。目的は NeMo で ASR モデルを訓練しつつ、W&B で性能指標や実験ログを記録することです。ここでは、AWS 上で NeMo のサンプルと Jupyter ノートブックを実行するために必要な環境設定手順を6つのステップで説明します。 1. NVIDIA GPU‑Optimized AMI を使って AWS の p2.xlarge インスタンスを起動する。 2. インスタンスに SSH で接続し、ポート 8888 をローカルにフォワードする。 3. NGC から Jupyter ノートブックをダウンロードする。 4. NGC から NVIDIA NeMo の Docker コンテナをプルする。 5. Docker コンテナを起動する。 6. コンテナ内で Jupyter Notebook を起動し、ダウンロードしたノートブックをアップロードして解凍し、ASR と W&B のサンプルにアクセスする。 以上の手順に従うことで、NeMo のコードとノートブックが揃った ASR 訓練および W&B による実験追跡が可能な環境が整います。 jupyter notebook --port 8888
  7. 移動する localhost:8888Jupyter Notebook にアクセスする
  8. アップロードする files.zip ステップ3でダウンロードしたものを解凍し、ASR と Weights & Biases(W&B)のノートブックにアクセスできるようにします。
以上で完了です。6つの簡単な手順に従えば、NeMo のコードを実行できる状態の AWS インスタンスが用意されます。