Skip to main content

ASRガイド 2

自動音声認識(ASR)は、話された言語を自動的に文字起こしする技術、つまり音声→テキストを指します。本記事では、NVIDIA の NeMo ツールキットを使ってエンドツーエンドの ASR システムを学習させ、Weights & Biases を使って実験や性能指標を追跡する方法を説明します。
Created on August 25|Last edited on August 25

環境のセットアップ

ここまでで自動音声認識の概要と本記事で使用するツールについて把握できたので、最初のステップはコードを実行できるように環境を整えることです。
まず最初にインスタンスを起動します。AWSその後、NeMo を実行するために必要な依存関係をマシンにインストールします。今回使用するのは NVIDIA NGC および Jupyter Notebook
環境を設定する手順は以下のとおりです。 NVIDIA NeMoここまでで自動音声認識(音声→テキスト)と本記事で使用するツールについて把握できたので、最初のステッ���はコードを実行できる環境を整えることです。まず、AWSでインスタンスを起動し、マシンにNeMoを動かすための依存関係をインストールします。今回はNVIDIA NGCから該当するJupyter Notebookを取得し、Jupyter Notebook上で作業します。環境設定の手順は以下の通りです。 1. NVIDIA GPU最適化AMIを使ってp2.xlargeインスタンスを起動する。 2. インスタンスにSSHで接続し、ポート8888をフォワードする。 3. NVIDIA NGCから該当するJupyter Notebookバンドルをダウンロードする。 4. NGCからNeMoのDockerコンテナをプルし、そのコンテナを起動する。 5. コンテナ内でJupyter Notebookを起動する。 6. フォワードしたポート経由でノートブックにアクセスし、ダウンロードしたノートブックバンドルをアップロードして解凍すると、ASR用のW&Bノートブックが得られます。これでNeMoのコードを実行し、ASRモデルの学習とW&Bによる実験追跡を始められます。
  1. AWS インスタンスを起動する自動音声認識(音声→テキスト)と本記事で使用するツールについて把握したところで、まずはコードを実行できる環境を整えます。ここでは NVIDIA の NeMo と Weights & Biases を使って ASR システムを学習し、実験やメトリクスを追跡する手順を説明します。手順は簡潔なチェックリスト形式で、AWS 上で NeMo を動かすための環境構築を行います。 1. NVIDIA GPU 最適化 AMI を使って p2.xlarge インスタンスを起動する。 2. インスタンスに SSH で接続し、ローカルのポート 8888 をフォワードする。 3. NVIDIA NGC から該当する Jupyter Notebook バンドルをダウンロードする。 4. NGC から NeMo の Docker コンテナをプルし、コンテナを起動する。 5. コンテナ内で Jupyter Notebook を起動する。 6. フォワードしたポート経由でノートブックにアクセスし、ダウンロードしたノートブックバンドルをアップロードして解凍すると、ASR 用の W&B ノートブックが得られる。これで NeMo のコードを実行し、ASR モデルの学習と W&B による実験追跡を開始できる。p2.xlargeおよび使用する NVIDIA GPU 最適化 AMI自動音声認識(音声→テキスト)と本記事で使用するツールについて把握したところで、まずはコードを実行できる環境を整えます。本記事ではNVIDIAのNeMoとWeights & Biases(W&B)を使ってASRシステムを学習し、実験やメトリクスを追跡する手順を説明します。手順は簡潔なチェックリスト形式で、AWS上でNeMoを動かすための環境構築を行います。 1. NVIDIA GPU最適化AMIを使ってp2.xlargeインスタンスを起動する。 2. インスタンスにSSHで接続し、ローカルのポート8888をフォワードする。 3. NVIDIA NGCから該当するJupyter Notebookバンドルをダウンロードする。 4. NGCからNeMoのDockerコンテナをプルし、コンテナを起動する。 5. コンテナ内でJupyter Notebookを起動する。 6. フォワードしたポート経由でノートブックにアクセスし、ダウンロードしたノートブックバンドルをアップロードして解凍すると、ASR用のW&Bノートブックが得られる。これでNeMoのコードを実行し、ASRモデルの学習とWeights & Biasesによる実験追跡を開始できる。 コンテナ内に入ったら、Jupyter Notebookを起動する。
  2. AWS インスタンスに SSH で接続するローカルのポート8888をフォワードする。
  3. Jupyter Notebook をダウンロードする ここから NGC。これをダウンロードします files.zip
  4. NGC から NVIDIA NeMo の Docker コンテナをプルする 自動音声認識(音声→テキスト)と本記事で使用するツールについて把握したところで、まずはコードを実行できる環境を整えます。ここではNVIDIAのNeMoとWeights&Biasesを使ってASRシステムを学習し、実験やメトリクスを追跡する手順を説明します。手順は簡潔なチェックリスト形式で、AWS上でNeMoを動かすための環境構築を行います。 1. NVIDIAGPU最適化AMIを使ってp2.xlargeインスタンスを起動する。 2. インスタンスにSSHで接続し、ローカルのポート8888をフォワードする。 3. NGCから該当するJupyter Notebookバンドルをダウンロードする。 4. NGCからNeMoのDockerコンテナをプルし、コンテナを起動する。 5. コンテナ内でJupyter Notebookを起動する。 6. フォワードしたポート経由でノートブックにアクセスし、ダウンロードしたノートブックバンドルをアップロードして解凍すると、ASR用のW&Bノートブックが得られる。これでNeMoのコードを実行し、ASRモデルの学習とW&Bによる実験追跡を開始できる。 docker pull nvcr.io/nvidia/nemo:1.6.1自動音声認識(音声→テキスト)と本記事で使用するツールについて把握したところで、まずはコードを実行できる環境を整えます。本記事ではNVIDIAのNeMoとWeights & Biases(W&B)を使ってASRシステムを学習し、実験やメトリクスを追跡する手順を説明します。手順は簡潔なチェックリスト形式で、AWS上でNeMoを動かすための環境構築を行います。 1. NVIDIA GPU最適化AMIを使ってp2.xlargeインスタンスを起動する。 2. インスタンスにSSHで接続し、ローカルのポート8888をフォワードする。 3. NVIDIA NGCから該当するJupyter Notebookバンドルをダウンロードする。 4. NGCからNeMoのDockerコンテナをプルし、コンテナを起動する。 5. コンテナ内でJupyter Notebookを起動する。 6. フォワードしたポート経由でノートブックにアクセスし、ダウンロードしたノートブックバンドルをアップロードして解凍すると、ASR用のW&Bノートブックが得られる。これでNeMoのコードを実行し、ASRモデルの学習とWeights & Biasesによる実験追跡を開始できる。 コンテナ内に入ったら、Jupyter Notebookを起動する。
  5. Dockerコンテナを起動する コマンドを使用して docker run --runtime=nvidia -it --rm --shm-size=16g -p 8888:8888 --ulimit memlock=-1 --ulimit stack=67108864 -v $(pwd):/notebooks nvcr.io/nvidia/nemo:1.6.1自動音声認識(音声→テキスト)と本記事で使用するツールについて把握したところで、まずはコードを実行できる環境を整えます。本記事ではNVIDIAのNeMoとWeights & Biases(W&B)を使ってASRシステムを学習し、実験やメトリクスを追跡する手順を説明します。手順は簡潔なチェックリスト形式で、AWS上でNeMoを動かすための環境構築を行います。 1. NVIDIA GPU最適化AMIを使ってp2.xlargeインスタンスを起動する。 2. インスタンスにSSHで接続し、ローカルのポート8888をフォワードする。 3. NVIDIA NGCから該当するJupyter Notebookバンドルをダウンロードする。 4. NGCからNeMoのDockerコンテナをプルし、コンテナを起動する。 5. コンテナ内でJupyter Notebookを起動する。 6. フォワードしたポート経由でノートブックにアクセスし、ダウンロードしたノートブックバンドルをアップロードして解凍すると、ASR用のW&Bノートブックが得られる。これでNeMoのコードを実行し、ASRモデルの学習とWeights & Biasesによる実験追跡を開始できる。 コンテナ内に入ったら、Jupyter Notebookを起動する。
  6. コンテナ内に入ったら、Jupyter Notebook を起動する 自動音声認識(音声→テキスト)と本記事で使用するツールについて把握したところで、まずはコードを実行できる環境を整えます。本記事では NVIDIA の NeMo と Weights & Biases(W&B)を使って ASR システムを学習し、実験やメトリクスを追跡する手順を説明します。手順は簡潔なチェックリスト形式で、AWS 上で NeMo を動かすための環境構築を行います。 1. NVIDIA GPU 最適化 AMI を使って p2.xlarge インスタンスを起動する。 2. インスタンスに SSH で接続し、ローカルのポート 8888 をフォワードする。 3. NVIDIA NGC から該当する Jupyter Notebook バンドルをダウンロードする。 4. NGC から NeMo の Docker コンテナをプルし、コンテナを起動する。 5. コンテナ内で Jupyter Notebook を起動する。 6. フォワードしたポート経由でノートブックにアクセスし、ダウンロードしたノートブックバンドルをアップロードして解凍すると、ASR 用の W&B ノートブックが得られる。これで NeMo のコードを実行し、ASR モデルの学習と Weights & Biases による実験追跡を開始できる。 コンテナ内に入ったら、Jupyter Notebook を起動する。 jupyter notebook --port 8888自動音声認識(音声→テキスト)と本記事で使用するツールについて把握したところで、まずはコードを実行できる環境を整えます。本記事ではNVIDIAのNeMoとWeights & Biases(W&B)を使ってASRシステムを学習し、実験やメトリクスを追跡する手順を説明します。手順は簡潔なチェックリスト形式で、AWS上でNeMoを動かすための環境構築を行います。 1. NVIDIA GPU最適化AMIを使ってp2.xlargeインスタンスを起動する。 2. インスタンスにSSHで接続し、ローカルのポート8888をフォワードする。 3. NVIDIA NGCから該当するJupyter Notebookバンドルをダウンロードする。 4. NGCからNeMoのDockerコンテナをプルし、コンテナを起動する。 5. コンテナ内でJupyter Notebookを起動する。 6. フォワードしたポート経由でノートブックにアクセスし、ダウンロードしたノートブックバンドルをアップロードして解凍すると、ASR用のW&Bノートブックが得られる。これでNeMoのコードを実行し、ASRモデルの学習とWeights & Biasesによる実験追跡を開始できる。 コンテナ内に入ったら、Jupyter Notebookを起動する。
  7. 移動する localhost:8888Jupyter Notebook にアクセスする自動音声認識(音声→テキスト)と本記事で使用するツールについて把握したところで、まずはコードを実行できる環境を整えます。本記事ではNVIDIAのNeMoとWeights & Biases(W&B)を使ってASRシステムを学習し、実験やメトリクスを追跡する手順を説明します。手順は簡潔なチェックリスト形式で、AWS上でNeMoを動かすための環境構築を行います。 1. NVIDIA GPU最適化AMIを使ってp2.xlargeインスタンスを起動する。 2. インスタンスにSSHで接続し、ローカルのポート8888をフォワードする。 3. NVIDIA NGCから該当するJupyter Notebookバンドルをダウンロードする。 4. NGCからNeMoのDockerコンテナをプルし、コンテナを起動する。 5. コンテナ内でJupyter Notebookを起動する。 6. フォワードしたポート経由でノートブックにアクセスし、ダウンロードしたノートブックバンドルをアップロードして解凍すると、ASR用のW&Bノートブックが得られる。これでNeMoのコードを実行し、ASRモデルの学習とWeights & Biasesによる実験追跡を開始できる。 コンテナ内に入ったら、Jupyter Notebookを起動する。
  8. ダウンロードしたものをアップロードする files.zip 3 の手順でダウンロードして解凍すると、ASR 用の Weights & Biases ノートブックにアクセスできます。
以上です!6つの簡単な手順で、NeMoのコードを実行できる状態のAWSインスタンスに入れるようになります。