ASRガイド 2

自動音声認識（ASR）は、話された言語を自動的に文字に変換する、いわゆる音声→テキストのことを指します。本記事では、NVIDIA の NeMo ツールキットを使ってエンドツーエンドの ASR システムを訓練する方法と、Weights & Biases を用いて各種実験や性能指標を追跡する方法を解説します。
Brett Young
Created on August 26|Last edited on August 26
Comment
﻿
環境のセットアップ自動音声認識と本記事で使用するツールの概要が分かったところで、まずはコードを実行できるように環境を整えることが最初のステップです。
まず、インスタンスを起動しますAWSそして、マシン上で NeMo を実行するために必要な依存関係をインストールします。使用するのは、 NVIDIA NGC および Jupyter ノートブックはこちら。
環境をセットアップする手順は次のとおりです。 NVIDIA NeMo：
AWS インスタンスを起動するこの記事では、NVIDIA の NeMo ツールキットを用いてエンドツーエンドの自動音声認識（ASR）システムを構築し、Weights & Biases（W&B）で実験を追跡する方法を紹介します。まず ASR（音声→テキスト）の簡単な定義を示し、目標を次のように述べます：NeMo で ASR モデルを学習させ、その性能や実験を W&B にログすること。主な焦点は、AWS 上で NeMo のサンプルと Jupyter ノートブックを実行するために必要な環境のセットアップ手順です。手順は以下の6ステップで構成されています。

1. NVIDIA GPU‑Optimized AMI を使って AWS の p2.xlarge インスタンスを起動する。  
2. インスタンスに SSH 接続し、ポート 8888 をフォワードする。  
3. NVIDIA NGC から Jupyter ノートブックをダウンロードする。  
4. NGC から NVIDIA NeMo の Docker コンテナをプルする。  
5. Docker コンテナを起動する。  
6. コンテナ内で Jupyter Notebook を起動し、ダウンロードしたノートブックをアップロードして解凍し、ASR の W&B サンプルにアクセスする。

これらの手順を実行することで、NeMo のコードとノートブックを使って ASR モデルを学習させ、W&B と連携して実験追跡ができる環境が整います。p2.xlargeおよび使用してください NVIDIA GPU 最適化 AMI。
AWS インスタンスに SSH 接続するおよびポート8888をフォワーディングする。
NGC から Jupyter ノートブックをダウンロードする ここからNGCへ。これをダウンロードします files.zip
NGC から NVIDIA NeMo の Docker コンテナをプルする 以下は、NVIDIAのNeMoツールキットを用いてエンドツーエンドのAutomatic Speech Recognition（ASR：音声→テキスト）システムを構築し、Weights&Biasesで実験を追跡する方法の概要です。目的は、NeMoでASRモデルを訓練しつつ、Weights&Biasesで性能指標や実験ログを記録することです。ここでは、AWS上でNeMoのサンプルとJupyterノートブックを実行するために必要な環境設定手順を6つのステップで説明します。

1. NVIDIAGPU‑OptimizedAMIを使ってAWSのp2.xlargeインスタンスを起動する。  
2. インスタンスにSSHで接続し、ポート8888をローカルへポートフォワーディングする。  
3. NGCからJupyterノートブックをダウンロードする。  
4. NGCからNVIDIA NeMoのDockerコンテナをプルする。  
5. Dockerコンテナを起動する。  
6. コンテナ内でJupyter Notebookを起動し、ダウンロードしたノートブックをアップロードして解凍し、ASRとWeights&Biasesのサンプルにアクセスする。

以上の手順に従うことで、NeMoのコードとノートブックが揃ったASR訓練およびW&Bによる実験追跡が可能な環境が整います。 docker pull nvcr.io/nvidia/nemo:1.6.1。
Docker コンテナを実行する コマンドを使用して docker run --runtime=nvidia -it --rm --shm-size=16g -p 8888:8888 --ulimit memlock=-1 --ulimit stack=67108864 -v $(pwd):/notebooks nvcr.io/nvidia/nemo:1.6.1。
コンテナ内では、Jupyter Notebook を起動する 以下は、NVIDIA の NeMo ツールキットを用いてエンドツーエンドの Automatic Speech Recognition（ASR：音声→テキスト）システムを構築し、Weights & Biases（W&B）で実験を追跡する方法の概要です。目的は NeMo で ASR モデルを訓練しつつ、W&B で性能指標や実験ログを記録することです。ここでは、AWS 上で NeMo のサンプルと Jupyter ノートブックを実行するために必要な環境設定手順を6つのステップで説明します。

1. NVIDIA GPU‑Optimized AMI を使って AWS の p2.xlarge インスタンスを起動する。  
2. インスタンスに SSH で接続し、ポート 8888 をローカルにフォワードする。  
3. NGC から Jupyter ノートブックをダウンロードする。  
4. NGC から NVIDIA NeMo の Docker コンテナをプルする。  
5. Docker コンテナを起動する。  
6. コンテナ内で Jupyter Notebook を起動し、ダウンロードしたノートブックをアップロードして解凍し、ASR と W&B のサンプルにアクセスする。

以上の手順に従うことで、NeMo のコードとノートブックが揃った ASR 訓練および W&B による実験追跡が可能な環境が整います。 jupyter notebook --port 8888。
移動する localhost:8888 へ Jupyter Notebook にアクセスする。
アップロードする  files.zip ステップ3でダウンロードしたものを解凍し、ASR と Weights & Biases（W&B）のノートブックにアクセスできるようにします。
以上で完了です。6つの簡単な手順に従えば、NeMo のコードを実行できる状態の AWS インスタンスが用意されます。
﻿
Add a comment