Skip to main content

ASRガイド 2

自動音声認識(ASR)は、音声を自動的に文字起こしする技術(スピーチ・トゥ・テキスト)を指します。本記事では、NVIDIA の NeMo ツールキットを使ってエンドツーエンドの ASR システムを学習させ、Weights & Biases で実験や性能指標を記録・管理する方法を解説します。
Created on August 25|Last edited on August 25

環境のセットアップ

自動音声認識と本記事で使用するツールの概要がわかったところで、最初のステップはコードを実行できるように環境を整えることです。
まず最初にインスタンスを起動します。AWSそして、NeMo を実行するために必要な依存関係をマシンにインストールします。今回使用するのは NVIDIA NGC およびここで Jupyter ノートブックを使用します。
環境を設定する手順は以下のとおりです。 NVIDIA NeMo自動音声認識(ASR)と、本記事で使うツールの概要が把握できたところで、最初のステップはコードを実行できる環境を整えることです。 まず、p2.xlarge の AWS インスタンスを NVIDIA GPU‑Optimized AMI で起動します。起動後にインスタンスへ SSH 接続し、ポート8888をフォワードします。次に、NVIDIA NGC カタログから NeMo の Jupyter ノートブックをダウンロードし、NGC から NeMo の Docker コンテナをプルします。そのコンテナを起動して内部で Jupyter を立ち上げます。 ブラウザからノートブックにアクセスし、配布されているノートブックファイル(ASR と Weights & Biases を含む)をアップロードして解凍し、実行を開始します。 この六つの簡単な手順で、GPU 上で NeMo のコードを実行し、ASR モデルの学習と Weights & Biases による実験の追跡を行う準備が整います。
  1. AWSインスタンスを起動する自動音声認識(ASR)と本記事で使用するツールの概要が把握できたところで、最初のステップはコードを実行できる環境を整えることです。 まず、p2.xlarge の AWS インスタンスを NVIDIA GPU‑Optimized AMI で起動します。起動後にインスタンスへ SSH 接続し、ポート8888をフォワードします。次に、NVIDIA NGC カタログから NeMo の Jupyter ノートブックをダウンロードし、NGC から NeMo の Docker コンテナをプルします。そのコンテナを起動して内部で Jupyter を立ち上げます。 ブラウザからノートブックにアクセスし、配布されているノートブックファイル(ASR と Weights & Biases を含む)をアップロードして解凍し、実行を開始します。 以上の6つの簡単な手順で、GPU 上で NeMo のコードを実行し、ASR モデルの学習と Weights & Biases による実験の追跡を行う準備が整います。 AWSインスタンスを起動するp2.xlargeおよび使用します NVIDIA GPU最適化 AMI
  2. AWSインスタンスにSSHで接続するポート8888をフォワードします。
  3. NGC カタログから Jupyter ノートブックをダウンロードする ここからNGCへ。これをダウンロードします files.zip
  4. NGC から NVIDIA NeMo の Docker コンテナをプルする 翻訳するテキストが提供されていません。翻訳したいテキストを送ってください。 docker pull nvcr.io/nvidia/nemo:1.6.1
  5. Dockerコンテナを実行する を使用して docker run --runtime=nvidia -it --rm --shm-size=16g -p 8888:8888 --ulimit memlock=-1 --ulimit stack=67108864 -v $(pwd):/notebooks nvcr.io/nvidia/nemo:1.6.1
  6. Docker コンテナ内に入ったら、Jupyter ノートブックを起動する 本記事は、NVIDIA の NeMo ツールキットを使ってエンドツーエンドの自動音声認識(ASR)システムを構築し、Weights & Biases で実験をトラッキングするための入門ガイドです。ASR(音声→テキスト)の簡単な定義と実用的な目標を示し、ASR モデルの学習と評価を行いつつ実験やメトリクスをログに記録する手順を説明します。 本稿の中心は、AWS 上で NeMo を動かし、Jupyter ノートブックを用いて再現可能な環境を素早く構築するための簡潔なセットアップ手順です。手順は次の通りです。 1. NVIDIA GPU‑Optimized AMI を用いて p2.xlarge の AWS インスタンスを起動する。 2. インスタンスに SSH で接続し、ポート 8888 をフォワードする。 3. NVIDIA NGC カタログから NeMo の Jupyter ノートブックをダウンロードする。 4. NGC から NeMo の Docker コンテナをプルする。 5. そのコンテナを実行する。 6. コンテナ内で Jupyter を起動する。 これらの 6 ステップを完了すれば、GPU ハードウェア上で NeMo のコードを実行できる準備が整い、ASR モデルの学習と Weights & Biases による実験トラッキングを開始できます。 jupyter notebook --port 8888
  7. に移動する localhost:8888Jupyter ノートブックにアクセスする
  8. ダウンロードしたものをアップロードする files.zip ステップ3でダウンロードし、解凍して ASR と Weights & Biases のノートブックにアクセスできるようにします。
以上です。6つの簡単な手順を踏めば、NeMo のコードを実行できる状態の AWS インスタンスが用意できます。