ASRガイド 2

自動音声認識（ASR）は、人間の発話を自動で文字起こしする技術であり、いわゆる音声からテキスト変換（speech-to-text）を指します。本記事では、NVIDIA Neural Modules（NeMo）ツールキットを用いてエンドツーエンドのASRシステムを学習し、Weights & Biasesで実験や各種指標を記録・管理する方法を解説します。

Brett Young

Created on August 25|Last edited on August 25

Comment

﻿
環境のセットアップ自動音声認識と本記事で使用するツールの概要を把握できたところで、まずはコードを実行できるよう環境をセットアップします。
まず、次の手順でインスタンスを起動しますAWS続いて、マシン上で NeMo を動作させるために必要な依存関係をインストールします。ここでは次を使用します。 NVIDIA NGC および Jupyter Notebook はこちら。
環境をセットアップする手順は次のとおりです。 NVIDIA NeMo﻿
AWSインスタンスを起動する-p2.xlargeおよび使用する NVIDIA GPU最適化版 AMI。
AWSインスタンスにSSH接続するおよびポート8888を転送する
Jupyter Notebookをダウンロードする NGC はこちら。これによりダウンロードされます files.zip
NGC から NVIDIA NeMo の Docker コンテナを取得する ここにあるNGCからNVIDIA NeMoのDockerコンテナを取得し、Jupyter Notebookをダウンロードします。AWSインスタンスにSSH接続し、ポート8888を転送します。NVIDIA GPU最適化版AMIを使用します。これによりダウンロードされます。 docker pull nvcr.io/nvidia/nemo:1.6.1。
Dockerコンテナを実行する コマンドを使用して docker run --runtime=nvidia -it --rm --shm-size=16g -p 8888:8888 --ulimit memlock=-1 --ulimit stack=67108864 -v $(pwd):/notebooks nvcr.io/nvidia/nemo:1.6.1。
Dockerコンテナ内に入ったら、Jupyter Notebook を起動する ・ jupyter notebook --port 8888。
移動する localhost:8888 へ Jupyter Notebook にアクセスする。
ダウンロードしたものをアップロードする  files.zip ステップ3で解凍し、ASRとW&Bのノートブックにアクセスします。
以上です。6ステップで、NeMoのコードを実行できる状態のAWSインスタンスに入れました。
﻿

Add a comment