【初心者必見】Amazon Transcribeを使ってみた

投稿日: 2021/08/26

はじめに

こんにちは。CTCの朴木です。
本記事ではAmazon Transcribeの使い方をご紹介いたします。また、続編となる記事ではオプトアウトの設定方法についてご紹介いたしますので、今回の内容と合わせてAmazon Transcribeの動作を見ていただければと考えております。なお、本記事は初心者向けの内容となっております。

Amazon Transcribeとは

音声処理に関する技術は様々あり、音声から感情を推定する音声感情認識技術や音声をテキストにする音声認識技術、テキストから音声に変換する合成音声技術などがあります。その中でAmazon Transcribeは音声をテキストに変換する音声認識（Automatic Speech Recognition：ASR）の技術を用いたサービスです。Amazon TranscribeのほかにAmazon Transcribe MedicalというサービスもAWSでは用意されており、こちらは医療音声に対応したサービスとなっております。

音声ファイルの準備

まずは音声ファイルを用意します。今回は以下の文章を読み上げたMP3の音声ファイルを準備いたしました。なお、Amazon Transcribeのテキスト変換に使用できる音声ファイルはMP3、MP4、WAV、FLAC、AMR、OGG、WebMとなります。

「今日は2021年2月26日の金曜日です。今日の天気は曇りで、最高気温は12℃でした。明日の天気は晴れですが今日よりも寒くなるそうです。次の祝日は3月20日です。」

音声ファイルが準備できましたら、そのファイルを任意のS3バケットにアップロードします。後程、Transcribeのコンソール画面にて音声ファイルの場所を指定いたします。

テキスト変換の開始

それでは実際にテキストへ変換してみましょう。Amazon Transcribeのサービス画面へ移動し、「Create job」ボタンをクリックします。

任意のジョブ名を入力し、Language欄で「Japanese, JP(ja-JP)」を選択します。もし音声ファイルの言語が不明の場合には「Language settings」にて「Automatic language identification 」を選択するとLanguage欄にて複数の国の言語が選択できるようになります。