【初心者必見】Amazon Transcribeを使ってみた
投稿日: 2021/08/26
はじめに
こんにちは。CTCの朴木です。
本記事ではAmazon Transcribeの使い方をご紹介いたします。また、続編となる記事ではオプトアウトの設定方法についてご紹介いたしますので、今回の内容と合わせてAmazon Transcribeの動作を見ていただければと考えております。なお、本記事は初心者向けの内容となっております。
Amazon Transcribeとは
音声処理に関する技術は様々あり、音声から感情を推定する音声感情認識技術や音声をテキストにする音声認識技術、テキストから音声に変換する合成音声技術などがあります。その中でAmazon Transcribeは音声をテキストに変換する音声認識(Automatic Speech Recognition:ASR)の技術を用いたサービスです。Amazon TranscribeのほかにAmazon Transcribe MedicalというサービスもAWSでは用意されており、こちらは医療音声に対応したサービスとなっております。
音声ファイルの準備
まずは音声ファイルを用意します。今回は以下の文章を読み上げたMP3の音声ファイルを準備いたしました。なお、Amazon Transcribeのテキスト変換に使用できる音声ファイルはMP3、MP4、WAV、FLAC、AMR、OGG、WebMとなります。
「今日は2021年2月26日の金曜日です。今日の天気は曇りで、最高気温は12℃でした。明日の天気は晴れですが今日よりも寒くなるそうです。次の祝日は3月20日です。」
音声ファイルが準備できましたら、そのファイルを任意のS3バケットにアップロードします。後程、Transcribeのコンソール画面にて音声ファイルの場所を指定いたします。
テキスト変換の開始
それでは実際にテキストへ変換してみましょう。Amazon Transcribeのサービス画面へ移動し、「Create job」ボタンをクリックします。

任意のジョブ名を入力し、Language欄で「Japanese, JP(ja-JP)」を選択します。もし音声ファイルの言語が不明の場合には「Language settings」にて「Automatic language identification 」を選択するとLanguage欄にて複数の国の言語が選択できるようになります。

次に先ほど音声ファイルをアップロードしたS3バケットを選択し、「Next」ボタンをクリックします。その次のページで「Create」ボタンをクリックします。
もし音声ファイルを入れたバケットがAmazon Transcribeを実行するリージョンと異なる場合は選択ができませんのでご注意ください。

ジョブが作成できましたらジョブ名を選択してください。「Transcription preview」にテキスト変換した結果が表示されます。

ほぼ読み上げたとおりにテキストに変換されていることがわかります。また、Amazon Transcribeでは音声データのトレーニング機能もありますので、データを学習させることでさらに音声認識の精度を上げることも可能になります。
おわりに
いかがでしたでしょうか。Amazon Transcribeはテキスト変換の精度を向上させるためにデータのトレーニング機能や、特別な単語やフレーズの登録機能もあります。さらに不適切な単語などをフィルターする機能も用意されています。ぜひ興味がありましたら試してみてください。
CTCは、AWSのビジネス利活用に向けて、お客様のステージに合わせた幅広い構築・運用支援サービスを提供しています。
経験豊富なエンジニアが、ワンストップかつ柔軟にご支援します。
ぜひ、お気軽にお問い合わせください。