【初心者必見】Amazon Textractを使ってみた
投稿日: 2022/06/29
はじめに
こんにちは。CTCの朴木です。
今回はAWSが提供するAI/ML系サービスの1つであるAmazon Textractについて紹介させていただきます。
本記事では手書き文字の画像ファイルを入力してデータ抽出する方法を記載しましたのでよければ見ていただけますと幸いです。
Amazon Textractとは
Amazon Textractはスキャンしたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出するサービスで、JPEG、PNG、PDF、および TIFF 形式のファイルに対して利用が可能です。
まだ日本語には対応していませんが、印刷されたテキストを含むドキュメントの処理に関しては英語、スペイン語、イタリア語、ポルトガル語、フランス語、ドイツ語の言語をサポートしています。手書き文字や請求書、領収書、身分証明書等の認識には英語のみ対応しています。
対応しているリージョンですが、現在は米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、米国西部 (北カリフォルニア)、AWS GovCloud (米国西部)、AWS GovCloud (米国東部)、カナダ (中部)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (フランクフルト)、欧州 (パリ)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (ソウル)、およびアジアパシフィック (ムンバイ) のリージョンで利用可能となっています。(2022年6月現在)
Amazon Textractの使用方法
本記事では手書きで簡単に書いた英文と表をJPEGの画像ファイルにして、そのデータをAmazon Textractを用いて抽出させたいと思います。それでは早速やってみましょう!
今回は下記のファイルからデータを抽出させます。

Amazon Textractのサービス画面へ移動し、「ドキュメントを選択」ボタンをクリックします。

データの出力項目にて「フォーム」と「テーブル」を選択し、「設定を適用」ボタンをクリックします。

出力結果が以下になります。「生のテキスト」には画像内の文字がすべて表示されます。文章部分では1行ごとにテキストが区切られて文字が認識されていることがわかります。表部分では1つの項目ごとに区切られて表示されています。
文章もすべて誤字なく認識されており、「.」や「,」の判別もできていることが分かります。

次に「テーブル」の結果も見てみましょう。手書きの表でしたが問題なく認識されていました!「℃」は表示にゆらぎが見えましたがほかの単語に関しては誤字がありませんでした。字をもう少しきれいに書く必要があったかもしれません…。

Amazon Textractではアップロードしたドキュメントのデータ抽出結果をダウンロードすることができます。「結果をダウンロードする」ボタンをクリックするとzipで今回の結果を.jsonファイルやcsvファイル、.txtファイルの形式でダウンロードできます。

ダウンロードした.txtファイル(rawText.txt)の中身は以下のようになっていました。
文章部分は問題なく読めますね。.txtファイルの表部分は項目単位で1行ずつ記載されていますがダウンロードした.csvのテーブルデータは画像と同様な表の形で出力されていました。
26 , June, 2021
It is beautiful day today and the laundry will
get dry quickly.
My cats are staying at a well air-conditioned -
room and they seem to be comfortable
Date
Weather
Temperature
6/26
Sunny
20°c
6 /27
Cloudy
25°c
6/28
Rainy
30°C
6/29
Rainy
30°c
6/30
Sunny
35°C
2/1
Sunny
30°C
おわりに
いかがでしたでしょうか。Amazon Textractにはデモ用のサンプル画像がいくつも用意されています。どんな画像がどういう出力結果になるのかが分かるようになっていますので見てみると理解しやすいかもしれません。興味がありましたらぜひ実際に試してみてください。いつか日本語も対応したらうれしいです。
CTCは、AWSのビジネス利活用に向けて、お客様のステージに合わせた幅広い構築・運用支援サービスを提供しています。
経験豊富なエンジニアが、ワンストップかつ柔軟にご支援します。
ぜひ、お気軽にお問い合わせください。