TOP>コラム一覧>【初心者必見】Amazon Textractを使ってみた

【初心者必見】Amazon Textractを使ってみた

はじめに

こんにちは。CTCの朴木です。
今回はAWSが提供するAI/ML系サービスの1つであるAmazon Textractについて紹介させていただきます。
本記事では手書き文字の画像ファイルを入力してデータ抽出する方法を記載しましたのでよければ見ていただけますと幸いです。

Amazon Textractとは

Amazon Textractはスキャンしたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出するサービスで、JPEG、PNG、PDF、および TIFF 形式のファイルに対して利用が可能です。
まだ日本語には対応していませんが、印刷されたテキストを含むドキュメントの処理に関しては英語、スペイン語、イタリア語、ポルトガル語、フランス語、ドイツ語の言語をサポートしています。手書き文字や請求書、領収書、身分証明書等の認識には英語のみ対応しています。
対応しているリージョンですが、現在は米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、米国西部 (北カリフォルニア)、AWS GovCloud (米国西部)、AWS GovCloud (米国東部)、カナダ (中部)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (フランクフルト)、欧州 (パリ)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (ソウル)、およびアジアパシフィック (ムンバイ) のリージョンで利用可能となっています。(2022年6月現在)

Amazon Textractの使用方法

本記事では手書きで簡単に書いた英文と表をJPEGの画像ファイルにして、そのデータをAmazon Textractを用いて抽出させたいと思います。それでは早速やってみましょう!
今回は下記のファイルからデータを抽出させます。

Amazon Textractの使用方法

Amazon Textractのサービス画面へ移動し、「ドキュメントを選択」ボタンをクリックします。

Amazon Textractの使用方法

データの出力項目にて「フォーム」と「テーブル」を選択し、「設定を適用」ボタンをクリックします。

Amazon Textractの使用方法

出力結果が以下になります。「生のテキスト」には画像内の文字がすべて表示されます。文章部分では1行ごとにテキストが区切られて文字が認識されていることがわかります。表部分では1つの項目ごとに区切られて表示されています。
文章もすべて誤字なく認識されており、「.」や「,」の判別もできていることが分かります。

Amazon Textractの使用方法

次に「テーブル」の結果も見てみましょう。手書きの表でしたが問題なく認識されていました!「℃」は表示にゆらぎが見えましたがほかの単語に関しては誤字がありませんでした。字をもう少しきれいに書く必要があったかもしれません…。

Amazon Textractの使用方法

Amazon Textractではアップロードしたドキュメントのデータ抽出結果をダウンロードすることができます。「結果をダウンロードする」ボタンをクリックするとzipで今回の結果を.jsonファイルやcsvファイル、.txtファイルの形式でダウンロードできます。

Amazon Textractの使用方法

ダウンロードした.txtファイル(rawText.txt)の中身は以下のようになっていました。
文章部分は問題なく読めますね。.txtファイルの表部分は項目単位で1行ずつ記載されていますがダウンロードした.csvのテーブルデータは画像と同様な表の形で出力されていました。

26 , June, 2021
            It is beautiful day today and the laundry will
            get dry quickly.
            My cats are staying at a well air-conditioned -
            room and they seem to be comfortable
            Date
            Weather
            Temperature
            6/26
            Sunny
            20°c
            6 /27
            Cloudy
            25°c
            6/28
            Rainy
            30°C
            6/29
            Rainy
            30°c
            6/30
            Sunny
            35°C
            2/1
            Sunny
            30°C
            

おわりに

いかがでしたでしょうか。Amazon Textractにはデモ用のサンプル画像がいくつも用意されています。どんな画像がどういう出力結果になるのかが分かるようになっていますので見てみると理解しやすいかもしれません。興味がありましたらぜひ実際に試してみてください。いつか日本語も対応したらうれしいです。

CTCは、AWSのビジネス利活用に向けて、お客様のステージに合わせた幅広い構築・運用支援サービスを提供しています。
経験豊富なエンジニアが、ワンストップかつ柔軟にご支援します。
ぜひ、お気軽にお問い合わせください。

お問い合わせ

関連コラム

【著者プロフィール】

朴木 瞳(ほうのき ひとみ)

伊藤忠テクノソリューションズ株式会社 クラウドエンジニア

AWSのアカウント管理や技術QAを経験し、現在はインフラの設計・構築における業務を担当。従量削減のためのRIのコストシミュレーションにおいてもお客様を支援。

TOP>コラム一覧>【初心者必見】Amazon Textractを使ってみた

pagetop