TOP>コラム一覧>【初心者必見】AWSにおけるデータレイクとは

【初心者必見】AWSにおけるデータレイクとは

はじめに

最近データレイクという言葉を聞く機会が増えたかと思います。そもそもデータレイクとはなんなのか?データの湖??本ページではそこから解説していき、AWSで実装するデータレイクの代表的な構成をお伝えしたいと思います。

「データレイク」とは

データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。 AWS社のページには上記のように記載されています。要約すると「データを1箇所に保存しておき、使いたいときに使えるようにしておく場所」と理解していただいて問題ないかと思います。

なぜいまデータレイクなのか?

すべてのデータをデータウェアハウスに保存できればよいのですが、費用が高額になります。データウェアハウスに保存されるデータは、テーブルレイアウトに合わせる必要があります。多種多様なデータを成形するコストは膨大になってしまいます。それが、データレイクが人気を博した最大の理由です。データレイクは、主に非構造化データを最も費用対効果の高い方法で処理できます。非構造化データとは、単に構造化されていない業務データではなく、テキストやソーシャルメディア、IoTデバイスのログファイルやセンサー、マシンデータまで、あらゆるデータを対象とします。

データレイクとデータウェアハウスの役割の違い

データウェアハウスは、社内の各種アプリケーションやデータベースに保管された構造化データを収集し、目的別に定義された形に統合・格納して、分析業務で利用するためのデータストアです。データレイクは冒頭に記載したとおり、データの成形をしないままデータを溜めておき、データを使用する際は別途成形することとなります。対してデータウェアハウスは成形後のデータを溜めておきすぐに使用できるようにしておけるようにします。

データレイクのメリット

1. 成形処理

データレイクではデータを「そのまま」保存するため、成形処理の工程を省いてデータを保存することが出来ます。

2. 組織間でのデータ連携

データウェアハウスでは成形後のデータを保存するため、使用者の使いたい形式でデータが保存されております。対してデータレイクでは成形前のデータのため、異なる組織からでもデータを使用者ごとに整形することが可能です。そのため、データレイクでは組織をまたがってのデータ連携が可能となります。

2. 組織間でのデータ連携

AWSでのベストプラクティス

AWSでのベストプラクティス

1. Amazon S3

S3はスケーラビリティのあるオブジェクトストレージです。非構造化データ、構造化データを問わずS3に保存しておき、他のサービスから呼び出すために使用します。

2. Amazon Redshift

Amazon Redshift は最も人気のある高速なクラウドデータウェアハウスです。Amazon Redshift はお客様のデータレイクと統合でき、他のどのデータウェアハウスよりも最大3倍速いパフォーマンスと、他のどのクラウドデータウェアハウスよりも最大75%低いコストを実現できます。データレイクとしては高速な処理が必要なデータをDWHに抜き出し分析のために使用します。

3. Amazon QuickSight

AWSが提供するBIツールとなります。Amazon Redshift、Amazon RDSに関しては他のBIツールからでも接続することが出来ますが、Amazon S3、Amazon Athenaを使用する際はAmazon QuickSightを利用します。

4. Amazon Athena

Amazon S3 内のデータを標準 SQL を使用して簡単に分析できるサービスとなります。データレイクにおいてはAmazon Redshift、Amazon RDSにデータを移管必要がなくS3自体にSQLで解析をすることが可能となります。

おわりに

本ページでは簡単ではありますがデータレイクについて説明をいたしました。データレイクのシステムを構築するにはAWSの様々なサービスを利用します。AWSでは本ページに記載した以外にも様々なサービスがあり、それぞれのサービスが日々を改修しています。一度システムを構築して終わりにするのではなく、システムの定期的に見直すことも必要になってきております。
最新情報を常に追い、さらにシステムを見直すには多くの時間が必要になります。そのお手伝いがCTCで出来ればと考えてます。

CTCは、AWSのビジネス利活用に向けて、お客様のステージに合わせた幅広い構築・運用支援サービスを提供しています。
経験豊富なエンジニアが、ワンストップかつ柔軟にご支援します。
ぜひ、お気軽にお問い合わせください。

お問い合わせ

【著者プロフィール】

原田 章弘(はらだ あきひろ)

伊藤忠テクノソリューションズ株式会社 クラウドアーキテクト

オンプレミスの設計業務から構築、運用業務に従事。現在はオンプレミス時代の経験を活用し、AWSのプリセールス、コンサル案件を担当するアーキテクトとして活躍中。2020 APN AWS Top Engineersに選出。

原田 章弘(はらだ あきひろ)

TOP>コラム一覧>【初心者必見】AWSにおけるデータレイクとは

pagetop