【初心者必見】AWSにおけるデータレイクとは
投稿日: 2020/08/21
はじめに
最近データレイクという言葉を聞く機会が増えたかと思います。そもそもデータレイクとはなんなのか?データの湖??本ページではそこから解説していき、AWSで実装するデータレイクの代表的な構成をお伝えしたいと思います。
「データレイク」とは
データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。 AWS社のページには上記のように記載されています。要約すると「データを1箇所に保存しておき、使いたいときに使えるようにしておく場所」と理解していただいて問題ないかと思います。
なぜいまデータレイクなのか?
すべてのデータをデータウェアハウスに保存できればよいのですが、費用が高額になります。データウェアハウスに保存されるデータは、テーブルレイアウトに合わせる必要があります。多種多様なデータを成形するコストは膨大になってしまいます。それが、データレイクが人気を博した最大の理由です。データレイクは、主に非構造化データを最も費用対効果の高い方法で処理できます。非構造化データとは、単に構造化されていない業務データではなく、テキストやソーシャルメディア、IoTデバイスのログファイルやセンサー、マシンデータまで、あらゆるデータを対象とします。
データレイクとデータウェアハウスの役割の違い
データウェアハウスは、社内の各種アプリケーションやデータベースに保管された構造化データを収集し、目的別に定義された形に統合・格納して、分析業務で利用するためのデータストアです。データレイクは冒頭に記載したとおり、データの成形をしないままデータを溜めておき、データを使用する際は別途成形することとなります。対してデータウェアハウスは成形後のデータを溜めておきすぐに使用できるようにしておけるようにします。
データレイクのメリット
1. 成形処理
データレイクではデータを「そのまま」保存するため、成形処理の工程を省いてデータを保存することが出来ます。
2. 組織間でのデータ連携
データウェアハウスでは成形後のデータを保存するため、使用者の使いたい形式でデータが保存されております。対してデータレイクでは成形前のデータのため、異なる組織からでもデータを使用者ごとに整形することが可能です。そのため、データレイクでは組織をまたがってのデータ連携が可能となります。

AWSでのベストプラクティス

1. Amazon S3
S3はスケーラビリティのあるオブジェクトストレージです。非構造化データ、構造化データを問わずS3に保存しておき、他のサービスから呼び出すために使用します。
2. Amazon Redshift
Amazon Redshift は最も人気のある高速なクラウドデータウェアハウスです。Amazon Redshift はお客様のデータレイクと統合でき、他のどのデータウェアハウスよりも最大3倍速いパフォーマンスと、他のどのクラウドデータウェアハウスよりも最大75%低いコストを実現できます。データレイクとしては高速な処理が必要なデータをDWHに抜き出し分析のために使用します。
3. Amazon QuickSight
AWSが提供するBIツールとなります。Amazon Redshift、Amazon RDSに関しては他のBIツールからでも接続することが出来ますが、Amazon S3、Amazon Athenaを使用する際はAmazon QuickSightを利用します。
4. Amazon Athena
Amazon S3 内のデータを標準 SQL を使用して簡単に分析できるサービスとなります。データレイクにおいてはAmazon Redshift、Amazon RDSにデータを移管必要がなくS3自体にSQLで解析をすることが可能となります。
おわりに
本ページでは簡単ではありますがデータレイクについて説明をいたしました。データレイクのシステムを構築するにはAWSの様々なサービスを利用します。AWSでは本ページに記載した以外にも様々なサービスがあり、それぞれのサービスが日々を改修しています。一度システムを構築して終わりにするのではなく、システムの定期的に見直すことも必要になってきております。
最新情報を常に追い、さらにシステムを見直すには多くの時間が必要になります。そのお手伝いがCTCで出来ればと考えてます。
CTCは、AWSのビジネス利活用に向けて、お客様のステージに合わせた幅広い構築・運用支援サービスを提供しています。
経験豊富なエンジニアが、ワンストップかつ柔軟にご支援します。
ぜひ、お気軽にお問い合わせください。