
クラウドテクノロジーをベースにゼロから開発された超高速でスケーラブルなクラウドデータプラットフォーム
企業に蓄積される膨大なデータを統合し活用するクラウド型データプラットフォームサービス
企業の各部門に分散する大量のデータを一元的に集約して、データの分析や利用の目的に応じてデータを加工・蓄積するデータプラットフォーム。
これをクラウド上のサービスとして実現した、DWaaS(Data Warehousing as a Service)と呼ばれるプラットフォームがSnowflakeです。
Snowflakeは企業に蓄積される膨大なデータを統合するクラウドサービスであり、高い拡張性や複数処理の同時実行などによって高速なデータ処理を実現しています。
Snowflakeの特徴
なぜ高速なのか
Snowflakeの速さの秘訣は、プルーニングと並列処理です。
Snowflakeは、効果的にプルーニングすることができるように、クラスタ化したマイクロパーティションにデータを保存しています。
全てのマイクロパーティションのメタデータがサービス層に保持されており、不必要なデータの読み取りが削減されます。
Snowflakeは、MPP(大規模並列処理)コンピュートクラスタを使用してクエリを処理します。
クラウド特性を活かし、瞬時にコンピュートを拡張することでさらに並列処理を高速化できます。
同時実行性に優れるとは
ストレージとサーバが物理的には分離されていますが、論理的には統合されている構造です。
ワークロードやユーザーの各アクセスに対し、コンピュートを使い分けることによってリソースの負荷問題が生じません。
クラウド上なので、コンピュートをいくらでも増減できます。
ストレージに負荷は集中しないのか
Snowflakeはそのストレージ上のマイクロパーティションという連続したストレージユニットファイルに、テーブルデータ個々の属性や列の値をグループ化・圧縮して保存していきます。 マイクロパーティションはイミュータブル(変更不可能)な特性を持ち、データ更新時には新しいファイルが追加され、メタデータ側が変更になります。 また、サーバ側にキャッシュする仕組みもあるため、ストレージがボトルネックにならない仕組みになっています。
可用性に優れるとは
クラウドプラットフォームの複数アベイラビリティ・ゾーンを使用しています
クラウドプラットフォームだからこそ、マルチクラウド・リージョン間での自動バックアップが可能になるのです。
一方、データを削除しても物理的に最大90日マイクロパーティションが消えずに残っており、オペレーションミスなどの障害からリカバリできる仕組みが備わっています。
これらのことから、システムインフラの管理には労力をかけず、データ活用に集中できます。
どうやってデータをSnowflakeへロードするのか
Snowflakeにデータをロードする際は、データファイルを一旦ステージに配置し、ステージからSnowflakeにロードする形をとります。
ステージとはSnowflakeにとってデータをロード・アンロードしやすい領域であり、Snowflakeに備わっている「内部ステージ」と外部クラウドのストレージサービスを接続した「外部ステージ」を使用できます。
そのため、外部ステージにファイルを置いたまま、Snowflakeから外部テーブルとしてSQLでデータを参照することも可能です。クラウド上のデータ連携を行うには便利で高速な仕組みです。
データの共有とは? データマーケットプレイスとは
クラウドストレージを使用しているアーキテクチャのため、セキュアに制御された方式で他のSnowflake環境とデータを共有することが可能です。
例えば取引先とデータを共有したい場合も、データをCSVなどへコピーしたり移転したりする必要はありません。
共有の許可設定を行うことで、取引先のSnowflake環境に共有したデータが現れます。 仮に相手方にSnowflakeがなければ、Snowflakeのユーザー/ロールを払い出すことにより、相手の任意のタイミングでデータを簡単に取得できます。
データの共有の仕組みが使われたSnowflakeデータマーケットプレイスでは、今現在も、世界中でデータのやり取りが行われています。
従量課金の料金体系
Snowflakeの料金は、使用した分のみ課金する仕組みになっています。
コンピュートノードは最低60秒から1秒単位で稼働時間を集計し、ストレージは月平均使用量が課金対象という料金体系です。
コンピュートノードは利用しない時間は自動で一時停止します。
クエリが来たら瞬時に自動起動する仕組みや、同時処理要求の増減に合わせたオートスケーリング機能があり、ストレージもデータの圧縮効率がよく、過剰な投資をする必要がありません。
無料トライアル
Snowflakeを30日間$400まで無料でご利用いただけます。
CTCは、既存のデータウェアハウス運用で性能、コスト、EOSL、運用負荷といった課題をお持ちのお客様に対して、SnowflakeのPoC、移行、導入支援サービスをご提供いたします。
また、これからデータ基盤の構築を検討されているお客様に対して、課題整理やご検討支援を目的とした簡易的なワークショップをご提案しております。
ご興味のある方は以下の「お問い合わせ」よりお問い合わせください。