TOP>コラム一覧>[COP210] FINRA: Democratize data and solve issues faster with Grafana(操作)

[COP210] FINRA: Democratize data and solve issues faster with Grafana(操作)





いつも関心があったgrafanaとprometheusをテーマにセッションが開かれるとのことで参加しました。

可視性が運用とビジネス結果に与える影響について説明しました。

古い問題の再発を防止したり、運用の可視性を確保することでダウンタイムを最小限に抑えることが重要であり、迅速に対応して復旧できる復元力に優れたアプリケーションを保有することは、お客様がプラットフォームで満足できるようにするために非常に重要です。

したがって、可視性は日常的な運用に影響を与えるだけでなく、会社やビジネスの成果を達成することにも直接影響します。

可視性と同様に、Data Democracyも新しい概念ではなく、可視性とData Democracyを介して正しいデータを収集することが最初です。(アプリケーションの従業員間でデータを収集したり、部門別の指標を収集したり、ビジネスツールを介してデータをさまざまな形式で保存したり、サイロデータ項目に保存したりするなど)

セキュリティとガバナンスデータも重要な部分です。

  • データを安全に収集、保存、可視化できること
  • ネットワークアクセスポリシーを定義し、データがアイドル状態と転送状態で暗号化されていることを確認し、正しいユーザーがアクセスできるようにする
  • スケーラビリティは言うまでもありません(コンテナを使用する場合は、数百万のメトリックを収集する必要があります)
  • データは特にビジネスの拡大とともに増加し続けるため、ビジネスとともに拡張および成長できるサービスに基づいて構築することは、将来のプラットフォームを実証する上で重要です。

ダッシュボードの価値を説明するシーンです。多くのデータダンプは実際には役に立たず、必要なすべてのデータを収集できますが、優れた可視化ツールが必要です。

  • AWSで上記の2つのケースをどのように組み合わせたかについて説明します。
    運用と両方のデモクラシー化が可能な単一データ可視化ツールの構築が必要です。
  • Prometheusは、広く使用されているオープンソースデータビジュアライゼーションツールで、ビジネス、運用指標、ロジックなど、さまざまなデータ型を生成できます。
  • - 可視化、管理、アラーム silence 対応
    データの有無にかかわらず、データを保存でき続ける必要があります。
  • つまり、データレイクでタスクを実行してアラームを提供できる必要があります
  • Lake Formationまたは外部VMに基づいてビジネスデータレイクを構築し、すべてのデータクエリを一元的に記録できます。


Finraは毎日最大6000億件のトランザクションを処理し、データを収集すると1日30万以上のコンピューティングエッジとリージョンを稼働しており、ストレージスペースは500PB以上を使用しています。

データを1か所ですべて利用できるようにし、ユーザーがこれらすべての要素を考慮して安全にデータ中心の意思決定を行うことができるように提供することがData Democracyだと思います。

ファンデミックとリモートワークが新しい標準になるにつれて、ほとんどのベンダー技術チームは、コラボレーション、生産性、および活動方法で使用されるアプリケーションでさまざまなコア製品のカスタマイズをサポートしています。

ただし、これに関連する当面の課題の1つは、これらのリモートワークスペースツールの使用量メトリックを確保するものがあります。(特に少なく使用されたり多用されている機器)

ツールの使用の観点が不足しているため、データ中心の意思決定を行うことができず、これらのツールの適切な要件や改善が必要です。

コラボレーションは成功の鍵ですが、コラボレーションには長い時間がかかります。

  • 術チームとビジネスチームのコラボレーション、チーム間の協力など
    誰もが顧客を満足させたいのですが、顧客満足度指標を測定する方法は曖昧です。
  • どのタイプの顧客環境メトリックを測定することで、毎年改善することができますか?
    リーダーシップのための1つのマネジメントダッシュボードを使用して、顧客が保持しているすべてのデータを確認し、データ中心の意思決定を行い、これらのツールの財務調査戦略を検討する必要があります。

異なるデータソースをすべて1か所に保存してデータを分析できる必要があるため、Grafanaを選択しました。Grafanaは優れたダッシュボードツールであり、Amazon Managed Grafanaはインフラストラクチャを自動的に拡張し、パッチを適用する方法でバックエンドの問題を解決したという。

活用された事例の技術ソリューションを以下のように説明しました。

  • サーバーレスで完璧なソリューションを構築し、Lambda、Glue ETL、Ahtenaなどを使用
  • 図の左側はデータ収集のためのアーキテクチャであり、このプロセスはAPIを呼び出してすべてのリモートワークスペースからデータを取得するデータ抽出から始まります。
  • データ変換プロセスを経た後、データはS3バケットに登録され、ユーザーがデータを使用できるようになります。
  • 現在の構成に基づいてManaged Grafanaワークスペースを作成し、ダッシュボードを構築する
  • SAML統合により、ユーザー、役割、権限の管理が簡単に可能

ダッシュボードを作成するために多くのツールを使用しており、使用量メトリック、カスタマーエクスペリエンスメトリック、カスタマーエクスペリエンスメトリック、顧客満足度メトリック、アプリケーションメトリック、および上級管理職が来てリーダーシップを決定できるように、経営陣のリーダーシップダッシュボードを作成しました。

ダッシュボードに入る前に、さまざまなメトリックを説明しました。

  • ツールを使用するユーザー、使用方法、使用頻度を把握できる使用量指標メトリック
  • アプリケーションがどれほどうまく機能しているかを理解するのに役立つ運用指標

ビデオ会議用に作成されたダッシュボードの説明。ユーザーはダッシュボードの時間範囲を簡単に調整でき、パネルもそれに応じて更新されます。これにより、彼らがしたい分析を行うことができます。

凡例機能の紹介です。この機能により、指定したダッシュボードの各変数の要約統計を簡単に設定できます。これにより、ユーザは所与の変数に対する値の分布を迅速かつ容易に見ることができる。

トグル機能の説明です。ダッシュボードのすべてのユーザーが実行しようとしている分析に関連するすべての変数を見つけるわけではないため、この機能を使用すると、ユーザーが意図した操作に意味がない、または役に立たない変数を切り替えることができます。

Inspect 機能の紹介です。ユーザーがダッシュボードパネルからバックデータを取得するために使用されるクエリとJSONモデルに簡単にアクセスできます。

EKS ワークロードの可視性を確保した方法の最新のケースの説明です。

  • コンテナ化されたアプリケーションを規模に合わせてインストールしやすいAWSで管理されているEKSを使用する

EKSを採用する当時の難しさとしては

  • EKSワークロードメトリックの可視性は、クラスタ全体だけでなく、task、nodeなどの詳細な分析やレビュー、taskの実行、停止、データの歪みなどの確認が難しかった
  • アラーム設定も容易ではなく、アラームがないときは事前予防ではなく問題発生時の対応のみを行った
  • ワークロード管理とパフォーマンスチューニングの難しさ

たとえば、メモリ設定が正しいこと、データ状態、データキューのボトルネック、課題のあるパフォーマンス条件を検出するために必要な指標の不在などがあり、これによりコスト増加が発生しました。EMRに似たソリューションを構築するためのオプションを検討しましたが、コストとメンテナンスの面でAmazonを選択することになったそうです。

CPU、Memory、およびtaskレベルのメトリックと素晴らしいダッシュボードが欲しかったので、Amazon Managed Service for Prometheus、Amazon Managed Grafanaを採用することになりました。

Workerノードは、リソースの増減に基づいて設定された値に基づいて自動的にスケーリングされます。(ワークスペースを作成し、その上にダッシュボードを構築する)

EKSワークロードを把握するために構築およびテンプレート化したダッシュボード。

OSレベルだけでなくクラスタレベルのメトリックにも焦点を当て、ネットワークトラフィックなどのさまざまなメトリックがあります。

ダッシュボードの目的は、アプリケーションチームがクラスタの構成だけでなくクラスタ全体のパフォーマンスを把握できるようにすることで、アプリケーションチームは問題が発生する可能性がある場所を特定することができました。

以前は、ワークロードの問題を見つけるためにログとログとログと..ログを調査する非常に受動的で退屈なプロセスだったそうです。

すべてのダッシュボードを使用して問題をより迅速に把握して解決し、全体的にEKSワークロードの運用状況を改善することができました。



興味のある方は、資料やワークショップを参照されるとよいでしょう。

既存の間違った運営を変えようとする講師の姿勢と情熱が管理業務を行う立場からすると非常に刺激的なセッションでした。ダッシュボードやアラームの重要性を改めて認識する機会となり、最近では既存の監視ツールに代わりprometheusの導入を検討されているお客様もいらっしゃるようです。

お問い合わせ

引用元

TOP>コラム一覧>[COP210] FINRA: Democratize data and solve issues faster with Grafana(操作)

pagetop