[AIM321] Productionize ML workloads using Amazon SageMaker MLOps, feat. NatWest(AI/ML)
投稿日: 2022/12/09

MLOpsツールは、MLライフサイクル全体にわたってプロセスを自動化および標準化し、MLモデルをより迅速に生産し、生産時にモデル品質を維持するのに役立ちます。
Amazon SageMakerは、MLモデルを規模に合わせてトレーニング、テスト、トラブルシューティング、デプロイ、および管理するためのさまざまなMLOpsツールを提供しています。
このセッションでは、SageMaker Pipeline、SageMaker Projects、SageMaker Experimentals、SageMaker Model Registry、SageMaker Model Monitorなど
Amazon SageMaker MLOpsの機能を見ながら、自動化を強化し、MLワークフローの品質を向上させる方法を学びました。

MLOps は、スケールに合わせた高性能 ML モデルを継続的に迅速に提供することで、次のような利点があります。
- Agility: より速い反復と使いやすさ
- Quality: 高性能モデル
- Economy: 時間とコストの削減

MLOpsのユースケースの1つは、次のようにDevelop、Deployステップで構成されています。
Develpoフェーズでは、環境プロビジョニング、実験の実行が行われます。
Deploy フェーズでは、モデル学習の自動化、モデルのパッケージとテスト、モデルのデプロイおよびモニタリングを実行します。

顧客に提供される実質的な利点は次のとおりです。
- リリースまでの時間を約4倍速く短縮可能
- 約85%再利用可能なMLソリューションとアーティファクト
- 約8倍減少したFTEオーバーヘッド

テンプレートを使用して標準化する方法は次のとおりです。
[データサイエンティストのためのワンクリック環境プロビジョニング]
- Best practicesによるソース管理作業方向の標準化
- データサイエンティストにノートブックとシードコードを提供する
- 開発アカウント用のCI / CDパイプライン設定(「コードとしてのML Infrastructure」)
[Githubでカスタムテンプレートライブラリを増やす]

ML実験を管理する方法は次のとおりです。
[トップフィードバック]
- IDEでロギングを有効にする
- 概念の簡素化 (Experiments/Trials/Trial Components)
- 実験の可視化、比較、共有
- HPO実験支援(parallel coordinateチャートなど)
- Model Registry/MLOpsとのより良い統合

モデル開発を自動化する方法は次のとおりです。
[モデル学習ワークフロー自動化]
- ML関連:データ処理、モデル学習、モデル評価
- サーバーレス:インフラストラクチャを管理する必要はありません
- フォールトトレランス: 組み込みキャッシュ、再試行、エラー処理
- 統合性:監査と再現性のためにSageMakerに記録されたパイプラインの実行

【新機能】
- SageMakerパイプラインローカルモード
- SageMaker Autopilotステップ
- クロスアカウントの検索と有効化
- 合理化されたPython SDK

[テスト用のローカルモード]
ローカルモードのSageMaker Job内で少ないデータセットに前処理した後、モデル学習し、少ないデータセットにバッチ変換する過程を通じてパイプラインをテストできます。SageMakerローカルモードテストの利点は次のとおりです。
- Agility:開始時間を発生させることなくパイプライン定義をすばやくテスト
- Economy:クラウドインスタンスの実行コストなしでパイプライン定義をテストする

[AutoMLサポート]
AWSのさまざまなサービスは、SageMaker AutoMLをより柔軟でスケーラブルにするのに役立ちます。(ex. AWS Lambda、S3、等)

[クロスアカウント共有]
クロスアカウント共有の利点は次のとおりです。
- Agility:複数のアカウントにログインすることなく、AWSアカウント全体で自動化可能
- Economy:エンタープライズアカウント間のパイプライン冗長性による「パイプラインジャングル」負債の防止
[SDK簡素化]

【運用モデルモニタリング】
運用中のデータとモデルをさまざまな指標で監視できます。運用モデルモニタリングによりデータ品質、モデル品質モニタリングが可能。
さらに、Amazon SageMaker Clarifyとの統合により、モデルの偏り、モデルの説明力までモニタリングが可能です。

[バッチ推論]
定義されたスケジュールから配置推論のためのモデル品質、偏向、フィーチャードリフトを監視します。バッチ推論モニタリングによって得られる利点は次のとおりです。
- Agility: バッチ推論の結果を継続的に監視し、パフォーマンスが低下した場合にチームに通知したり、最新のデータでモデルを再学習
- Economy: モデルの性能低下がアプリケーションに与えるダウンストリーム影響の最小化

規模に合ったMLを採用するための指標は次のとおりです。
- エンドツーエンドソリューションの迅速な提供
- データ検索とアクセスの簡素化
- 単純化されたMLモデルのパスとして機能
- エンドユーザーのセルフサービス環境の構築
MLOpsワークロードを実質的に組織に反映するために考慮すべき部分、実質的な利点と期待効果などを学ぶことができました。