[AIM324] Accelerate your ML journey with Amazon SageMaker low-code tools（AI/ML 2）

投稿日: 2022/12/09

マシンラーニング（機械学習）ジャーニーの成功には、継続的な実験と迅速なプロトタイピングが必要です。非常に正確なモデルを作成するには、データサイエンティストがまずフィーチャーエンジニアリング、モデル選択、および最適化技術を検証する必要があります。

これらのプロセスは伝統的に時間がかかり、費用がかかりますが、このセッションでは、Amazon SageMaker Data Wrangler、Amazon SageMaker Autopilot、Amazon SageMaker Jump Startなどのローコードツールを使用してより迅速かつ効率的に検証を実施する方法を紹介しました。

MLワークフローには4つのステップがあります。このうち、データ前処理は、ワークフロー全体の60〜70％を占めるのに十分な時間がかかります。モデルをビルドして学習し、ハイパーパラメータのチューニングなどの作業を進める作業でも時間がかかります。また、実際のデータセットが学習したモデルに適していない場合は、新しいモデルを実装する作業が発生する可能性があります。

MLに関連する一般的な問題は次のとおりです。

1. データセットを準備し、モデルを構築するための深い専門知識が必要です。
2. 検証には時間とリソースを大量に消費します。
3. データサイエンティストが過度に集中しており、需要は増え続けています。

ローコード MLを使用すると、より高速な ML ワークフロー、オープンでカスタマイズ可能なソリューション、新規および上級の ML 実務者の両方に適しているという利点があります。

Amazon SageMakerでは、次のローコードサービスを使用してMLワークフロー操作を実行できます。

Data Wrangler: PREPARE ステップの実行が可能です。
Autopilot：MLワークフローすべてのステップを実行できます。
JumpStart: BUILD ステップから、すべてのステップを実行できます。

SageMaker Data Wranglerは、MLのデータをすばやく視覚的に適用して準備することができます。

データへのリンクと読み込み、データ品質に関する洞察の取得、データのクレンジングと強化、分析と可視化、学習の準備が整ったデータの抽出、モデルのデプロイなどを行います。

Data Wranglerは迅速な理解と反復を可能にします。

1. MLベースの分析でデータ品質の問題を診断します。
2. SageMaker Clarifyと統合し、偏りを検出して軽減します。
3. データについて学習したモデルの品質をすばやく評価するためのクイックモデル機能をサポートします。

ポイントとクリック、コードスニペット、コードを使用したデータ変換が可能です。

1. ポイントとクリックにより、PySparkベースのデータ変換の実装が可能です。
2. PySparkで書かれたコードスニペットの修正が可能です。
3. PySpark、Pandas、SQLベースのカスタム変換を作成できます。

Data Wranglerは、UIまたはラップトップでデータを規模に合わせて処理します。

1. サーバーレス処理ジョブをスケジュールします。
2. パイプラインで使用するノートブックまたはPythonファイルにオーケストレーションコードをエクスポートします。
3. SageMaker Feature Store と Amazon S3 はデータ処理結果を保存できます。

SageMaker Autopilotは、MLモデルをより迅速かつ視覚的に学習、チューニング、および展開できます。データをアップロードしたら、ターゲット変数を選択します。自動化されたモデル開発が可能です。モデルリーダーボード、完全な可視性と制御、および登録したモデルを評価して配布することができます。

コントロール: カスタマイズされた AutoML スケジュール

自動データ前処理または SageMaker データラングラーにより、カスタマイズされた変換が可能になります。
自動フィーチャーの選択または自動抽出データ型の変更が可能です。

可視性: SageMaker Autopilotモデルの理解

モデルリーダーボードとモデル資産には、トレーニングおよび検証データ、機能エンジニアリングコード、および展開可能なモデルが含まれます。
モデルインサイトレポートを使用して、パフォーマンス指標、モデル洞察チャート（混同行列、ROC曲線など）を確認します。
特徴量の重要度を理解するための要約統計量と説明可能性を報告します。
データとデータの品質に関する洞察を得るためのデータナビゲーションレポートを生成します。

SageMaker エンドポイントのデプロイ

モデルをデプロイして、UI経由またはAPI呼び出しを介してリアルタイム予測を実行するためにSageMakerエンドポイントにモデルをデプロイします。
提供されたデータセットのバッチ予測を取得できます。
Data Wranglerで開始された実験には、推論のためにモデルを配置するときのData Wrangler変換が含まれています。

SageMaker Jumpstartには、事前学習済みのモデルが含まれています。ML学習を始めるのに役立つ広範な種類の問題について、事前に訓練されたオープンソースモデルを提供します。展開前に、これらのモデルをインクリメンタルにトレーニングして調整できます。JumpStartは、一般的なユースケース用のインフラストラクチャを設定するソリューションテンプレートと、SageMakerを使用した機械学習のための実行可能なノートブックも提供しています。

基本的なモデルはSageMaker Jumpstartで利用可能になりました。

数十億のパラメータを持つ大規模なデータセットについて事前学習されました。
テキストの要約、質問の回答、デジタルアートの作成など、多くのユースケースに適用できます。
最初からモデルを学習すると、費用がかかります。

以前のSageMakerローコードツールは、MLを知っている人にMLの知識がなくてもMLが可能であるという点で魅力的でしたが、機能も制限されており、他のサービスとの連携も容易ではないと感じました。

しかし、今回のセッションを通じて様々な機能が追加・強化され、SageMaker Clarifyとの統合を通じてExplainable AIとしての利点を受け継ぎ、現業従事者の方にもモデルの妥当性を理解するのに役立つものと見られます。

お問い合わせ

引用元

https://www.megazone.com/reinvent2022-1129-8/