TOP>コラム一覧>[AER205] Choosing the right accelerator for training and inference(AI/ML)

[AER205] Choosing the right accelerator for training and inference(AI/ML)

Amazon EC2 は、機械学習アプリケーションのための最も広範で深いインスタンスポートフォリオを提供します。P4やG5などのGPUベースの高性能インスタンスから最高の価格パフォーマンスを実現するために、AWSシリコンで特別に設計されたTrn1およびInf1インスタンスまで、各機械学習ワークロードに適したインスタンスがあります。このセッションでは、これらのインスタンス、ベンチマーク、および各インスタンスの理想的なユースケースガイドラインについて学びました。

課題は以下の通りです。

  • データサイエンティストは、より少ない時間とコストでさまざまなタイプ/サイズのMLモデルを構築/配布する必要があります。
  • MLモデルの構築/配布のための最も効率的なコストパフォーマンスを提供する最高のハードウェア設定を選択する必要があります。
  • MLモデルを構築/配布するための最高のコストパフォーマンスハードウェアを構成する必要があります。

AI/MLのための最も広範で深いコンピューティングインフラストラクチャは、従来のMLでの学習/推論のためのM、C、Rインスタンスファミリー、ディープラーニング推論のためのInf、Gインスタンスファミリー、およびモデル学習のためのP、Trnインスタンスファミリーがあります。

ML学習にCPUインスタンスを使用する場合は、次のようになります。

  • 従来のMLモデルを学習する場合(表形式のデータ)
  • 表形式のデータを前処理する場合
  • ディープラーニングモデルのプロトタイプ製作
  • 少ないデータセットで微調整を行う場合

Gravition3: ML

BERTモデルを使用してSQuAD v1.1クエリ応答を実行するNLPワークロードを例に、パフォーマンス比較を行いました。Gravition3はbfloat16とSIMD帯域幅の2倍近くをサポートし、C7gはC6gよりもほぼ2.5倍高い性能を提供します。

SageMakerでは、次のような利点があります。

  1. 1)MLの革新を民主化できます。
    • ビジネスアナリストを含むより多くの人員グループをサポートします。
    • 2)MLライフサイクルを加速することができます。
    • 学習時間を数時間から数分に短縮できます。
    • 3)規模に合ったデータを準備することができます。
    • 整形データと非定型データにアクセスし、ラベルを付けて処理します。
    • 4)MLプロセスの簡素化が可能です。
    • MLOpsプロセスの自動化と標準化が可能です。

大規模な学習データセットのオプションは次のとおりです。

  1. 1)中規模および大規模データセットはS3を介して呼び出すことができます。
    • ファイルモード:データセット全体をローカルストレージにコピーする
    • Fast file mode:S3からデータセットをストリーミングして読み込む
    • 2)拡張可能な共有ファイルシステム(EFS)を使用できます。
    • ダウンロードやストリーミングがない
    • 他のサービスとファイルシステムを共有する
    • 3)高性能ファイルシステム(FSx)
    • 最適化された高性能コンピューティング
    • S3と基本的に統合されている

最初のカスタマーケースでは、Finch はディープラーニング変換モデルをGPUベースのインスタンスからAWS Incentiaに基づくAmazon EC2 Inf1インスタンスに移行し、Amazon ECSを使用してカスタムコンテナを実行しました。顧客は、GPUの使用に比べてコストを80%以上削減しながら、顧客のスループットと応答時間を維持しました。

2番目のカスタマーケースでは、Amazon RoboticsにおいてAmazon SageMakerを使用してMLモデル開発プロセスを近代化し、推論ワークロードをAWS IncentiaベースのInf1インスタンスに移行しました。お客様は、自己管理ソリューションと比較して推論コストを最大70%削減し、モデルパフォーマンスを40%向上させ、1日に2億を超える推論に拡張できます。

3番目のカスタマーケースであるPaigeは、Amazon Web Servicesに切り替えて、MLワークロードを実行し、増加するデータスペースを管理するハイブリッドアプローチを取りました。分散トレーニングのために、お客様はAmazon EC2 P4dインスタンス、Elastic Fabric Adapter、およびFSx for Lustreを採用しました。PaigeはMLタスクを並行して実行し、内部ワークフロー速度を72%向上させることができ、クラウド内のコンピューティングリソースを拡張してコンピューティングコストを最適化し、チームが革新できるようにしました。

既存のMLプロセスを加速するためにデータの視点やアルゴリズム中心に解決策を考えましたが、実際にはプロジェクトでは分析ロジックを変更できず、入ってくるデータセットも一定の形式である場合があります。

このセッションを聞いた後、このような場合、視野をソフトウェアだけに置かずにハードウェア側に回して速度を上げる方法について学ぶことができ、有益でした。

お問い合わせ

引用元

TOP>コラム一覧>[AER205] Choosing the right accelerator for training and inference(AI/ML)

pagetop