生成的AIが企業の運営方法を変え続け、ネットの新しいイノベーションを開発し続けるにつれて、AIモデルのトレーニングと展開のインフラストラクチャの需要は指数関数的に成長しました。従来のインフラストラクチャアプローチは、最新のAIワークロードの今日の計算要件、ネットワークの要求、回復力のニーズに対応するのに苦労しています。
AWSでは、組織が実験的なAIプロジェクトから大規模な生産展開に移行するにつれて、テクノロジーの状況全体にわたって変革が見られます。このシフトには、セキュリティ、信頼性、費用対効果を維持しながら、前例のないパフォーマンスを提供できるインフラストラクチャが必要です。そのため、AIワークロード専用に設計されたネットワーキングイノベーション、専門的な計算リソース、回復力のあるインフラストラクチャに多額の投資を行ってきました。
サージメーカーAIによるモデルの実験とトレーニングの加速
AIインフラストラクチャ戦略へのゲートウェイはAmazon Sagemaker AIです。これは、実験を合理化し、エンドツーエンドモデル開発ライフサイクルを加速するための専用ツールとワークフローを提供します。この分野での主要な革新の1つは、Amazon Sagemaker HyperPodです。これにより、AIインフラストラクチャの構築と最適化に関与する未分化の重いリフティングが削除されます。
その中核では、Sagemaker HyperPodは、生の計算力に対する従来の強調を超えてインテリジェントで適応的なリソース管理に向けて移動することにより、パラダイムシフトを表しています。高度な回復力の機能が備わっているため、クラスターはフルスタック全体のモデルトレーニング障害から自動的に回復し、並列処理のために数千のアクセラレータ全体でトレーニングワークロードを自動的に分割できます。
トレーニング効率に対するインフラストラクチャの信頼性の影響は重要です。たとえば、16,000チップクラスターでは、毎日のノード障害率が0.1%減少するごとに、クラスターの生産性が4.2%向上します。16,000H100 GPUクラスターの1日あたり最大$ 200,000の潜在的な節約に翻訳されます。この課題に対処するために、最近、HyperPodで管理された階層化チェックポイントを導入し、自動データ複製を使用して高性能チェックポイントストレージのCPUメモリを活用しました。このイノベーションは、回復時間の速度を高めるのに役立ち、従来のディスクベースのアプローチと比較して費用対効果の高いソリューションです。
今日の最も人気のあるモデルで作業する人のために、HyperPodは、Openai GPT-Oss、Deepseek R1、Llama、Mistral、Mixtralのサポートなど、30を超えるキュレーションされたモデルトレーニングレシピも提供しています。これらのレシピは、トレーニングデータセットの読み込み、分散トレーニング技術の適用、インフラストラクチャの障害からのチェックポイントと回復のためのシステムの構成などの重要な手順を自動化します。また、Jupyter、VLLM、Langchain、MLFlowなどの人気のあるツールをサポートすることで、ファンデーションモデルのトレーニングと推論ワークロードをスケーリングする際に、コンテナ化されたアプリとスケールクラスターを動的に管理できます。
ボトルネックの克服:ネットワークパフォーマンス
組織がAIイニシアチブを概念実証から生産まで拡大するにつれて、ネットワークのパフォーマンスは、成功をもたらすか、または成功を破ることができる重要なボトルネックになることがよくあります。これは、マイナーなネットワークの遅延でさえ、時間または数週間をトレーニング時間に追加し、コストを大幅に増やすことができる大きな言語モデルをトレーニングする場合に特に当てはまります。 2024年、ネットワーキング投資の規模は前例のないものでした。私たちは私たちをサポートするために300万を超えるネットワークリンクをインストールしました 最新のAIネットワークファブリック、または10P10Uインフラストラクチャ。 10マイクロ秒未満のサーバー間で10マイクロ秒の帯域幅のペタビットを配信しながら20,000を超えるGPUをサポートしながら、このインフラストラクチャにより、組織は以前は非実用的または信じられないほど高価だった大規模なモデルをトレーニングできます。これを視野に入れると、以前は数週間かかっていたものが数日で達成され、企業がより速く反復し、AIの革新をより早く顧客にもたらすことができます。
このネットワークアーキテクチャの中心にあるのは、革新的なスケーラブルな意図駆動型ルーティング(SIDR)プロトコルと弾性ファブリックアダプター(EFA)です。 SIDRは、ネットワークの混雑または障害を検出し、1秒以内に応答すると、従来の分散ネットワーキングアプローチよりも速くデータを検出したときにデータを即座に再ルーティングできるインテリジェントなトラフィック制御システムとして機能します。
AIの加速コンピューティング
最新のAIワークロードの計算需要は、従来のインフラストラクチャをその限界に押し上げています。特定のユースケースの基礎モデルを微調整したり、モデルをゼロからトレーニングしたりする場合でも、適切なコンピューティングインフラストラクチャを持つことだけでなく、特定のニーズに合った最も費用対効果の高い効率的なソリューションを選択する柔軟性を持つことです。
AWSは、NVIDIAとの長年のパートナーシップとカスタムビルドAWSトレインチップの両方に固定されている、業界で最も幅広い加速コンピューティングオプションを提供しています。 Nvidia BlackwellチップスをフィーチャーしたP6インスタンスの今年の発売は、最新のGPUテクノロジーをお客様に提供するという継続的なコミットメントを示しています。 P6-B200インスタンスは、1.4 TBの高帯域幅GPUメモリと最大3.2 TbpsのEFAV4ネットワーキングを備えた8つのNVIDIAブラックウェルGPUを提供します。予備テストでは、JetBrainsのような顧客は、MLパイプライン全体のH200ベースのP5ENインスタンスよりもP6-B200のトレーニング時間が85%以上速いことをすでに見ています。
AIをより手頃な価格でアクセスしやすくするために、MLワークロード専用に設計されたカスタムAIチップであるAWS Trainiumも開発しました。ユニークな収縮アレイアーキテクチャを使用して、Trainiumは、メモリ帯域幅の要求を減らす効率的なコンピューティングパイプラインを作成します。このインフラストラクチャへのアクセスを簡素化するために、MLのEC2容量ブロックを使用すると、EC2ウルトラクラスター内の加速された計算インスタンスを最大6か月間予約し、顧客が必要な加速計算に予測可能なアクセスを可能にします。
今日の明日の革新の準備
AIが私たちの生活のあらゆる側面を変え続けているため、1つのことが明らかです。AIは、それが構築されている基盤と同じくらい良いだけです。 AWSでは、次世代のAIブレークスルーに必要なセキュリティ、回復力、継続的なイノベーションを提供し、その財団を提供することを約束しています。革新的な10P10Uネットワークファブリックから、P6E-GB200ウルトラソーバーからSagemaker HyperPodの高度な回復力機能まで、あらゆるサイズの組織がAIで可能なことの境界を押し広げることができるようになります。 AWSで次に顧客が何を構築するかを楽しみにしています。
著者について
バリーが料理をする クラウドコンピューティング、ハードウェア設計、アプリケーションマイクロサービス、人工知能など、25年の経験を持つ25年の経験を持つグローバルなエンタープライズテクノロジーのベテランです。 AmazonのテクノロジーのVPとして、彼は抽象化(コンテナ、サーバーレス、VMware、マイクロVM)、量子実験、高性能コンピューティング、およびAIトレーニングを計算する責任があります。彼は、AWS Lambda、Amazon Elastic Container Service、Amazon Elastic Kubernetes Service、Amazon Sagemakerなどの主要なAWSサービスを監督しています。バリーはまた、AWS全体で責任あるAIイニシアチブを率いており、AIの安全で倫理的な発展を促進します。 2022年にAmazonに入社する前、BarryはDigitaloceanでCTOを務め、そこで成功したIPOを通じて組織を導きました。彼のキャリアには、VMwareとSun Microsystemsでのリーダーシップの役割も含まれています。バリーは、パデュー大学でコンピューターサイエンスの理学士号を取得し、オレゴン大学でコンピューターサイエンスのMSを取得しています。