ニュース

Datadog、AIのコスト最適化とパフォーマンス向上を支援する「GPU Monitoring」を提供

 米Datadogは現地時間22日、AIプロジェクトの規模拡大に伴うコスト最適化とパフォーマンス向上を支援する「GPU Monitoring」の提供開始を発表した。

 GPU Monitoringは、単一のソリューションとしてAIスタック全体にわたる統合的な可視性を提供する。これにより、GPUリソース群(フリート)の健全性、コスト、パフォーマンスを、それらを利用する部門・メンバーと直接結び付けた単一の画面で確認でき、パフォーマンスが低下しているワークロードの迅速なトラブルシューティングやコスト削減を実現する。

 Datadogは、現在利用されているGPU関連ツールは、デバイスの健全性に関する概要レベルのメトリクスは提供するものの、部門横断的なリソース競合の問題を明らかにしたり、トレーニングや推論ワークロードが失敗する理由を説明したり、どのデバイスがアイドル状態にあるのか、あるいは非効率的に使用されているのかを可視化したりすることはできないと説明する。

 GPU Monitoringは、GPUリソース群のテレメトリーを、それらのリソースを消費するワークロードと直接結び付けることで、この作業を効率化する。また、プラットフォームエンジニアリングチームと機械学習チームに共通の画面を提供し、共同で調査を行えるようにするとしている。

 これにより、過剰なコストを抑えつつAIをスケールすることが可能になる。GPUリソース群の使用パターンに基づく可視性と予測、および新規GPUの購入か既存リソースの解放かを判断するための具体的な判断指針により、プラットフォームチームは高額な設備投資や長期の調達プロセスを回避できる。機械学習チームは必要なキャパシティをより迅速に確保でき、経営層は予測可能な支出のもとでより高いROIを得られる。

 AIの実装・展開の加速に向けては、停滞しているワークロードを、それを支えるGPU、Pod、プロセスに直接関連付けることで、チームは数分でパフォーマンスのボトルネックを特定でき、エンジニアはAIプロジェクトの提供に集中できる。

 コストのかかる障害の回避に向け、不健全なGPUを事前に特定し、クラスタ全体に障害が波及してトレーニングや推論が遅延する前に対処できる。

 チームは、GPUの利用状況とコストに対する責任を持ち、どこで過剰確保や未活用が発生しているかを容易に特定でき、これによりリソースの回収と再配分が可能となり、無駄な支出を削減できるとしている。