ニュース
Datadog、データ処理におけるジョブ監視とトラブルシューティング最適化を実現する「Data Jobs Monitoring」を提供
2024年6月25日 15:37
米Datadogは現地時間20日、データ処理におけるジョブの監視とトラブルシューティングの最適化を実現する「Data Jobs Monitoring」の一般提供を発表した。この新製品により、データプラットフォームチームやデータエンジニアは、データパイプラインのあらゆる場所で、問題のあるSparkやDatabricksのジョブを検出、失敗したジョブや長時間稼働しているジョブを迅速に修正し、過剰にプロビジョニングされたコンピューティングリソースを最適化してコストを削減できるとしている。
Data Jobs Monitoringは、最適化と信頼性向上が必要な特定のジョブを即座に表示する。また、チームはジョブの実行トレースをドリルダウンできるため、ジョブのテレメトリをクラウドインフラストラクチャに関連付け、迅速にデバッグできる。
ジョブが失敗したり、自動的に検出されたベースラインを越えて実行されたりした場合、すぐにアラートがチームに通知されるため、エンドユーザーエクスペリエンスに悪影響が及ぶ前に対処できる。推奨フィルタにより、ジョブやクラスタの健全性に影響を与える最も重要な問題を特定し、優先順位を付けられる。
詳細なトレースビューは、ジョブの実行フローのどこで失敗したかを正確に表示するため、チームはトラブルシューティングを迅速に行うための完全なコンテキストを把握できる。複数のジョブ実行を相互に比較することで、根本原因の分析を迅速化し、実行時間、Sparkパフォーマンスメトリクス、クラスタ使用率、および構成の傾向と変化を特定できる。
リソース利用率とSparkアプリケーションのメトリクスにより、チームはオーバープロビジョニングされたクラスタの計算コストを削減し、非効率なジョブ実行を最適化する方法を特定できる。