Azure Monitor で大規模に Prometheus メトリックをスクレイピングする

2025-04-24

この記事では、Prometheus 用の Azure Monitor 管理サービスに関するメトリックを大規模に収集するときに予想されるパフォーマンスに関するガイダンスを提供します。

CPU とメモリ

CPU とメモリの使用量は、各サンプルのバイト数およびスクレイピングされたサンプル数と関連付けられます。これらのベンチマークは、スクレイピングされた既定のターゲット、スクレイピングされたカスタムメトリックのボリューム、ノードの数、ポッドの数、コンテナーの数に基づいています。使用量はメトリックあたりの時系列の数とバイト数に応じて大きく異なる可能性があるので、これらの数値は参照用です。

現在、ポッドあたりのボリュームの上限は、サンプルあたりのバイト数に応じて、1 分あたり約 300 万から 350 万までの数のサンプルです。

エージェントは、既定で 2 つのレプリカ (メモリ使用率に基づいて HPA によって自動的に構成される) とメトリックをスクレイピングするための DaemonSet を含むデプロイで構成されます。デーモンセットは、cAdvisor、kubelet、ノードエクスポーターなどのノードレベルのターゲットをスクレイピングします。静的構成を使用して、カスタムターゲットをノードレベルでスクレイピングするように構成することもできます。レプリカセットは、kube-state-metrics や、サービス検出を利用するカスタムスクレイピングジョブなど、他のすべてをスクレイピングします。

レプリカの場合の小規模クラスターと大規模クラスターの比較

スクレイピングのターゲット	送信されるサンプル数/分	ノード数	ポッド数	Prometheus-Collector の CPU 使用量 (コア数)	Prometheus-Collector のメモリ使用量 (バイト数)
既定のターゲット	11,344	3	40	12.9 mc	148 Mi
既定のターゲット	260,000	340	13000	1.10 c	1.70 GB
既定のターゲット + カスタムターゲット	356 万	340	13000	5.13 c	9.52 GB

デーモンセットの場合の小規模クラスターと大規模クラスターの比較

スクレイピングのターゲット	送信されるサンプル数/分の合計	送信されるサンプル数/分/ポッド	ノード数	ポッド数	Prometheus-Collector の CPU 使用量の合計 (コア数)	Prometheus-Collector のメモリ使用量の合計 (バイト数)	Prometheus-Collector の CPU 使用量/ポッド (コア数)	Prometheus-Collector のメモリ使用量/ポッド (バイト数)
既定のターゲット	9,858	3,327	3	40	41.9 mc	581 Mi	14.7 mc	189 Mi
既定のターゲット	230 万	14,400	340	13000	805 mc	305.34 GB	2.36 mc	898マイル

カスタムメトリックがさらに多い場合、カスタムメトリックのボリュームによっては単一ポッドはレプリカポッドと同じように動作します。

リソースが多いノードプール上で ama-metrics レプリカポッドをスケジュールする

ポッドあたりのメトリックが大量にある場合は、十分な CPU とメモリを備えたノードが必要です。 ama-metrics レプリカポッドが十分なリソースを持つノードまたはノードプールでスケジュールされていない場合は、OOMKilled が発生し、CrashLoopBackoff に入る可能性があります。これを修正するには、(azuremonitor/metrics.replica.preferred=true内の) リソースが多いクラスター上のノードまたはノードプールにラベルを追加します。これにより、レプリカポッドがそれらのノードでスケジュールされます。また、より大きなノードを使用する追加のシステムプールを作成し、同じラベルを追加することもできます。プール内の新しいノードもスケジュールに使用できるように、個々のノードではなくノードプールにラベルを付けることをお勧めします。

kubectl label nodes <node-name> azuremonitor/metrics.replica.preferred="true"

次のステップ

Prometheus データ収集に関する問題のトラブルシューティングを行います。

次の方法で共有

Azure Monitor で大規模に Prometheus メトリックをスクレイピングする

CPU とメモリ

レプリカの場合の小規模クラスターと大規模クラスターの比較

デーモンセットの場合の小規模クラスターと大規模クラスターの比較

リソースが多いノードプール上で ama-metrics レプリカ ポッドをスケジュールする

次のステップ

フィードバック

その他のリソース

リソースが多いノードプール上で ama-metrics レプリカポッドをスケジュールする