你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Prometheus 托管服务来从 NVIDIA DCGM 导出工具收集 GPU 指标

NVIDIA DCGM 导出程序 支持收集和导出 NVIDIA GPU 指标,例如利用率、内存使用情况和电源消耗。 可以使用此导出程序,并通过 Azure Monitor 适用于 Prometheus 的托管服务功能和 Azure 托管 Grafana 启用 GPU 监视。

部署 NVIDIA DCGM 导出程序

按照使用 AKS 上的适用于 Prometheus 的托管服务和 Azure 托管 Grafana 监视来自 NVIDIA DCGM 导出程序的 GPU 指标中的说明,部署导出程序并设置指标集合。

查询 GPU 指标

已擦除的指标存储在与 Prometheus 托管服务关联的 Azure Monitor 工作区中。 可以直接从工作区或通过连接到工作区的 Azure 托管 Grafana 实例查询指标。

在 Azure Monitor 工作区中查看 NVIDIA GPU 指标:

  1. 在 Azure 门户中,转到 Azure Kubernetes 服务群集。

  2. 监控中,选择洞察>监控设置

    展示用于查看 Azure Monitor 工作区的选项的图表。

  3. 选择 Azure Monitor 工作区实例。 在实例概述页上,选择“ 指标 ”部分以查询指标。

    或者,可以选择 Azure 托管 Grafana 实例。 然后,在实例概述页上,选择终结点 URL。 此操作将打开 Grafana 门户,您可以在其中查询 Azure 容器存储指标。 数据源会自动配置,以便您可以从关联的 Azure Monitor 工作区查询指标。

若要详细了解如何从 Azure Monitor 工作区查询 Prometheus 指标,请参阅 将 Grafana 连接到 Azure Monitor Prometheus 指标

故障排除

如果遇到任何问题,请参阅 Prometheus 接口的故障排除信息