你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用容器见解和/或托管 Prometheus 配置 GPU 监视

容器见解支持监视以下 GPU 供应商提供的 GPU 群集:

注意

如果使用 Nvidia DCGM 导出程序,则可以使用托管 Prometheus 和托管 Grafana 启用 GPU 监视。 有关设置和说明的详细信息,请参阅 使用 Nvidia DCGM 导出程序启用 GPU 监视

通过以 60 秒为间隔收集以下指标并将其存储在 InsightMetrics 表中,容器见解会自动开始监视节点上的 GPU 使用情况以及 GPU 请求 Pod 和工作负载的情况。

谨慎

不再建议使用此方法收集 GPU 指标。

注意

预配具有 GPU 节点的群集后,请确保根据 Azure Kubernetes 服务 (AKS) 的要求安装 GPU 驱动程序以运行 GPU 工作负载。 容器洞察通过节点上运行的 GPU 驱动程序模块收集 GPU 指标。

指标名称 指标维度(标记) 说明
containerGpuLimits container.azm.ms/clusterId、container.azm.ms/clusterName、containerName 每个容器可以将限值指定为一个或多个 GPU。 无法请求或限制 GPU 的部分资源。
容器GPU请求 container.azm.ms/clusterId、container.azm.ms/clusterName、containerName 每个容器可以请求一个或多个 GPU。 无法请求或限制 GPU 的部分资源。
nodeGpuAllocatable container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor 节点中可供 Kubernetes 使用的 GPU 数。
节点GPU容量 container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor 节点中的 GPU 总数。

GPU 性能图表

容器见解包含表中前面列出的指标的预配置图表,作为每个群集的 GPU 工作簿。 有关可用于容器见解的工作簿的说明,请参阅容器见解中的工作簿

后续步骤