为 Azure Red Hat OpenShift (ARO) 群集配置 Azure 资源运行状况警报

Azure 资源运行状况是 Azure Monitor 的一个组件,可以配置为基于 Azure Red Hat OpenShift 群集发出的信号生成警报。 这些警报可帮助你为计划内和计划外维护等事件做好准备。

资源运行状况信号可以生成以下一个或多个警报:

  • 群集维护操作挂起: 此信号表示 Azure Red Hat OpenShift 群集将在未来两周内进行维护操作。 这可能会导致节点滚动重启,从而引起工作负荷 Pod 重启。

  • 正在进行群集维护操作: 此信号指示以下操作类型之一:

    • 计划: 您的 Azure Red Hat OpenShift 群集已开始计划内维护作业。 这可能会导致节点滚动重启,从而导致负载 Pod 重启。
    • 非计划: Azure Red Hat OpenShift 群集上已启动计划外维护操作。 这可能会导致节点滚动重启,从而导致工作负荷 Pod 重启。
  • 需要采取行动以完成维护操作: 此信号表明需要采取行动才能完成 Azure Red Hat OpenShift 群集的持续维护操作。 请联系 Azure 支持部门完成您 Azure Red Hat OpenShift 集群的正在进行的维护操作。

  • 群集 API 服务器无法访问: 此信号指示 Azure Red Hat OpenShift 服务资源提供程序无法访问群集的 API 服务器。 因此,群集无法监视且不可管理。

修复导致警报的基础条件后,将清除警报,并将资源运行状况报告为 “可用”。

注释

此功能目前不适用于 Azure 政府云。

创建警报规则

为 ARO 群集配置资源运行状况警报需要警报规则。 警报规则定义生成警报信号的条件。

  1. Azure 门户中,转到要为其配置警报的 ARO 群集。

  2. 选择 “资源运行状况”,然后选择“ 添加资源运行状况警报”。

    显示“资源运行状况”窗口的屏幕截图,其中突出显示了“添加资源运行状况警报”按钮。

  3. 在窗口的各个选项卡中输入警报规则的所有适用参数,包括“详细信息”选项卡中的“警报规则名称”。

  4. 选择 审阅 + 创建

群集警报通知

当 Azure Monitor 检测到与群集相关的信号时,它会生成警报。 有关使用和创建警报规则的详细说明,请参阅 什么是 Azure Monitor 警报?

在 Azure 门户中查看群集警报

可以随时从 Azure 门户查看群集的状态。 在门户中转到适用的群集,选择 “资源运行状况 ”以查看群集是否可用或不可用,以及与之关联的任何事件。 有关详细信息,请参阅资源运行状况概述

还可以查看为群集创建的警报规则。 在门户中查看警报规则,您可以清晰地看到任何针对该规则触发的警报。