Azure VMware 解决方案 Software-Defined 数据中心(SDDC)维护最佳做法

Azure VMware 解决方案定期维护私有云。 此维护包括 VMware 软件堆栈的安全修补程序、次要更新和主要更新。 本页介绍主机监视、修正和建议的最佳做法,这些最佳做法有助于保持私有云的维护准备。

主机维护和生命周期管理

Azure VMware 解决方案私有云的一个优点是可以为你维护平台。 Microsoft 负责管理 VMware 软件(ESXi、vCenter Server 和 vSAN)和 NSX 设备的生命周期。 Microsoft 还负责启动网络配置,如创建第 0 层网关和启用北-南路由。 你负责配置 NSX SDN:网段、分布式防火墙规则、第 1 层网关和负载均衡器。

注释

创建了 T0 网关,并将其配置为私有云部署的一部分。 对该逻辑路由器或 NSX 边缘节点 VM 的任何修改都可能会影响与私有云的连接,因此应该避免。

Microsoft 负责将任何补丁、更新或升级应用于私有云中的 ESXi、vCenter Server、vSAN 和 NSX。 补丁、更新和升级对 ESXi、vCenter Server 和 NSX 的影响有以下注意事项:

  • ESXi - 私有云中运行的工作负载不会受到影响。 在此期间,不会阻止对 vCenter Server 和 NSX 的访问。 建议在这段时间内不要在私有云中规划其他活动,例如:纵向扩展私有云、计划或发起有效的 HCX 迁移、进行 HCX 配置更改,等等。

  • vCenter Server - 私有云中运行的工作负载不会受到影响。 在此期间,vCenter Server 不可用,你无法管理 VM(停止、启动、创建或删除)。 建议不要规划其他活动,例如纵向扩展私有云、创建新网络,等等。 建议在使用 VMware Site Recovery Manager 或 vSphere Replication 用户界面时不要执行以下任何操作:在 vCenter Server 升级期间配置 vSphere Replication,以及配置或执行站点恢复计划。

  • NSX - 工作负载受到影响。 升级特定主机时,该主机上的 VM 可能会失去连接,时间从 2 秒到 1 分钟不等,并出现下列任意症状:

    • Ping 错误

    • 数据包丢失

    • 错误消息(例如,目标主机无法访问以及 Net 无法访问)

    在此升级窗口期间,会阻止对 NSX 管理平面的所有访问。 在该时段内,无法对 NSX 环境进行配置更改。 工作负荷会继续正常运行,具体取决于此前详细介绍的升级影响。

    建议在升级时间段内不要在私有云中计划其他活动,例如纵向扩展私有云等。 其他活动可能会阻止开始升级,或者可能会对升级和环境产生不利影响。

你可以通过 Azure 服务运行状况获得通知,其中包括升级时间线。 该通知还提供了有关升级的组件及其对工作负载、私有云访问和其他 Azure 服务的影响的详细信息。 如有需要,可以重新计划升级。

软件更新包括:

  • 补丁 - VMware 发布的安全补丁或 bug 修补程序

  • 更新 - VMware 堆栈组件的次要版本更改

  • 升级 - VMware 堆栈组件的主要版本更改

注释

Microsoft 可以在 VMware 发布关键安全补丁后立即对其进行测试。

在部署下一个计划的更新之前,将会实施有文档记录的 VMware 解决方法,而不是安装相应的补丁。

主机监视和修正

Azure VMware 解决方案可持续监视 VMware 组件和底层的运行状况。 当 Azure VMware 解决方案检测到故障时,其将采取措施来修复出现故障的组件。 当 Azure VMware 解决方案在 Azure VMware 解决方案节点上检测到性能下降或故障时,其将触发主机修正进程。

主机修正涉及到将错误节点替换为群集中新的健康节点。 然后,如有可能,故障主机会处于 VMware vSphere 维护模式。 VMware vSphere vMotion 会将 VM 从故障主机移到群集中的其他可用服务器上,这可能会导致工作负载的实时迁移出现零停机时间这一情况。 如果故障主机无法处于维护模式,则主机将从群集中删除。 在故障主机被移除之前,客户工作负荷会迁移到新添加的主机上。

小窍门

客户沟通:在开始更换之前以及更换成功后,系统会向客户的电子邮件地址发送一封电子邮件。

若要接收与主机替换相关的电子邮件,需要添加到订阅中的以下任何 Azure Role-Based 访问控制(RBAC)角色:“ServiceAdmin”、“CoAdmin”、“所有者”、“参与者”。

Azure VMware 解决方案将监视主机上的以下情况:

  • 处理器状态
  • 内存状态
  • 连接和电源状态
  • 硬件风扇状态
  • 网络连接丢失
  • 硬件系统板状态
  • vSAN 主机的一个或多个磁盘上出错
  • 硬件电压
  • 硬件温度状态
  • 硬件电源状态
  • 存储状态
  • 连接失败

维护操作最佳做法

始终建议执行以下操作,以确保主机维护操作成功执行:

  • vSAN 存储利用率: 若要维护服务级别协议(SLA),请确保 vSphere 群集的存储空间利用率保持在 75%以下。 如果利用率超过 75%,升级可能需要比预期长的时间或完全失败。 如果存储利用率超过 75%,请考虑添加节点以扩展群集,并防止升级期间出现潜在的停机。
  • 分布式资源计划程序(DRS)规则: DRS VM-VM 反关联规则必须配置为群集中至少有 (N+1) 主机,其中 N 是 DRS 规则的 VM 数目。
  • 允许的故障数 (FTT) 冲突:为了防止数据丢失,请将 VM 配置的允许的故障数 (FTT) 为 0 的 vSAN 存储策略更改为符合 Microsoft SLA 的 vSAN 存储策略(群集中最多有 5 个主机时,FTT=1 或者群集中有 6 个或更多主机时,FTT=2),并确保主机维护操作可以无缝执行
  • 删除 VM CD-ROM 装载: 使用“模拟模式”装载的 VM CD-ROMs 阻止主机维护。 确保 CD-ROM 在“直通模式”下装载。
  • 串行/并行端口或外部设备: 如果使用映像文件(ISO、FLP 等),请确保可从群集中的所有 ESXi 主机访问该文件。 将文件存储在参与虚拟机 vMotion 的所有 ESXi 服务器之间共享的数据存储上。 有关详细信息,请参阅 Broadcom 知识库文章
  • 孤立 VM:对于孤立的虚拟机,(如果尚未删除)需要尽可能重新注册虚拟机 (VM),或者将其从清单中移除。 有关详细信息,请参阅 Broadcom 知识库文章
  • SCSI 共享控制器: 使用 SCSI 总线共享时,将总线类型用作 VM 的“物理”。 连接到虚拟 SCSCI 控制器的 VM 将关闭。 有关详细信息,请参阅 Broadcom 知识库文章
  • 第三方 VM 和应用程序: 对于第三方 VM 和应用程序:
    • 确保部署在 Azure VMware 解决方案上的第三方解决方案符合要求,且不会干扰维护作。
    • 确保 VM 在安装时未配置 VM 主机“必须运行”DRS 规则。 此外,请验证这些应用程序是否与即将发布的 VMware 堆栈版本兼容。
    • 如有必要,请咨询解决方案供应商,并提前更新,以保持升级后的兼容性。

警报代码和修正表

错误代码 错误详细信息 建议的行动
EPC_CDROM_EMULATEMODE 当虚拟机上的 CD-ROM 使用模拟模式时,遇到此错误,其 ISO 映像无法访问 请查看此知识库文章,了解如何在模拟模式下删除客户工作负载虚拟机上装载的任何 CDROM 或分离 ISO。 建议使用“直通模式”装载任何 CD-ROM。
EPC_DRSOVERRIDERULE 如果虚拟机的 DRS 替代设置为“已禁用”模式,则会出现此错误。 VM 不应在将主机置于维护状态时阻止 vMotion。 为 VM 设置部分自动化 DRS 规则。 请参阅 本文档 ,了解有关 VM 放置策略的详细信息。
EPC_SCSIDEVICE_SHARINGMODE 如果虚拟机配置为使用阻止维护操作的设备,则会出现此错误:该设备是参与总线共享的 SCSI 控制器 请查看此知识库文章,了解如何删除任何附加到 VM 的参与总线共享的 SCSI 控制器
EPC_DATASTORE_INACCESSIBLE 当附加到 AVS 私有云的任何外部数据存储变得不可访问时,会出现此错误 请参阅本篇文章以删除附加到群集的任何陈旧数据存储
EPC_NWADAPTER_STALE 当虚拟机上的已连接网络接口使用无法访问的网络适配器时,会出现此错误 请查看此知识库文章,了解如何删除附加到虚拟机的任何过时的 N/W 适配器
EPC_SERIAL_PORT 当虚拟机的串行端口连接到目标主机上无法访问的设备时,会出现此错误。 如果使用映像文件(ISO、FLP 等),请确保可从群集上的所有 ESXi 服务器访问该文件。 将文件存储在参与虚拟机 vMotion 的所有 ESXi 服务器之间共享的数据存储中。 有关详细信息,请参阅 Broadcom 的此知识库文章
EPC_HARDWARE_DEVICE 当虚拟机的并行端口/USB 设备连接到目标主机上无法访问设备时,会出现此错误。 如果使用映像文件(ISO、FLP 等),请确保可从群集的所有 ESXi 服务器访问该文件。 将文件存储在参与虚拟机 vMotion 的所有 ESXi 服务器之间共享的数据存储中。 有关详细信息,请参阅 Broadcom 的此知识库文章
EPC_INVALIDVM / EPC_ORPHANVM 当清单中有孤立无援的 VM 或无效 VM 时,会遇到此错误 确保所有虚拟机都可供 vCenter 访问。 有关详细信息,请参阅此知识库文章

注释

Azure VMware 解决方案租户管理员不得编辑或删除以前定义的 VMware vCenter Server 警报,因为它们由 vCenter Server 上的 Azure VMware 解决方案控制平面管理。 Azure VMware 解决方案监视可使用这些警报来触发 Azure VMware 解决方案主机修正进程。

后续步骤

了解 Azure VMware 解决方案私有云维护最佳做法后,你可能想要了解以下内容: