Azure VMware 解决方案定期维护私有云。 此维护包括 VMware 软件堆栈的安全修补程序、次要更新和主要更新。 本页介绍主机监视、修正和建议的最佳做法,这些最佳做法有助于保持私有云的维护准备。
主机维护和生命周期管理
Azure VMware 解决方案私有云的一个优点是可以为你维护平台。 Microsoft 负责管理 VMware 软件(ESXi、vCenter Server 和 vSAN)和 NSX 设备的生命周期。 Microsoft 还负责启动网络配置,如创建第 0 层网关和启用北-南路由。 你负责配置 NSX SDN:网段、分布式防火墙规则、第 1 层网关和负载均衡器。
注释
创建了 T0 网关,并将其配置为私有云部署的一部分。 对该逻辑路由器或 NSX 边缘节点 VM 的任何修改都可能会影响与私有云的连接,因此应该避免。
Microsoft 负责将任何补丁、更新或升级应用于私有云中的 ESXi、vCenter Server、vSAN 和 NSX。 补丁、更新和升级对 ESXi、vCenter Server 和 NSX 的影响有以下注意事项:
ESXi - 私有云中运行的工作负载不会受到影响。 在此期间,不会阻止对 vCenter Server 和 NSX 的访问。 建议在这段时间内不要在私有云中规划其他活动,例如:纵向扩展私有云、计划或发起有效的 HCX 迁移、进行 HCX 配置更改,等等。
vCenter Server - 私有云中运行的工作负载不会受到影响。 在此期间,vCenter Server 不可用,你无法管理 VM(停止、启动、创建或删除)。 建议不要规划其他活动,例如纵向扩展私有云、创建新网络,等等。 建议在使用 VMware Site Recovery Manager 或 vSphere Replication 用户界面时不要执行以下任何操作:在 vCenter Server 升级期间配置 vSphere Replication,以及配置或执行站点恢复计划。
NSX - 工作负载受到影响。 升级特定主机时,该主机上的 VM 可能会失去连接,时间从 2 秒到 1 分钟不等,并出现下列任意症状:
Ping 错误
数据包丢失
错误消息(例如,目标主机无法访问以及 Net 无法访问)
在此升级窗口期间,会阻止对 NSX 管理平面的所有访问。 在该时段内,无法对 NSX 环境进行配置更改。 工作负荷会继续正常运行,具体取决于此前详细介绍的升级影响。
建议在升级时间段内不要在私有云中计划其他活动,例如纵向扩展私有云等。 其他活动可能会阻止开始升级,或者可能会对升级和环境产生不利影响。
你可以通过 Azure 服务运行状况获得通知,其中包括升级时间线。 该通知还提供了有关升级的组件及其对工作负载、私有云访问和其他 Azure 服务的影响的详细信息。 如有需要,可以重新计划升级。
软件更新包括:
补丁 - VMware 发布的安全补丁或 bug 修补程序
更新 - VMware 堆栈组件的次要版本更改
升级 - VMware 堆栈组件的主要版本更改
注释
Microsoft 可以在 VMware 发布关键安全补丁后立即对其进行测试。
在部署下一个计划的更新之前,将会实施有文档记录的 VMware 解决方法,而不是安装相应的补丁。
主机监视和修正
Azure VMware 解决方案可持续监视 VMware 组件和底层的运行状况。 当 Azure VMware 解决方案检测到故障时,其将采取措施来修复出现故障的组件。 当 Azure VMware 解决方案在 Azure VMware 解决方案节点上检测到性能下降或故障时,其将触发主机修正进程。
主机修正涉及到将错误节点替换为群集中新的健康节点。 然后,如有可能,故障主机会处于 VMware vSphere 维护模式。 VMware vSphere vMotion 会将 VM 从故障主机移到群集中的其他可用服务器上,这可能会导致工作负载的实时迁移出现零停机时间这一情况。 如果故障主机无法处于维护模式,则主机将从群集中删除。 在故障主机被移除之前,客户工作负荷会迁移到新添加的主机上。
小窍门
客户沟通:在开始更换之前以及更换成功后,系统会向客户的电子邮件地址发送一封电子邮件。
若要接收与主机替换相关的电子邮件,需要添加到订阅中的以下任何 Azure Role-Based 访问控制(RBAC)角色:“ServiceAdmin”、“CoAdmin”、“所有者”、“参与者”。
Azure VMware 解决方案将监视主机上的以下情况:
- 处理器状态
- 内存状态
- 连接和电源状态
- 硬件风扇状态
- 网络连接丢失
- 硬件系统板状态
- vSAN 主机的一个或多个磁盘上出错
- 硬件电压
- 硬件温度状态
- 硬件电源状态
- 存储状态
- 连接失败
维护操作最佳做法
始终建议执行以下操作,以确保主机维护操作成功执行:
- vSAN 存储利用率: 若要维护服务级别协议(SLA),请确保 vSphere 群集的存储空间利用率保持在 75%以下。 如果利用率超过 75%,升级可能需要比预期长的时间或完全失败。 如果存储利用率超过 75%,请考虑添加节点以扩展群集,并防止升级期间出现潜在的停机。
- 分布式资源计划程序(DRS)规则: DRS VM-VM 反关联规则必须配置为群集中至少有 (N+1) 主机,其中 N 是 DRS 规则的 VM 数目。
- 允许的故障数 (FTT) 冲突:为了防止数据丢失,请将 VM 配置的允许的故障数 (FTT) 为 0 的 vSAN 存储策略更改为符合 Microsoft SLA 的 vSAN 存储策略(群集中最多有 5 个主机时,FTT=1 或者群集中有 6 个或更多主机时,FTT=2),并确保主机维护操作可以无缝执行。
- 删除 VM CD-ROM 装载: 使用“模拟模式”装载的 VM CD-ROMs 阻止主机维护。 确保 CD-ROM 在“直通模式”下装载。
- 串行/并行端口或外部设备: 如果使用映像文件(ISO、FLP 等),请确保可从群集中的所有 ESXi 主机访问该文件。 将文件存储在参与虚拟机 vMotion 的所有 ESXi 服务器之间共享的数据存储上。 有关详细信息,请参阅 Broadcom 知识库文章。
- 孤立 VM:对于孤立的虚拟机,(如果尚未删除)需要尽可能重新注册虚拟机 (VM),或者将其从清单中移除。 有关详细信息,请参阅 Broadcom 知识库文章。
- SCSI 共享控制器: 使用 SCSI 总线共享时,将总线类型用作 VM 的“物理”。 连接到虚拟 SCSCI 控制器的 VM 将关闭。 有关详细信息,请参阅 Broadcom 知识库文章。
- 第三方 VM 和应用程序: 对于第三方 VM 和应用程序:
- 确保部署在 Azure VMware 解决方案上的第三方解决方案符合要求,且不会干扰维护作。
- 确保 VM 在安装时未配置 VM 主机“必须运行”DRS 规则。 此外,请验证这些应用程序是否与即将发布的 VMware 堆栈版本兼容。
- 如有必要,请咨询解决方案供应商,并提前更新,以保持升级后的兼容性。
警报代码和修正表
错误代码 | 错误详细信息 | 建议的行动 |
---|---|---|
EPC_CDROM_EMULATEMODE | 当虚拟机上的 CD-ROM 使用模拟模式时,遇到此错误,其 ISO 映像无法访问 | 请查看此知识库文章,了解如何在模拟模式下删除客户工作负载虚拟机上装载的任何 CDROM 或分离 ISO。 建议使用“直通模式”装载任何 CD-ROM。 |
EPC_DRSOVERRIDERULE | 如果虚拟机的 DRS 替代设置为“已禁用”模式,则会出现此错误。 | VM 不应在将主机置于维护状态时阻止 vMotion。 为 VM 设置部分自动化 DRS 规则。 请参阅 本文档 ,了解有关 VM 放置策略的详细信息。 |
EPC_SCSIDEVICE_SHARINGMODE | 如果虚拟机配置为使用阻止维护操作的设备,则会出现此错误:该设备是参与总线共享的 SCSI 控制器 | 请查看此知识库文章,了解如何删除任何附加到 VM 的参与总线共享的 SCSI 控制器 |
EPC_DATASTORE_INACCESSIBLE | 当附加到 AVS 私有云的任何外部数据存储变得不可访问时,会出现此错误 | 请参阅本篇文章以删除附加到群集的任何陈旧数据存储 |
EPC_NWADAPTER_STALE | 当虚拟机上的已连接网络接口使用无法访问的网络适配器时,会出现此错误 | 请查看此知识库文章,了解如何删除附加到虚拟机的任何过时的 N/W 适配器 |
EPC_SERIAL_PORT | 当虚拟机的串行端口连接到目标主机上无法访问的设备时,会出现此错误。 | 如果使用映像文件(ISO、FLP 等),请确保可从群集上的所有 ESXi 服务器访问该文件。 将文件存储在参与虚拟机 vMotion 的所有 ESXi 服务器之间共享的数据存储中。 有关详细信息,请参阅 Broadcom 的此知识库文章 。 |
EPC_HARDWARE_DEVICE | 当虚拟机的并行端口/USB 设备连接到目标主机上无法访问设备时,会出现此错误。 | 如果使用映像文件(ISO、FLP 等),请确保可从群集的所有 ESXi 服务器访问该文件。 将文件存储在参与虚拟机 vMotion 的所有 ESXi 服务器之间共享的数据存储中。 有关详细信息,请参阅 Broadcom 的此知识库文章 。 |
EPC_INVALIDVM / EPC_ORPHANVM | 当清单中有孤立无援的 VM 或无效 VM 时,会遇到此错误 | 确保所有虚拟机都可供 vCenter 访问。 有关详细信息,请参阅此知识库文章 |
注释
Azure VMware 解决方案租户管理员不得编辑或删除以前定义的 VMware vCenter Server 警报,因为它们由 vCenter Server 上的 Azure VMware 解决方案控制平面管理。 Azure VMware 解决方案监视可使用这些警报来触发 Azure VMware 解决方案主机修正进程。
后续步骤
了解 Azure VMware 解决方案私有云维护最佳做法后,你可能想要了解以下内容: