你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure Local 将 Azure 扩展到客户拥有的基础结构,使现代和传统应用程序能够在分布式地点本地执行。 此解决方案在单一控制平面上提供统一的管理体验,并支持来自值得信赖的 Microsoft 合作伙伴的各种经过验证的硬件。 可以使用 Azure 本地和 Azure Arc 功能在本地保留业务系统和应用程序数据,以解决数据主权、法规和合规性以及延迟要求。
本文假设你已了解混合系统,并且对 Azure 本地有工作知识。 本文中的指南提供了与 Azure Well-Architected 框架支柱原则相对应的架构建议。
重要
如何使用本指南
每个部分都有一个 设计清单,该清单列出关注的架构领域,以及针对技术范围本地化的设计策略。
还包括有关有助于具体化这些策略的技术功能 的建议 。 这些建议并不表示可用于 Azure 本地及其依赖项的所有配置的详尽列表。 而是列出与设计视角相匹配的关键建议。 使用建议生成概念证明或优化现有环境。
演示关键建议的基础体系结构:
Azure 本地基线参考体系结构。
技术范围
此次审查重点分析以下 Azure 资源的相关决策:
- Azure 本地(平台),版本 23H2 及更高版本
- Azure Arc VM (工作负荷)
注释
本文介绍上述范围,并提供 按平台体系结构 和 工作负荷体系结构组织的清单和建议。 平台问题由平台管理员负责。 工作负荷问题由工作负荷作员和应用程序开发人员负责。 这些角色和职责是不同的,可以由单独的团队或个人拥有。 在应用指南时,请记住这一区别。
本指南不侧重于可在 Azure 本地部署的特定资源类型,例如 Azure Arc VM、 Azure Kubernetes 服务(AKS)和 Azure 虚拟桌面。 在 Azure 本地部署这些资源类型时,请参阅相应的工作负荷指南,设计满足业务需求的解决方案。
可靠性
可靠性支柱的目的是通过 建立足够的复原能力和从故障快速恢复来提供持续的功能。
可靠性设计原则 为各个组件、系统流和整个系统提供高级设计策略。
在混合云部署中,目标是减少一个组件故障的影响。 使用这些设计清单和配置建议来减轻在 Azure 本地部署的工作负荷的组件故障的影响。
必须区分平台可靠性和工作负荷可靠性。 工作负荷可靠性依赖于平台。 应用程序所有者或开发人员必须设计可提供定义的可靠性目标的应用程序。
设计清单
根据可靠性设计评审核对清单开始实施您的设计策略。 在记住 Azure 本地的性能的同时,确定其与业务需求的相关性。 扩展策略以根据需要包含更多方法。
(Azure 本地平台体系结构和工作负荷体系结构) 定义工作负荷可靠性目标。
设置 服务级别目标(SLO),以便评估可用性目标。 以百分比(例如 99.9%、99.95%或 99.995%)计算 SLO,以反映工作负荷正常运行时间。 请记住,此计算不仅仅基于 Azure 本地实例或工作负荷发出的平台指标。 若要获取全面的目标度量,请考虑量化的细微差别因素,例如发布期间的预期停机时间、例行操作、支持性或其他特定于工作负荷或组织的因素。
Microsoft提供的服务级别协议(SLA)通常会影响 SLO 计算。 但是,Microsoft不会为 Azure 本地实例或已部署的工作负荷的运行时间和连接提供 SLA,因为Microsoft不会控制客户数据中心的可靠性(例如电源和冷却)或管理平台的人员和流程。
(Azure 本地平台体系结构) 考虑性能和作如何影响可靠性。
实例或其依赖项的性能下降会使 Azure 本地平台不可用。 例如:
如果没有适当的工作负荷容量规划,在设计阶段 对 Azure 本地实例进行权限化 具有挑战性,这是一项要求,使工作负荷能够达到所需的可靠性目标。 在实例设计过程中使用 Azure 本地尺寸调整工具。 如果需要高度可用的 VM,请考虑“计算机数的 N+1 最低要求”。 对于业务关键型或任务关键型工作负载,如果复原能力至关重要,请考虑将实例大小设置为“N+2 台机器”。
平台的可靠性取决于关键平台依赖项(如物理磁盘类型)的性能。 必须根据要求选择正确的磁盘类型。 对于需要低延迟和高吞吐量存储的工作负荷,我们建议使用全闪存(仅 NVMe/SSD)存储配置。 对于常规用途计算,混合存储(用于缓存的 NVMe 或 SSD 和容量 HDD)配置可能会提供更多的存储空间。 但权衡的是,如果工作负荷超过 缓存工作集,旋转磁盘的性能会明显降低,并且 HDD 与 NVMe/SSD 相比,故障值之间的平均时间 要低得多。
性能效率 更详细地描述了这些示例。
不当的 Azure 本地操作 可能会影响修补和升级、测试和部署的一致性。 下面是一些示例:
如果 Azure 本地平台未 随最新的硬件原始设备制造商(OEM)固件、驱动程序和创新而发展,则平台可能无法利用最新的复原功能。 定期应用硬件 OEM 驱动程序和固件更新。 有关详细信息,请参阅 Azure 本地解决方案目录。
在部署之前,必须测试目标环境的连接、硬件和标识和访问管理。 否则,可以将 Azure 本地解决方案部署到不稳定的环境,这可能会造成可靠性问题。 即使在实例硬件可用之前,也可以在 独立模式下使用环境检查器工具 来检测问题。
有关操作指南,请参阅 卓越运营。
(Azure 本地平台体系结构) 为实例及其基础结构依赖项提供容错。
存储设计选择。 对于大多数部署来说,默认选项“自动创建工作负载和基础设施卷”就足够了。 如果选择高级选项:“仅创建所需的基础结构卷”,请根据工作负荷要求在存储空间直通中配置适当的卷容错能力。 这些决策会影响卷的性能、容量和复原能力。 例如,三向镜像提高了具有三台或更多台计算机的实例的可靠性和性能。 有关更多信息,请参阅存储效率的容错和创建存储空间直通虚拟磁盘和卷。
网络体系结构。 使用 经过验证的网络拓扑 部署 Azure 本地。 具有四台或更多物理计算机的多台计算机实例需要“存储切换”设计。 具有两台或三台计算机的实例可以选择使用“无存储开关”设计。 无论实例大小如何,我们都建议使用双架顶 (ToR) 交换机进行管理和计算意图(南北上行链路),以提供更高的容错能力。 双 ToR 拓扑在交换机维护(固件更新)期间也提供冗余能力。 有关详细信息,请参阅 已验证的网络拓扑。
(工作负荷体系结构) 生成冗余以提供复原能力。
请考虑在单个 Azure 本地实例上部署的工作负荷,作为 本地冗余部署。 该实例在平台级别提供高可用性,但必须记住将实例部署在“单个机架中”。 因此,对于业务关键型或任务关键型用例,我们建议跨两个或多个独立的 Azure 本地实例(理想情况下在单独的物理位置)部署工作负荷或服务的多个实例。
对工作负荷使用行业标准的高可用性模式,例如提供主动/被动同步或异步数据复制 (如 SQL Server Always On)的设计。 另一个示例是外部网络负载均衡(NLB)技术,可以跨部署在单独物理位置的 Azure 本地实例上运行的多个工作负荷实例路由用户请求。 请考虑使用合作伙伴外部 NLB 设备。 或评估支持混合和本地服务的流量路由的 负载均衡选项 ,例如使用 Azure ExpressRoute 或 VPN 隧道连接到本地服务的 Azure 应用程序网关实例。
有关详细信息,请参阅 跨多个 Azure 本地实例部署工作负荷实例。
(工作负荷体系结构)根据工作负荷恢复点目标(RPO)和恢复时间目标(RTO)目标 规划和测试可恢复性 。
有 一个记录良好的灾难恢复计划。 定期测试恢复步骤,以确保业务连续性计划和流程有效。 确定 Azure Site Recovery 是否是保护 Azure 本地上运行的 VM 的可行选择。 有关详细信息,请参阅 在 Azure Local(预览版)上使用 Azure Site Recovery 保护 VM 工作负载。
(工作负荷体系结构) 配置并定期测试工作负荷备份和还原过程。
数据恢复和保留的业务要求驱动工作负荷备份的策略。 全面的策略需要考虑工作负荷操作系统(OS)和应用程序持久性数据的因素,并具有恢复单个(时间点)文件级和文件夹级数据的能力。 根据数据恢复和符合性要求配置备份保留策略,以确定可用数据恢复点的数量和期限。 探索 Azure Backup 作为为 Azure Local 启用主机级或 VM 来宾级备份的选项。 在相关的情况下审查来自备份独立软件供应商合作伙伴的数据保护解决方案。 有关详细信息,请参阅 Azure 备份指南和最佳做法 以及 适用于 Azure 本地的 Azure 备份。
建议
建议 | 益处 |
---|---|
在存储空间直通存储池中,为每台计算机保留相当于一个容量磁盘的空间。 | 如果在部署 Azure 本地实例后选择创建工作负荷卷(高级选项:“仅创建所需的基础结构卷”),我们建议 在存储池中保留总池容量的 5% 到 10% 未分配。 当物理磁盘发生故障时,此保留和未使用的或可用的容量使存储空间直连能够进行“就地”修复,从而提高数据的复原能力和性能。 |
确保所有物理计算机都可以通过网络访问 Azure Local 和 Azure Arc 的所需出站 HTTPS 终结点列表。 | 若要可靠地管理、监视和操作 Azure 本地实例或工作负载资源,所需的出站网络终结点必须直接或通过代理服务器访问。 临时中断不会影响工作负荷的运行状态,但可能会影响可管理性。 |
如果选择手动创建工作负荷卷(虚拟磁盘),请使用最合适的 复原类型 来最大程度地提高工作负荷复原能力和性能。 对于在部署实例后手动创建的任何用户卷, 请在 Azure 中创建卷的存储路径。 该卷可以通过存储路径存储工作负荷 VM 配置文件、VM 虚拟硬盘(VHD)和 VM 映像。 | 对于具有三台或更多计算机的 Azure 本地实例,请考虑使用三向镜像来提供最高的复原能力和性能功能。 建议对业务关键型或任务关键型工作负荷使用镜像卷。 |
请考虑实施 工作负荷反关联规则 ,以确保托管同一服务多个实例的 VM 在单独的物理主机上运行。 此概念类似于 Azure 中的“可用性集”。 | 使所有组件都变得冗余。 对于业务关键型或任务关键型工作负荷,请使用多个 Azure Arc VM 或 Kubernetes 副本集或 Pod 来部署应用程序或服务的多个实例。 如果发生单个物理计算机的计划外中断,此方法会增加复原能力。 |
安全
安全支柱的目的是为工作负荷提供 保密性、完整性和可用性 保证。
安全设计原则通过对 Azure Local 的技术设计应用方法,为实现这些目标提供了高级设计策略。
Azure Local 是一种默认安全产品,在云部署过程中启用了 300 多个安全设置。 默认安全设置提供一致的安全基线,以确保设备以已知良好状态启动。 可以使用 偏移保护控制 来提供大规模管理。
Azure 本地中的默认安全功能包括强化的 OS 安全设置、Windows Defender 应用程序控制、通过 BitLocker 进行卷加密、机密轮换、本地内置用户帐户和 Microsoft Defender for Cloud。 有关详细信息,请参阅 “查看安全功能”。
设计清单
根据安全性设计评审清单开始制定你的设计策略。 确定漏洞和控制以提高安全态势。 扩展策略以根据需要包含更多方法。
(Azure 本地平台体系结构) 查看安全基线。 Azure 本地和安全标准 提供基线指导,以加强平台和托管工作负载的安全态势。 如果你的工作负载需要遵守特定的法规合规性法规,请考虑法规安全标准,例如支付卡行业数据安全标准和联邦信息处理标准 140。
Azure 本地平台提供的默认设置 支持安全功能,包括标识控制、网络筛选和加密。 这些设置构成了新预配的 Azure 本地实例的良好安全基线。 可以根据组织安全要求自定义每个设置。
确保 检测并防范意外的安全配置偏移。
(Azure 本地平台体系结构) 检测、预防和响应威胁。 持续监视 Azure 本地环境,并防范现有和不断演变的威胁。
建议在本地 Azure 上启用 Defender for Cloud。 使用 Defender Cloud 安全状况管理监视和识别保护 Azure 本地平台以及其他 Azure 和 Azure Arc 资源所要采取的步骤,启用基本的 Defender for Cloud 计划(免费层)。
为了受益于增强的安全功能,包括单个服务器和 Azure Arc VM 的安全警报,请在 Azure 本地实例计算机和 Azure Arc VM 上启用 Microsoft Defender for Servers。
使用 Defender for Cloud 衡量 Azure 本地计算机和工作负荷的安全状况。 Defender for Cloud 提供单一平台体验来帮助管理安全合规性。
使用 Defender for Servers 监视托管 VM 的威胁和配置错误。 还可以在 Azure 本地计算机上启用终结点检测和响应功能。
请考虑将所有源的安全和威胁情报数据聚合到集中式安全信息和事件管理(SIEM)解决方案,例如 Microsoft Sentinel。
(Azure 本地平台体系结构和工作负荷体系结构) 创建分段以包含爆炸半径。 有几种策略可以实现分段。
标识。 使平台和工作负载的角色和职责保持独立。 仅允许授权身份执行与其指定角色相符的特定操作。 Azure 本地平台管理员同时使用 Azure 和本地域凭据来执行平台职责。 工作负载运营人员和应用程序开发人员管理工作负载的安全性。 若要简化委派权限,请使用 Azure 本地内置基于角色的访问控制(RBAC) 角色,例如平台管理员的“Azure 本地管理员”和工作负荷作员的“Azure 本地 VM 参与者”或“Azure 本地 VM 读取者”。 有关特定内置角色 作的详细信息,请参阅 适用于混合角色和多云角色的 Azure RBAC 文档。
网络。 根据需要隔离网络。 例如,可以预配多个逻辑网络,这些逻辑网络使用单独的虚拟局域网(vLAN)和网络地址范围。 使用此方法时,请确保管理网络可以访问每个逻辑网络和 vLAN,以便 Azure 本地计算机可以通过 ToR 交换机或网关与 vLAN 网络通信。 此配置是工作负荷的可用性管理所必需的,例如允许基础结构管理代理与工作负荷来宾 OS 通信。
查看 构建分段策略的建议 以获取更多信息。
(Azure 本地平台体系结构和工作负荷体系结构) 使用受信任的标识提供者来控制访问。 我们建议使用 Microsoft Entra ID 进行所有身份验证和授权。 如果需要,可以将工作负荷加入本地 Windows Server Active Directory 域。 利用支持强密码、多重身份验证、RBAC 和机密管理控制的功能。
(Azure 本地平台体系结构和工作负荷体系结构) 隔离、筛选和阻止网络流量。 你可能有一个工作负荷用例,该用例需要通过网络安全组、网络服务质量策略或虚拟设备链接进行微分段,以便可以引入合作伙伴设备进行筛选。 如果有此类工作负荷,请参阅 网络参考模式的软件定义网络注意事项 ,了解 网络控制器 提供的受支持特性和功能的列表。
(工作负荷体系结构) 加密数据以防止篡改。 加密传输中的数据、静态数据以及正在使用的数据。
在部署期间创建的数据卷上启用了静态数据加密。 这些数据卷包括基础结构卷和工作负荷卷。 有关详细信息,请参阅 管理 BitLocker 加密。
使用 Azure Arc VM 的受信任启动 功能,通过使用新式作系统(例如安全启动)的 OS 功能来提高第 2 代 VM 的安全性,这些作系统可以使用虚拟受信任的平台模块。
实施机密管理。 根据组织要求,更改与 Azure 本地部署用户标识关联的凭据。 有关详细信息,请参阅 “管理机密轮换”。
(Azure 本地平台体系结构) 强制实施安全控制。 使用 Azure Policy 审核和强制实施内置策略,例如“应一致地强制实施应用程序控制策略”或“应实现加密卷”。 可以使用这些 Azure 策略来审核安全设置,并评估 Azure 本地的符合性状态。 有关可用策略的示例,请参阅 Azure 策略。
(工作负荷体系结构) 使用内置策略改进工作负荷安全态势。 若要评估在 Azure 本地上运行的 Azure Arc VM,可以通过安全基准、Azure 更新管理器或 Azure Policy 来宾配置扩展应用内置策略。 可以使用各种策略来检查以下条件:
- Log Analytics 代理安装
- 过时的系统更新需要更新为最新的安全补丁
- 漏洞评估和潜在缓解措施
- 使用安全通信协议
建议
建议 | 益处 |
---|---|
使用 安全基线和偏移控件 设置在实例计算机上应用和维护安全设置。 | 这些配置有助于防止不需要的更改和偏移,因为它们每 90 分钟自动刷新安全设置,以强制实施 Azure 本地的预期安全状况。 |
在本地 Azure 中使用 Windows Defender 应用程序控制 。 | Windows Defender 应用程序控制可减少 Azure 本地的攻击面。 使用 Azure 门户或 PowerShell 查看策略设置和控制策略模式。 Windows Defender 应用程序控制策略有助于控制允许在系统上运行的驱动程序和应用。 |
通过 BitLocker 启用卷加密,以实现静态数据加密保护。 | BitLocker 通过加密 Azure 本地创建的实例共享卷来保护 OS 和数据卷。 BitLocker 使用 XTS-AES 256 位加密。 我们建议您在 Azure 本地云部署期间,将所有数据卷的加密默认设置保持启用状态。 |
导出 BitLocker 恢复密钥 ,将其存储在 Azure 本地实例外部的安全位置。 | 在特定故障排除或恢复作期间,可能需要 BitLocker 密钥。 建议通过“Get-AsRecoveryKeyInfo”PowerShell cmdlet 从每个 Azure 本地实例导出、保存和备份 OS 和数据卷的加密密钥。 将密钥保存在安全的外部位置,例如 Azure Key Vault。 |
使用 SIEM 解决方案提高安全监视和警报功能。 为此,可以将 已启用 Azure Arc 的服务器(Azure 本地平台计算机)接入 Microsoft Sentinel。 或者,如果使用其他 SIEM 解决方案,请配置 安全事件的 syslog 转发 到所选解决方案。 | 通过使用 Microsoft Sentinel 或 syslog 转发来转发安全事件数据,通过与客户管理的 SIEM 解决方案集成提供警报和报告功能。 |
使用 服务器消息块(SMB)签名 增强传输中数据保护,该保护在“默认安全设置”中启用。 | 使用 SMB 签名,可以在 Azure 本地平台与平台(北部或南部)外部的系统之间对 SMB 流量进行数字签名。 为 Azure 本地平台和其他系统之间的外部 SMB 流量配置签名,以帮助防止中继攻击。 |
使用 SMB 加密 设置增强传输中数据保护,该保护在“默认安全设置”中启用。 | 在实例中流量设置中的 SMB 加密负责控制存储网络上 Azure 本地实例(东部或西部)物理计算机之间流量的加密。 |
成本优化
成本优化侧重于 检测支出模式、优先考虑关键领域的投资,以及优化其他 以满足组织预算,同时满足业务需求。
成本优化设计原则提供高级设计策略,以实现这些目标,并在与 Azure 本地及其环境相关的技术设计中根据需要做出权衡。
设计清单
根据投资的成本优化设计评审核对清单开始实施您的设计策略。 微调设计,使工作负荷与为工作负荷分配的预算保持一致。 设计应使用正确的 Azure 功能,监视投资,并查找随时间推移进行优化的机会。
Azure Local 会产生硬件、软件授权、工作负载、虚拟机 (VM)(Windows Server 或 Linux)授权以及其他集成云服务(例如 Azure Monitor 和 Defender for Cloud)的成本。
(Azure 本地平台体系结构和工作负荷体系结构) 估算实际成本,作为成本建模的一部分。 使用 Azure 定价计算器 选择和配置 Azure 本地、Azure Arc 和 AKS 等服务。 试验各种配置和支付选项来建模成本。
(Azure 本地平台体系结构和工作负荷体系结构) 优化 Azure 本地硬件的成本。 选择符合业务和商业要求的硬件 OEM 合作伙伴。 若要浏览已验证的计算机、集成系统和顶级解决方案的认证列表,请参阅 Azure 本地解决方案目录。 与硬件合作伙伴沟通你的工作负载特征、大小、数量和性能,以便可以为 Azure 本地环境和实例大小优化经济高效的硬件解决方案。
(Azure 本地平台体系结构) 优化许可成本。 Azure 本地软件根据“每个物理 CPU 核心”进行许可和计费。 将现有的本地核心许可证与 Azure 混合权益 配合使用,以降低 Azure 本地工作负荷的许可成本,例如运行 Windows Server、SQL Server 或 AKS 和已启用 Azure Arc 的 Azure SQL 托管实例的 Azure Arc VM。 有关详细信息,请参阅 Azure 混合权益成本计算器。
(Azure 本地平台体系结构) 节省环境成本。 评估以下选项是否有助于优化资源使用情况。
利用微软提供的折扣计划。 请考虑使用 Azure 混合权益来降低运行 Azure 本地和 Windows Server 工作负荷的成本。 有关详细信息,请参阅 Azure 本地的 Azure 混合权益。
浏览促销产品/服务。 在注册后利用 Azure 本地 60 天免费试用版,以初步证明概念或验证。
(Azure 本地平台体系结构) 节省运营成本。
评估用于修补、更新和其他作的技术选项。 对于已启用 Azure 混合权益和 Azure Arc VM 管理的 Azure 本地实例,更新管理器是免费的。 有关详细信息,请参阅 更新管理器常见问题解答 和 更新管理器定价。
评估与可观测性相关的成本。 设置警报规则和数据收集规则(DCR),以满足监视和审核需求。 工作负荷引入、处理和保留的数据量直接影响成本。 使用智能保留策略进行优化、限制警报的数量和频率,以及选择用于存储日志的正确存储层。 有关详细信息,请参阅 Log Analytics 的成本优化指南。
(工作负荷体系结构) 优先评估密度而非隔离。 使用 Azure 本地上的 AKS 来提高密度并简化工作负荷管理,使容器化应用程序能够跨多个数据中心或边缘位置进行缩放。 有关详细信息,请参阅 Azure 本地定价上的 AKS。
建议
建议 | 益处 |
---|---|
如果您持有包含软件保障的 Windows Server Datacenter 许可证,请使用 Azure 本地版的 Azure 混合权益。 | 借助 Azure 本地的 Azure 混合权益,您可以充分利用本地许可证的价值,并将现有基础设施现代化迁移到 Azure 本地,无需额外费用。 |
选择 Windows Server 订阅加载项或自带许可证来许可并激活 Windows Server VM 并在 Azure 本地使用它们。 有关详细信息,请参阅 Azure 本地版上的 Windows Server VM 许可证。 | 虽然可以使用现有的 Windows Server 许可证和激活方法,但您也可以选择启用仅适用于 Azure 本地的“Windows Server 订阅加载项”,以便通过 Azure 订阅和管理 Windows Server 来宾许可证,该许可证按照 Azure 本地实例中的物理核心总数收费。 |
使用扩展到 Azure Local 的针对 VM 的 Azure 验证权益,以便支持的 Azure 专用工作负荷可以在云之外运行。 | 默认情况下,此权益在 Azure 本地版本 23H2 或更高版本上启用。 使用此权益,使 VM 可以在其他 Azure 环境中运行,并且工作负荷可以从仅在 Azure 中可用的产品/服务中受益,例如 Azure Arc 启用的扩展安全更新。 |
卓越运营
卓越运营主要侧重于 开发实践、可观测性和发布管理的各个过程。
卓越运营设计原则 提供了一个高级设计策略,用于实现这些运营需求目标。
监视和诊断至关重要。 可以使用指标来度量性能统计信息并快速排查和修正问题。 有关如何排查问题的详细信息,请参阅 卓越运营设计原则 并 收集 Azure 本地的诊断日志。
设计清单
根据 卓越运营的设计评审清单 启动设计策略,以定义与 Azure 本地相关的可观测性、测试和部署过程。
(Azure 本地平台体系结构) 提高 Azure 本地的支持性。 部署时默认启用可观测性。 这些功能可增强平台的可支持性。 使用默认安装在所有 Azure 本地计算机上的 AzureEdgeTelemetryAndDiagnostics 扩展,从平台安全地共享遥测和诊断信息。 有关详细信息,请参阅 Azure 本地可观测性。
(Azure 本地平台体系结构) 使用 Azure 服务减少运营复杂性并提高管理规模。 Azure Local 与 Azure 集成,用于启用更新管理器等服务来修补平台,Azure Monitor 用于监视和警报。 可以使用 Azure Arc 和 Azure Policy 来管理安全配置和合规性审核。 实现 Defender for Cloud 以帮助管理网络威胁和漏洞。 将 Azure 用作这些作过程和过程的控制平面,以帮助降低复杂性、提高规模效率并提高管理一致性。
(工作负荷体系结构) 提前规划工作负载的 IP 地址网络范围要求。 Azure Local 提供了一个平台,用于部署和管理虚拟化或容器化工作负荷。 另请考虑工作负荷使用的逻辑网络的 IP 地址要求。 查看以下资源:
部署在 Azure 本地上的工作负荷需要 逻辑网络。 有关特定示例,请参阅 AKS 群集的网络要求、 适用于 Azure Arc VM 的逻辑网络以及 具有 Azure 本地的虚拟桌面。
(工作负荷配置) 为 Azure 本地部署的工作负荷启用监视和警报。 可以使用 适用于虚拟机的 Azure Monitor 或 适用于 Arc VM 的 VM 见解,也可以使用 容器见解和托管 Prometheus AKS 群集。
评估是否应该使用集中式 Log Analytics 工作区来处理工作负荷。 有关共享日志接收器(数据位置)的示例,请参阅 工作负荷管理和监视建议。
(Azure 本地平台体系结构) 使用适当的验证技术进行安全部署。 在部署 Azure 本地解决方案之前,在 独立模式下使用环境检查器工具 评估目标环境的就绪情况。 此工具验证所需的连接、硬件、Windows Server Active Directory、网络和 Azure Arc 集成先决条件的正确配置。
(Azure 本地平台体系结构) 获取最新状态并保持最新状态。 使用 Azure 本地解决方案目录 随时了解 Azure 本地实例部署的最新硬件 OEM 创新。 请考虑使用高级解决方案从额外的集成、统包式部署功能和简化的更新体验中受益。
使用更新管理器更新平台并管理 OS、核心代理和服务,包括解决方案扩展。 保持最新状态,并考虑尽可能对扩展使用“启用自动升级”设置。
建议
建议 | 益处 |
---|---|
启用 Azure 本地实例上的 Monitor Insights ,以使用本机 Azure 功能增强监视和警报。 见解可以使用 DCR 收集的实例性能计数器和事件日志通道来监视关键的 Azure Local 功能。 对于某些硬件基础结构(如 Dell APEX),可以实时可视化硬件事件。 有关详细信息,请参阅 功能工作簿。 |
Azure 管理分析,因此它始终保持最新状态,可以扩展到多个实例,并且高度可定制。 见解提供对具有基本指标的默认工作簿的访问权限,以及为监视 Azure Local 的关键功能而创建的专用工作簿。 此功能提供准实时监视。 可以使用聚合和筛选器功能创建图形和自定义可视化效果。 还可以配置自定义警报规则。 见解的成本取决于引入的数据数量以及 Log Analytics 工作区的数据保留设置。 启用 Azure Local Insights 时,我们建议使用通过 Insights 创建体验创建的 DCR。 DCR 名称的前缀为 AzureStackHCI- . 它配置为仅收集所需的数据。 |
设置警报,并根据组织要求配置警报处理规则。 获取有关运行状况、指标、日志或其他可观测性数据的更改的通知。 - 健康警报 - 日志警报 - 指标警报 有关详细信息,请参阅 指标警报的建议规则。 |
将 Monitor 警报与 Azure Local 集成,无需额外付费即可获得多个关键优势。 获取准实时监视并自定义警报,以通知正确的团队或管理员进行修正。 可以在 Azure 本地收集计算、存储和网络资源的综合指标列表。 对日志数据执行高级逻辑作,并定期评估 Azure 本地实例的指标。 |
使用更新功能在一个位置集成和管理 Azure 本地解决方案的各个方面。 有关详细信息,请参阅 “关于 Azure 本地”中的更新。 | 更新业务流程协调程序是在初始 Azure 本地实例部署期间安装的。 此功能可自动执行更新和管理作。 若要使 Azure Local 保持受支持的状态,请确保定期更新实例,以便在实例可用时移动到新的基线版本。 此方法为平台提供新功能和改进。 有关 发布周期、更新节奏以及每个基线版本支持窗口的详细信息,请参阅 Azure 本地版本 23H2 版本信息。 |
为了帮助进行动手技能训练、实验室操作、培训活动、产品演示或概念验证项目,请考虑使用 Azure Arc Jumpstart。 使用 Azure 上的 VM 部署解决方案,无需物理硬件即可快速部署 Azure 本地。 |
LocalBox 支持 Azure Local 版本 23H2,以便快速测试和评估 Azure 边缘产品的最新功能,例如在独立沙盒中进行原生 Azure Arc 和 AKS 集成。 可以使用支持嵌套虚拟化的 VM 将此沙盒部署到 Azure 订阅,以模拟 Azure VM 中的 Azure 本地实例。 只需最少手动作即可获取 Azure 本地功能,例如新的 云部署功能 。 有关详细信息,请参阅 Microsoft技术社区博客。 |
性能效率
性能效率就是通过管理容量来保持用户体验,即使负载增加也不例外。 该策略包括缩放资源、识别和优化潜在瓶颈,以及优化峰值性能。
性能效率设计原则 提供了一个高级设计策略,用于根据预期使用量实现这些容量目标。
设计清单
根据性能效率设计评审清单开始设计策略。 定义基于 Azure Local 的关键指示器的基线。
(Azure 本地平台体系结构)使用 OEM 合作伙伴产品/服务中的 Azure 本地验证硬件 或集成系统。 请考虑使用 Azure 本地目录中 的高级解决方案生成器来优化 Azure 本地环境的性能。
(Azure 本地平台存储体系结构)根据工作负荷性能和容量要求 ,为 Azure 本地计算机选择正确的物理磁盘类型 。 对于需要低延迟和高吞吐量存储的高性能工作负荷,请考虑使用全闪存(仅 NVMe/SSD)存储配置。 对于常规用途计算或大型存储容量要求,请考虑使用混合存储(SSD 或 NVMe 用于缓存层,将 HDD 用于容量层),这可能会增加存储容量。
(Azure 本地平台体系结构)在实例设计阶段(部署前)使用 Azure 本地尺寸工具。 应使用工作负荷容量、性能和复原要求作为输入来适当调整 Azure 本地实例的大小。 该大小决定了可以同时离线的物理机的最大数量(群集仲裁),例如任何计划内(维护)或计划外(电源或硬件故障)事件。 有关详细信息,请参阅群集 Quorum 概述。
(Azure 本地平台体系结构) 对于具有高性能或低延迟要求的工作负荷,请使用基于全闪存(NVMe 或 SSD)的解决方案。 这些工作负载包括但不限于高度事务性数据库技术、生产 AKS 群集或任何任务关键型或业务关键型工作负荷,以及低延迟或高吞吐量存储要求。 使用全闪存部署最大程度地提高存储性能。 All-NVMe 或全 SSD 配置(尤其是在非常小规模)可提高存储效率和最大化性能,因为没有驱动器用作缓存层。 有关详细信息,请参阅 基于全闪存的存储。
(Azure 本地平台体系结构)在部署生产工作负荷之前 ,为 Azure 本地实例存储建立性能基线 。 使用 Insights 配置 Monitor Azure 本地功能,以同时监视单个 Azure 本地实例或多个实例的性能。
(Azure 本地平台体系结构)为 Azure 本地实例启用 Insights 后, 请考虑使用 Monitor for Resilient File System (ReFS) 重复数据删除和压缩功能 。 根据工作负荷存储使用情况和容量要求确定是否应使用此功能。 此功能提供对 ReFS 重复数据删除、压缩的节省效果、性能影响和作业的监视。 有关详细信息,请参阅监控 ReFS 重复数据删除和压缩。
作为最低要求,计划在实例中保留
1 x physical machines (N+1)
的容量,以确保实例机器在通过更新管理执行更新时可以被耗尽。 考虑为业务关键型或任务关键型用例保留2 physical machines (N+2)
台机器的工作容量。
建议
建议 | 益处 |
---|---|
如果在 Azure 本地实例部署期间选择“仅创建基础结构卷”的高级选项,我们建议在为性能密集型工作负荷创建工作负荷卷时 使用镜像来创建虚拟磁盘 。 | 此建议有利于具有严格延迟要求的工作负荷,或需要高吞吐量的工作负荷以及每秒随机读写输入/输出操作(IOPs)的组合(例如 SQL Server 数据库、Kubernetes 集群或其他对性能敏感的虚拟机)。 在使用映像的卷上部署工作负荷 VHD,以最大程度地提高性能和恢复能力。 镜像的速度比任何其他复原类型都快。 |
请考虑使用 DiskSpd 测试 Azure 本地实例的工作负荷存储性能功能。 还可以使用 VMFleet 生成负载并测量存储子系统的性能。 评估是否应使用 VMFleet 来测量存储子系统性能。 |
在部署生产工作负荷之前,为 Azure 本地实例性能建立基线。 DiskSpd 允许管理员使用各种命令行参数测试实例的存储性能。 DiskSpd 的主要功能是发出读取和写入操作以及输出性能指标,例如延迟、吞吐量和 IOP。 |
权衡
支柱清单中描述的方法存在设计权衡。 下面是一些优点和缺点示例。
构建冗余会增加成本
在为 Azure 本地解决方案设计和采购硬件时,请提前了解工作负荷的要求,例如工作负荷 RTO 和 RPO 目标和存储性能要求(IOP 和吞吐量)。 若要部署高度可用的工作负荷,建议至少使用三台计算机实例,以便对工作负荷卷和数据进行三向镜像。 对于计算资源,请确保至少部署“N+1 台物理机器”,这将始终在实例中预留相当于单台机器的空间容量。 对于业务关键型或任务关键型工作负荷,请考虑保留“N+2 台计算机的容量”,以提高复原能力。 例如,如果实例中的两台计算机处于脱机状态,则工作负荷可以保持联机状态。 此方法为方案提供了更高的复原能力,例如,如果在计划更新过程中运行工作负荷的计算机脱机(导致两台计算机同时脱机)。
对于业务关键型或任务关键型工作负荷,建议部署两个或多个独立的 Azure 本地实例,并在单独的实例之间部署工作负荷服务的多个实例。 使用利用数据复制和应用程序负载均衡技术的工作负荷设计模式。 例如,SQL Server Always-on 可用性组 使用同步或异步数据库复制在不同数据中心的不同实例间实现较低的 RTO 和 RPO 目标。
因此,工作负荷恢复能力的增加和 RTO 和 RPO 目标的减少会增加成本,并且需要精心设计的应用程序和严谨的操作。
在没有有效工作负荷规划的情况下提供可伸缩性会增加成本
如果过度预配硬件,则不正确的实例大小可能导致容量不足或降低投资回报(ROI)。 这两种方案都会影响成本。
增加的容量等于更高的成本。 在 Azure 本地实例设计阶段,需要充分规划,以便根据工作负荷容量要求 对实例计算机的功能和数量进行适当 规划。 因此,除了预计的增长外,还必须了解工作负荷要求(vCPU、内存、存储和 X 个 VM 数量),并允许增加一些 额外空间 。 在使用“存储切换”设计时,可以执行添加计算机手势。 但在部署后可能需要很长时间才能获取更多硬件。 添加备注的手势比在初始部署时合理地调整实例硬件和机器数量(最多16台机器)要复杂得多。
如果过度预配计算机硬件规范并选择不正确的计算机数量(实例大小),则存在缺点。 例如,如果工作负荷要求比实例的总体容量小得多,并且硬件在整个硬件保修期内未使用,则 ROI 值可能会降低。
Azure 策略
Azure 提供了一组与 Azure 本地及其依赖项相关的大量内置策略。 可以通过 Azure Policy 审核上述一些建议。 例如,可以检查以下情况:
- 主机和 VM 网络应受到保护。
- 应该实施加密卷。
- 应始终强制实施应用程序控制策略。
- 应满足安全核心要求。
查看 Azure 本地内置策略。 Defender for Cloud 提供了新建议,显示内置策略的符合性状态。 有关详细信息,请参阅 Azure 安全中心的内置策略。
如果工作负荷在 Azure 本地部署的 Azure Arc VM 上运行,请考虑使用内置策略,例如拒绝创建或修改扩展安全更新许可证。 有关详细信息,请参阅 已启用 Azure Arc 的工作负荷的内置策略定义。
请考虑创建自定义策略,为在 Azure 本地实例上部署的 Azure 本地资源和 Azure Arc VM 提供额外的治理。 例如:
- 使用 Azure 审核 Azure Local 主机注册
- 确保主机运行最新的 OS 版本
- 检查所需的硬件组件和网络配置
- 验证启用必要的 Azure 服务和安全设置
- 确认安装所需的扩展
- 评估 Kubernetes 群集和 AKS 集成的部署
Azure 顾问建议
Azure 顾问是一名个性化的云顾问,可帮助你遵循最佳做法来优化 Azure 部署。 下面是一些建议,可帮助你提高 VM 的可靠性、安全性、成本效益、性能和卓越运营能力。
后续步骤
将 Azure 体系结构中心中的以下文章视为演示本文中突出显示的建议的资源。
- 演示主要建议的基础体系结构: Azure 本地基线参考体系结构。
- 如果你的组织需要混合方法,请仔细选择与混合网络体系结构相关的设计选择。 有关详细信息,请参阅 混合体系结构设计。
使用以下 Azure 本地产品文档生成实施专业知识:
查看云采用框架指南:
云采用框架就绪方法为客户准备云采用环境提供指导。 该方法包括技术加速器,如 Azure 登陆区域,这是任何 Azure 云采用环境的构建基块。 请查看以下文章,详细了解如何为混合云准备环境。