Azure 可靠性文档提供了以下方面的信息:可靠性在云平台中的含义、Azure 云如何支持可靠性,以及可以通过何种方式配置每个 Azure 服务以支持可靠的解决方案。
该文档分为以下几个部分:
- 按服务划分的 Azure 可靠性指南包含每个 Azure 服务如何支持可靠性的指南,包括可用性区域、多区域支持和备份支持。
- 可靠性基础知识包含基本可靠性概念,例如:
- 业务连续性、高可用性、灾难恢复。
- 冗余、复制(数据冗余)和备份
- 故障转移和故障回复。
- Microsoft 和你之间的共同责任。
- Azure 区域包含有关 Azure 区域、配对和非已对区域以及不同区域配置的信息。
- Azure 可用性区域包含可用性区域的信息,包括它们如何支持高可用性和灾难恢复。 本部分还包括支持可用性区域的 Azure 服务和区域的列表。
什么是可靠性?
可靠性指的是工作负载持续按照预期水平并根据业务连续性要求运行的能力。 可靠性是云计算中的关键概念。 在 Azure 中,可靠性是通过多种因素共同实现的,包括平台自身的设计、其服务、应用程序的体系结构以及最佳做法的实施。
在工作负载中实现可靠性的一个关键方法是复原能力,即工作负载承受故障和中断并从中恢复的能力。 Azure 提供了许多复原能力功能,如可用性区域、多区域支持、数据复制以及备份和还原功能。 在设计工作负载以满足其业务连续性要求时,必须考虑这些功能。
该文档分为以下几个部分:
按服务划分的 Azure 可靠性指南
每个 Azure 服务都有其独特的可靠性特征。 Azure 提供了一组特定于服务的可靠性指南,这些指南可帮助你设计并实施可靠的工作负载,而且指南能帮助你了解如何以最佳方式使用该服务来满足业务需求。 每个指南可能包含以下部分,具体取决于它支持哪些可靠性功能:
每个可靠性服务指南通常包含有关该服务如何支持一系列可靠性功能的信息,包括:
- 可用性区域,例如区域性及区域冗余部署选项、区域间的流量路由与数据复制、某个区域发生中断时的情况、故障回复,以及如何配置资源以支持可用性区域。
- 多区域支持,例如如何配置多区域或异地灾难恢复支持、区域间的流量路由和数据复制、区域故障情况,以及故障转移和故障回复支持。 对于一些没有原生多区域支持的服务,指南介绍了可考虑的其他多区域部署方法。
- 备份支持,例如 Microsoft 控制和用户控制的备份功能、备份存储位置、如何恢复备份,以及备份是仅能在某个区域内访问还是可跨区域访问。
如需详细信息及可靠性服务指南列表,请参阅按服务分类的可靠性指南。
小提示
可靠性还涵盖解决方案设计的其他要素,包括如何安全地部署更改、如何管理性能以避免因高负载导致停机,以及如何测试和验证解决方案的各个部分。 若要了解详细信息,请参阅 Azure 架构良好的框架。
可靠性基础知识
可靠性基础知识部分概述了支撑 Azure 可靠性的关键概念和原则。
业务连续性、高可用性和灾难恢复
业务连续性规划可以理解为通过高可用性和灾难恢复设计进行风险管理的持续过程。
考虑业务连续性时,请务必了解以下术语:
业务连续性是企业在故障、中断或灾难期间可以继续运营的状态。 业务连续性需要主动规划、准备和实施可复原的系统和流程。
高可用性指的是设计一种解决方案,以满足业务对可用性的需求,并能抵御可能影响正常运行时间要求的日常问题。
灾难恢复是关于规划如何处理不常见的风险和可能导致的灾难性中断。
有关通过高可用性和灾难恢复设计实现业务连续性和业务连续性规划的信息,请参阅什么是业务连续性、高可用性和灾难恢复?。
冗余、复制和备份
我们经常将云视为全球分布式、无处不在的系统。 但是,实际上,云由数据中心内运行的硬件组成。 复原要求考虑与云托管组件运行的物理位置相关的一些风险。
冗余是维护服务组件的多个相同副本,并且以阻止任何一个组件成为单一故障点的方式使用这些副本的能力。
复制或数据冗余是能够维护多个数据副本(称为副本)。
备份能够维护可用于还原丢失的数据的时间戳副本。
有关冗余、复制和备份的简介,请参阅什么是冗余、复制和备份?。
故障转移和故障回复
维护应用程序和数据副本的冗余副本的一个常见原因是为了能够执行故障转移。 通过故障转移,可以将流量和请求从不正常的实例重定向到正常的实例。 然后,一旦原始实例再次正常运行,可以执行故障回复以返回到原始配置。
有关故障转移和故障回复的详细信息,请参阅什么是故障转移和故障回复?。
共同责任
复原能力定义了工作负载自动自我纠正并从各种形式的故障或中断中恢复的能力。 Azure 服务旨在应对许多常见故障,并且每个产品都提供一份服务级别协议 (SLA),其中说明了预期的正常运行时间。 然而,工作负载的整体复原能力取决于你如何设计解决方案以满足业务需求。 一些业务连续性计划可能认为某些故障风险无关紧要,而另一些则可能认为它们至关重要。
在 Azure 公有云平台中,复原能力是 Microsoft 和你之间的共担责任。 由于设计和部署的每个工作负载中的复原能力级别不同,因此必须从复原能力的角度了解谁对各个级别负有主要责任。 为了更好地了解共担责任的工作原理(尤其是在遇到中断或灾难时),请参阅复原能力的共担责任。
Azure 区域
Azure 在全球提供 60 多个区域,这些区域分布在多个不同的地域。 每个区域都是一组物理设施,包括数据中心和网络基础结构。 所有区域都可划分为多个地理区域,称为“地域”。 每个地域都是一个数据驻留边界,可能包含一个或多个区域。
- 有关 Azure 区域的详细信息,请参阅什么是 Azure 区域。
- 若要了解配对和非配对区域,包括区域对和非配对区域的列表,请参阅 Azure 区域对和非配对区域。
- 若要查看部署到 Azure 区域的服务列表,请参阅按区域划分的产品可用性
Azure 可用性区域
许多 Azure 区域都提供可用性区域,这些区域是区域中的独立数据中心组。 可用性区域足够近,可以与其他可用性区域建立低延迟连接,但它们相距甚远,可以降低多个可用性区域受到本地中断或天气影响的可能性。 各可用性区域具有独立的电源、冷却和连网基础结构。 根据设计,如果一个区域停电,其余区域可支持区域性服务、容量和高可用性。
- 有关可用性区域的详细信息,请参阅什么是可用性区域?。
- 若要查看哪些区域支持可用性区域,请参阅 Azure 区域列表。
- 若要了解每个 Azure 服务如何支持可用性区域,请参阅支持可用性区域的 Azure 服务
- 若要了解如何着手迁移以支持可用性区域,请参阅 Azure 可用性区域迁移概述。
相关内容
- 如需有关可用性区域支持及其他可靠性功能的特定服务指南,请参阅可靠性指南。
- 有关可用性区域支持的服务迁移指南,请参阅可用性区域迁移指南。
- 按类别列出的服务可用性
- 使用可用性区域构建高可用性解决方案
- 什么是 Azure 区域和可用性区域?
- 在 Azure 中跨区域复制 | Microsoft Learn
- 培训:描述高可用性和灾难恢复策略