3.1 云上容灾¶
课程简介¶
在数字化时代,系统的高可用性和业务连续性是企业的生命线。本课程将深入探讨如何构建可恢复、高性能的云架构。我们将从国家灾备标准出发,详细解析 RTO 与 RPO 指标,深入讲解“两地三中心”等经典云上容灾架构,并探讨当前主流的“多云容灾”策略与实践,帮助企业应对单云故障风险,实现业务的极致高可用。
学习目标¶
通过本课程的学习,您将能够:
- ✓ 掌握灾备标准:理解国家灾备等级(1-6级)的具体要求及 RTO/RPO 指标含义。
- ✓ 设计容灾架构:熟练设计同城双活、两地三中心(Geo-Redundancy)等云上容灾方案。
- ✓ 实施多云策略:了解多云容灾的优势,掌握半双活与全双活多云架构的设计要点。
- ✓ 落地实战:通过真实案例,学习如何通过多云部署实现业务连续性保障与降本增效。
第一部分:灾备标准与核心指标¶
本部分导读
灾备建设不是“拍脑袋”,而是有法可依、有章可循的。了解国家标准和核心指标是设计容灾方案的前提。
一、核心指标:RTO 与 RPO¶
在灾备建设中,有两个至关重要的衡量指标:
| 指标 | 全称 | 中文含义 | 定义 | 关注点 |
|---|---|---|---|---|
| RTO | Recovery Time Objective | 恢复时间目标 | 灾难发生后,业务从停顿到恢复服务所需要的时间。 | 业务停多久?(时间) |
| RPO | Recovery Point Objective | 恢复点目标 | 灾难发生后,系统能恢复到的时间点,即最多丢失多少数据。 | 数据丢多少?(数据) |
- 理想目标:RTO = 0(业务零中断),RPO = 0(数据零丢失)。
- 现实权衡:RTO/RPO 越低,投入成本(技术、资源、运维)越高。
二、国家灾备等级标准 (GB/T 20988-2007)¶
我国《信息系统灾难恢复规范》将灾备能力划分为 6 个等级:
| 等级 | 关键特征 | 数据备份要求 | RTO/RPO 参考值 |
|---|---|---|---|
| 等级 1 | 基本支持 | 每周 1 次全量备份,介质场外存放。 | RTO ≥ 2天 RPO 1-7天 |
| 等级 2 | 备用场地支持 | 在等级 1 基础上,要求有备用场地和网络线路协议。 | RTO ≥ 24小时 RPO 1-7天 |
| 等级 3 | 电子传输支持 | 每天 1 次全量备份,利用网络定时批量传输数据。 | RTO ≥ 12小时 RPO 数小时-1天 |
| 等级 4 | 电子传输及完整设备 | 备用中心配备全部设备,处于就绪状态,7x24 运维。 | RTO 数小时-2天 RPO 数小时-1天 |
| 等级 5 | 实时数据传输 | 实时数据复制技术,备用网络具备自动切换能力。 | RTO 数分钟-2天 RPO 0-30分钟 |
| 等级 6 | 数据零丢失 | 远程实时备份,实现数据零丢失,应用具备自动无缝切换能力。 | RTO 数分钟 RPO = 0 |
选型建议: - 一般非关键业务:等级 1-3。 - 关键业务(如金融核心):等级 5-6。
第二部分:云上容灾架构设计¶
本部分导读
云计算天然具备多地域(Region)、多可用区(AZ)的特性,为构建低成本、高可靠的容灾架构提供了基础设施。
一、主流容灾模式¶
1.1 同城容灾 (同城双活)¶
- 部署方式:在同一地域(Region)的两个不同可用区(AZ)部署业务。
- 特点:网络延迟极低(<2ms),可实现数据强同步(RPO=0)。
- 防范风险:机房级故障(如断电、火灾)。
1.2 异地容灾¶
- 部署方式:在不同地域(如北京、上海)部署业务。
- 特点:距离远,通常采用异步复制,数据可能存在秒级延迟。
- 防范风险:地域级灾难(如地震、洪水)。
二、经典架构:两地三中心¶
这是金融级业务最常用的高可用架构。
graph TD
subgraph Region_A[地域A (如: 广州)]
subgraph AZ_1[可用区 1 (生产中心A)]
App1[应用集群]
DB1[(主数据库)]
end
subgraph AZ_2[可用区 2 (生产中心B)]
App2[应用集群]
DB2[(同城备库)]
end
DB1 <-->|强同步复制| DB2
end
subgraph Region_B[地域B (如: 上海)]
subgraph AZ_3[可用区 3 (异地灾备中心)]
App3[应用集群]
DB3[(异地灾备库)]
end
end
DB1 -.->|异步复制| DB3
LB[全局负载均衡/DNS] --> Region_A
LB -.-> Region_B
架构解析: 1. 同城双中心 (生产):在广州的 AZ1 和 AZ2 部署双活业务,数据库进行强同步,流量按比例(如 50:50 或 90:10)分发。 2. 异地灾备中心:在上海的 AZ3 部署灾备系统,数据通过 DCN (数据通信网) 异步复制。平时不承接流量或仅承接读流量,灾难时接管业务。
细分模式: - 同城双活 + 异地热备:异地仅做备份,RTO 约 30分钟-1小时。成本较低。 - 一地多活:异地也承接写流量(需解决数据冲突),RTO < 15分钟。成本较高。
第三部分:多云容灾战略¶
本部分导读
“不要把鸡蛋放在同一个篮子里”。随着单一云厂商故障事件(如 AWS, Google Cloud 宕机)的频发,多云(Multi-Cloud)成为企业分散风险的必然选择。
一、为什么选择多云容灾?¶
1.1 风险背景¶
即使是顶级的云厂商,也无法保证 100% 不出故障。 - 2020年 Google 宕机 45 分钟,影响 20 亿用户。 - 2020年 AWS 弗吉尼亚区故障,影响数小时。
1.2 多云优势¶
- 规避供应商锁定 (Vendor Lock-in):保持技术独立性,议价能力更强。
- 极致高可用:规避单一云厂商底层的共性故障(如代码 Bug、网络拥塞)。
- 地缘与合规:满足不同国家/地区的数据驻留和合规要求。
- 成本优化:利用不同云厂商的优势资源(如某家的 GPU 更便宜,某家的存储更稳)。
二、多云架构模式¶
2.1 半双活多云 (Active-Standby)¶
- 设计:主云承担 100% 流量,备云部署相同架构但仅同步数据。
- 切换:主云故障时,通过 DNS 修改解析指向备云。
- 适用:对 RTO 要求不极其苛刻,希望降低备云资源成本的客户。
2.2 全双活多云 (Active-Active)¶
- 设计:两朵云同时承担业务流量(如 50:50),数据库做双向同步或单元化拆分。
- 优势:RTO 接近于 0,随时可切换。
- 挑战:数据一致性维护复杂,专线网络成本高。
三、多云容灾建设四步走¶
- 业务调研:确定 RTO/RPO 目标,评估业务依赖。
- 方案设计:规划网络互通(VPN/专线)、数据同步(DTS/工具)、流量调度(DNS)。
- 容灾实施:应用部署、数据全量+增量迁移。
- 演练运维:定期进行断网演练,验证切换流程。
第四部分:案例分享¶
案例:某互联网文娱企业的多云容灾实践¶
背景: - 主营新闻、小说、直播业务,MAU(月活)千万级。 - 原业务部署在某友商云,对业务连续性要求极高。
痛点: - 担心单一云厂商故障导致全线停服。 - 希望引入竞争机制,降低 IT 成本。
解决方案: 1. 架构升级:引入腾讯云,构建“友商云 + 腾讯云”的多云双活架构。 2. 异地部署:选择与原友商云不同的地域(Region)和可用区(AZ)部署腾讯云灾备中心。 3. 流量调度:使用全局负载均衡/DNS,将流量分发到两朵云。 4. 数据同步:利用 DTS (数据传输服务) 实现跨云数据库的双向/单向同步。 5. 降本增效:在腾讯云侧选用高性价比的 AMD 机型,整体成本降低 30%。
成效: - 将单一云厂商故障的影响降低至分钟级。 - 实现了跨云容灾,保障了千万级用户的业务连续性。
课程总结¶
知识体系回顾¶
- 标准:灾备 6 级标准,RTO(时间)和 RPO(数据)是核心考量。
- 架构:同城双活解决机房故障,异地容灾解决地域灾难,两地三中心是黄金标准。
- 趋势:多云容灾已成为主流,能有效规避供应商锁定和单云故障风险。
架构师实践清单 (Checklist)¶
- [ ] 定级:您的业务属于哪一类灾备等级?(等级3?等级5?)
- [ ] 架构:是否实施了跨可用区(Multi-AZ)部署?
- [ ] 数据:数据库是否开启了跨地域备份或同步?
- [ ] 演练:是否每年至少进行一次容灾切换演练?
本节课程到此结束。下一节,我们将探讨如何通过3.2 云上架构性能优化来提升系统的运行效率。