跳转至

腾讯云架构师认证 - 知识点复习大纲

文档说明
本文档基于腾讯云架构师认证课程的全部章节内容,提炼核心知识点,构建完整的知识体系框架,并对重点内容进行深度扩充。适用于考前复习、知识巩固及实战参考。


目录结构


第一章:云架构设计基础

1.1 云计算核心概念

关键知识点

  1. 云计算定义(NIST标准)
  2. 按需自助服务
  3. 广泛的网络访问
  4. 资源池化
  5. 快速弹性
  6. 可计量服务

  7. 云服务模型(三层架构)

    SaaS (软件即服务) - 腾讯会议、企业微信
    PaaS (平台即服务) - TKE、SCF、TDSQL
    IaaS (基础设施即服务) - CVM、CBS、VPC
    

  8. 云部署模型

  9. 公有云:成本低、弹性强、适合互联网业务
  10. 私有云:数据自主、安全性高、适合金融政务
  11. 专有云:公有云技术+私有云合规
  12. 混合云:灵活性与安全性平衡

重点扩充:云计算八大特征

特征 技术实现 业务价值
超大规模 百万级服务器集群 支撑海量并发,无容量上限
虚拟化 KVM/Docker容器技术 资源逻辑隔离,提升利用率
高可靠性 三副本/纠删码 数据可靠性99.9999999%
高可用性 多AZ部署、自动故障迁移 服务可用性99.95%+
通用性 标准化API 支撑全行业场景
弹性扩展 自动伸缩AS 应对流量波动,降本增效
按需服务 自助式控制台 分钟级资源交付
极其廉价 规模效应 TCO降低30%-70%

1.2 信创与国产化

核心要点

  • 战略目标:实现核心技术自主可控
  • 2+8+N体系:党政(2) → 八大行业(8) → 全行业(N)
  • 四梁八柱
  • 基础硬件:鲲鹏、飞腾、海光、龙芯
  • 基础软件:麒麟、统信、OpenCloudOS、TDSQL
  • 云平台:腾讯专有云TCE、TStack
  • 应用软件:企业微信、腾讯会议、WPS

腾讯云信创能力矩阵

芯片适配:鲲鹏/飞腾/海光/龙芯 → 一云多芯
操作系统:TencentOS Server → 内核优化
数据库:TDSQL → 金融级分布式
中间件:TSF/TDMQ → 微服务治理
办公:企业微信/腾讯会议 → 私有化部署

1.3 云架构设计六大原则

原则一:合理部署

  • 多可用区(Multi-AZ):防范机房级故障
  • 就近接入:降低网络延迟
  • 资源隔离:VPC子网划分,安全组管控

原则二:业务持续

  • 消除单点:所有组件集群化/主备化
  • 容灾标准
  • 同城双活:RPO=0
  • 两地三中心:防地域级灾难
  • 数据备份:快照+异地复制

原则三:弹性扩展

  • 横向扩展(Scale Out):增加机器数量
  • 自动化:基于CPU/QPS触发AS
  • 无状态设计:Session外置到Redis

原则四:性能效率

  • 缓存优先:CDN+Redis多级缓存
  • 读写分离:主从架构,提升吞吐
  • 异步解耦:MQ削峰填谷

原则五:安全合规

  • 纵深防御:边缘→网络→主机→数据
  • 最小权限:CAM精细化授权
  • 等保合规:满足国家标准

原则六:成本优化

  • 混合计费:包年包月+按量+竞价
  • 资源休眠:非生产环境定时开关机
  • 监控告警:及时发现异常

第二章:腾讯云核心产品与服务

2.1 计算服务

CVM(云服务器)核心知识

实例规格选型

标准型(S):1:2/1:4 → Web服务器、中小型数据库
计算型(C):1:2 → 批处理、游戏服务器
内存型(M):1:8 → Redis、高性能数据库
高IO型(IT):本地NVMe SSD → NoSQL
GPU型(GN):NVIDIA显卡 → AI训练/推理

计费模式对比

模式 价格 灵活性 适用场景
包年包月 ⭐⭐ 核心业务、长期稳定
按量计费 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 突发流量、临时测试
竞价实例 ⭐(1折) 离线计算、可中断任务

高可用架构

┌─────────────────────────────────────┐
│              用户请求                │
└─────────────┬───────────────────────┘
┌─────────────────────────────────────┐
│         CLB (负载均衡)               │
└─────────────┬───────────────────────┘
    ┌─────────┴─────────┐
    ↓                   ↓
┌─────────┐       ┌─────────┐
│可用区A  │       │可用区B  │
│CVM实例1 │       │CVM实例2 │
└────┬────┘       └────┬────┘
     └────────┬────────┘
┌─────────────────────────────────────┐
│         共享数据层                   │
│    CDB主从 + Redis集群              │
└─────────────────────────────────────┘

弹性伸缩(AS)

核心组件

  • 启动配置:定义机型、镜像、安全组
  • 伸缩组:定义最小/最大/期望实例数
  • 伸缩策略:定时/告警/手动触发

无状态设计要求

数据类型 传统方式 云原生改造
会话状态 本地内存 Redis集群
结构化数据 本地SQLite 云数据库CDB
文件存储 本地磁盘 对象存储COS
日志 /var/log 日志服务CLS

容器服务(TKE)

集群类型选择

  • 托管集群:Master免费,腾讯云代维(推荐)
  • 独立集群:完全自主控制
  • Serverless集群:无需管理节点

网络模式对比(重点)

模式 原理 性能 IP消耗 适用场景
Global Router 独立容器网段+路由表 普通业务
VPC-CNI 容器直接使用VPC IP 高性能、固定IP需求
Cilium Overlay eBPF+VXLAN封装 混合云场景

Service转发模式

  • IPVS:高性能,支持复杂算法(推荐生产)
  • IPTables:稳定性高,小规模集群

2.2 网络服务

VPC(私有网络)

核心组件

VPC (10.0.0.0/16)
├── 子网A (10.0.1.0/24) - 可用区1
├── 子网B (10.0.2.0/24) - 可用区2
├── 路由表 (流量导向规则)
├── 安全组 (实例级防火墙)
└── 网络ACL (子网级防火墙)

网络规划原则

  1. 避免冲突:VPC网段不与IDC重叠
  2. 预留空间:建议使用/16或/24掩码
  3. 多AZ部署:至少两个可用区
  4. 路由精细化:公有子网vs私有子网

负载均衡(CLB)

架构层次

  • 四层(TGW):TCP/UDP,基于DPDK,亿级并发
  • 七层(STGW):HTTP/HTTPS,SSL卸载,内容路由

调度算法

算法 适用场景 特点
加权轮询 通用场景 简单高效
加权最小连接 长连接业务 避免积压
源地址哈希 会话保持 同IP固定后端

高可用配置

  • 多可用区部署:主备AZ
  • 健康检查:自动屏蔽故障节点
  • 全局负载均衡:DNS+多地域CLB

CDN(内容分发网络)

核心价值

  • 静态加速:80%流量拦截在边缘
  • 动态加速(ECDN):智能路由优化回源
  • 全球加速:Anycast就近接入

缓存策略

图片/文件 → 缓存30天
JS/CSS → 缓存7天(版本号管理)
HTML → 缓存0秒(即时性)
API接口 → 不缓存(ECDN优化)

2.3 存储服务

三大存储对比

特性 CBS(云硬盘) CFS(文件存储) COS(对象存储)
数据模型 块(Block) 文件树(File) 对象(Key-Value)
访问协议 iSCSI/NVMe NFS/SMB HTTP/REST API
共享能力 单机独享 多机共享 全球共享
时延 微秒级 毫秒级 取决于网络
容量 单盘有上限 PB级弹性 无限
适用场景 数据库、系统盘 代码共享、容器存储 静态网站、备份归档

CBS选型

高性能云硬盘 → 测试环境
通用型SSD → 基础数据库
SSD云硬盘 → 高并发数据库
增强型SSD → 核心业务系统
极速型SSD → 百微秒级时延需求

COS生命周期管理

标准存储(0-30天) → 频繁访问
低频存储(30-90天) → 偶尔访问,价格低40%
归档存储(90天+) → 极少访问,价格低80%

2.4 数据库服务

云数据库MySQL(CDB)

数据同步方式

模式 RPO 性能 适用场景
异步复制 >0 最高 非核心业务
半同步复制 接近0 生产环境推荐
强同步复制 =0 金融核心交易

读写分离架构

应用 → 数据库代理(Proxy)
    写请求 → 主实例(Master)
    读请求 → 只读实例(RO1/RO2/RO3)

TDSQL(分布式数据库)

核心架构

SQL引擎(Gateway) - 无状态,路由分发
SET1(分片A)  SET2(分片B)  SET3(分片C)
一主两备      一主两备      一主两备

性能公式

  • QPS = 单分片QPS × 分片数量
  • TPS ≈ 单分片TPS × 70% × 分片数量

TDSQL-C(云原生数据库)

存算分离架构

计算层(无状态)
主节点(RW) + 只读节点(RO1~RO15)
    ↓ (仅写Redo Log)
存储层(共享存储池)
分布式存储节点 - Log is Database

核心优势

  • 极致弹性:Serverless模式,按秒计费
  • 海量存储:PB级,容量自动扩展
  • 超高性能:百万级QPS
  • 秒级快照:备份速度极快

Redis最佳实践

三大痛点与解决方案

1. 缓存雪崩 - 现象:大量Key同时过期或Redis宕机 - 解决: - 过期时间随机化:TTL = 10分钟 + Random(1~60秒) - 高可用架构:主从/集群版 - 限流降级:网关层拒绝部分请求

2. 缓存击穿 - 现象:热点Key突然过期,大量请求击穿DB - 解决: - 互斥锁:第一个线程查DB,其他等待 - 永不过期:逻辑过期+异步更新

3. 缓存穿透 - 现象:查询不存在的数据,绕过缓存直达DB - 解决: - 缓存空对象:DB查不到也缓存null - 布隆过滤器:提前判断Key是否存在

2.5 中间件服务

TDMQ家族选型

产品 核心场景 吞吐量 特性
CKafka 日志收集、大数据流处理 百万级TPS 零拷贝、高吞吐
RocketMQ 金融交易、订单系统 万级TPS 事务消息、顺序消息
Pulsar 跨地域同步、IoT 万级TPS 存算分离、多租户
RabbitMQ 复杂路由、企业应用 千/万级TPS 灵活路由、多语言

消息队列核心价值

异步解耦性能对比

串行处理:写库(100ms) + 发邮件(100ms) + 发短信(100ms) = 300ms
并行处理:写库(100ms) + Max(发邮件,发短信) = 200ms
异步MQ:写库(100ms) + 写MQ(5ms) = 105ms ✓ 最优

秒杀削峰架构

100万请求 → 网关限流(放行1万)
          消息队列(蓄水池)
      订单服务(匀速2000/s拉取)
          数据库(安全负载)

Pulsar订阅模式(必考)

模式 特点 适用场景
Exclusive 独占,全局有序 严格顺序要求
Failover 主备切换 高可用场景
Shared 轮询消费,高吞吐 无顺序要求
Key_Shared 相同Key发给同一消费者 既要吞吐又要顺序

2.6 微服务与Serverless

微服务设计原则

AKF扩展立方

X轴:水平扩展 - 复制实例,负载均衡
Y轴:业务拆分 - 微服务化,按功能拆分
Z轴:数据分区 - Sharding,按用户/地域切片

腾讯云微服务产品对比

产品 定位 核心能力 适用人群
TSE 中间件托管 网关、Nacos、Zookeeper 架构师、运维
TEM Serverless应用托管 自动伸缩、免运维 开发者
TSF 全生命周期平台 分布式事务、链路追踪 企业级客户

SCF(云函数)

核心特性

  • 0运维:无需管理服务器
  • 极致弹性:0到10000并发秒级响应
  • 按需付费:代码不运行不收费

冷启动优化

  • 精简代码包体积
  • 预置并发(付费保留热容器)
  • 全局变量复用连接

典型场景

Web后端:API网关 + SCF + TDSQL-C Serverless
文件处理:COS触发 + SCF(图片压缩/转码)
定时任务:Timer触发 + SCF(报表生成)

2.7 监控与日志

腾讯云可观测平台(TCOP)

三大支柱

指标(Metrics) - Prometheus → What happen?
链路(Tracing) - APM → Where happen?
日志(Logging) - CLS → Why happen?

故障排查流程

1. 查看全链路大盘 → 发现API成功率下降
2. 利用APM定位瓶颈 → 发现Stock-Service耗时长
3. 关联日志挖掘根因 → 看到"Connection pool exhausted"
4. 定位问题:数据库连接池耗尽

CLS(日志服务)

核心概念

  • 日志集:项目管理单元(逻辑分组)
  • 日志主题:基本管理单元(配置采集规则)
  • 主题分区(Shard):最小读写单元(决定吞吐)
  • 机器组:需要采集日志的服务器集合

LogListener工作原理

inotify监听文件变化
读取(Head/Tail) → 处理(分行/过滤/解析)
发送(压缩打包) → CLS服务端
断点续传(Checkpoint) - 保证数据不丢

第三章:云架构设计实践

3.1 云上容灾

灾备等级标准

等级 RTO RPO 关键特征
等级1 ≥2天 1-7天 每周全量备份
等级2 ≥24小时 1-7天 备用场地支持
等级3 ≥12小时 数小时-1天 电子传输支持
等级4 数小时-2天 数小时-1天 完整设备就绪
等级5 数分钟-2天 0-30分钟 实时数据传输
等级6 数分钟 =0 数据零丢失

两地三中心架构

地域A(北京) - 同城双活
├── 可用区1(主中心) - 业务主节点
└── 可用区2(备中心) - 业务备节点
    ↓ (强同步/半同步)
地域B(上海) - 异地灾备
└── 可用区1(灾备中心) - 异步复制

多云容灾策略

半双活:主云100%流量,备云仅同步数据 全双活:两朵云同时承担流量(50:50)

3.2 性能优化

全链路优化策略

用户接入层:HttpDNS/GSLB - 智能解析,就近接入
内容分发层:CDN/ECDN - 静态缓存+动态路由
应用接入层:CLB - 七层转发,SSL卸载
应用服务层:CVM/TKE - 异步化,无状态设计
缓存层:Redis - 热点缓存,读写分离
中间件层:TDMQ - 削峰填谷,解耦
数据层:读写分离/分库分表 - 提升吞吐

CDN核心优化

GSLB智能调度

用户请求 → GSLB判断
    ├── 地理位置(北京)
    ├── 运营商(联通)
    ├── 节点负载(CPU/带宽)
    └── 链路质量(延迟/丢包)
    选择最优节点

动态加速(ECDN)

  • 链路优化:长连接池,避免握手
  • 智能路由:绕过拥堵节点
  • 协议优化:QUIC协议,弱网稳定

Redis性能优化

读写策略(Cache Aside Pattern)

读:先读Cache → 命中返回
           ↓ 未命中
       读DB → 写Cache → 返回

写:先更新DB → 删除Cache(注意是删除,不是更新)

大Key拆分

大Hash表 H_KEY
    ↓ 拆分
H_KEY_1, H_KEY_2, H_KEY_3...

热Key优化

  • 读写分离:增加只读副本
  • 本地缓存:Ehcache/Guava
  • Key复制:HotKey_1, HotKey_2...分散到不同分片

3.3 应用容器化改造

改造六步法

1. 分析与解耦 → 识别依赖,拆分单体
2. 镜像准备 → 选择基础镜像,安装运行时
3. 配置管理 → ConfigMap/Secret外部化
4. 构建与测试 → 编写Dockerfile,单元测试
5. K8s编排 → Deployment/Service/Ingress
6. 部署与运维 → 发布到TKE,监控日志

Dockerfile优化技巧

# 多阶段构建
FROM maven:3.8-jdk-11 AS builder
WORKDIR /app
COPY pom.xml .
RUN mvn dependency:go-offline
COPY src ./src
RUN mvn package -DskipTests

FROM openjdk:11-jre-slim
COPY --from=builder /app/target/*.jar app.jar
RUN useradd -m appuser
USER appuser
ENTRYPOINT ["java", "-jar", "app.jar"]

K8s资源配置

QoS等级

类别 条件 特点 适用场景
Guaranteed request=limit 资源绝对保障 核心生产业务
Burstable request<limit 允许短时突发 大多数Web服务
BestEffort 未设置 最先被驱逐 开发测试

健康检查

livenessProbe:  # 存活检查,失败重启容器
  httpGet:
    path: /health
    port: 8080
  initialDelaySeconds: 30
  periodSeconds: 10

readinessProbe:  # 就绪检查,成功才接收流量
  httpGet:
    path: /ready
    port: 8080
  initialDelaySeconds: 5
  periodSeconds: 5

3.4 AI与大模型

AI大模型四要素

人工智能(AI)
海量数据(Data) - Common Crawl, Wikipedia
深度学习算法(Algorithm) - Transformer架构
超强算力(Compute) - GPU/TPU集群

LLM推理瓶颈

KV Cache显存计算

KV Cache Size = 2 × Layers × Hidden Size × Seq Length × Batch Size × Bytes

示例:Batch=64, Seq=2048 → 可能占用120GB显存

腾讯云AI基础设施

星脉高性能网络

  • TiTa协议:微秒级拥塞控制,90%负载零丢包
  • TCCL通信库:拓扑感知,集合通信效率>90%
  • 多轨道架构:3.2Tbps超高带宽
  • 光运维GOM:1分钟发现,3分钟定位,5分钟自愈

qGPU算力共享

  • 资源隔离:显存MB级、算力1%粒度
  • 灵活切分:一张A100切分给多个Pod
  • 异构混部:在线推理+离线训练混部

国产化AI芯片

芯片 定位 对标 适用场景
腾讯紫霄V1 AI推理专用 NVIDIA A10/L4 7B以下模型推理
华为昇腾910B AI训练与推理 NVIDIA A800/A100 千亿参数大模型
Intel Gaudi 2 高性价比训练 NVIDIA A100 大模型训练/微调

第四章:云安全体系

4.1 等级保护

等保2.0五步流程

1. 定级 → 编写《定级报告》
2. 备案 → 公安网安部门备案
3. 建设整改 → 采购安全设备,完善制度
4. 等级测评 → 第三方测评机构(70分以上通过)
5. 监督检查 → 公安定期/不定期检查

等保五级划分

等级 侵害客体 侵害程度 典型系统
一级 公民、法人 一般损害 个人博客
二级 社会秩序 一般损害 普通企业系统
三级 社会秩序/国家安全 严重/一般损害 金融交易、政务平台
四级 国家安全 严重损害 能源、电力、交通
五级 国家安全 特别严重损害 核心涉密系统

一个中心,三重防护

安全管理中心(SSC)
    ↓ 管理&监控
┌─────────────────────┐
│ 安全通信网络         │ - HTTPS加密、VPN
│ 安全区域边界         │ - 云防火墙、WAF、DDoS防护
│ 安全计算环境         │ - 主机安全、数据加密、身份鉴别
└─────────────────────┘

4.2 纵深防御体系

一个中心,三道防线

云安全中心(SSC) - 统一管理、态势感知
第一道防线:云防火墙(CFW)
    - 暴露面收敛
    - 虚拟补丁
    - 网络蜜罐
第二道防线:WAF
    - Web防护(SQL注入/XSS)
    - Bot管理
    - CC防护
第三道防线:主机安全(CWP)
    - 漏洞扫描与修复
    - 木马查杀
    - 基线检查

数据安全治理五大支柱

法律合规体系 - 网络安全法/数据安全法
组织保障体系 - 数据安全委员会
风险治理流程 - 资产清查→风险评估→风险治理→持续运营
风险治理技术 - 识别(DSGC)→保护(KMS)→监控(审计)→响应(备份)
安全基础设施 - 物理安全、网络安全、计算安全

零信任安全模型

核心理念

"永不信任,始终验证"

腾讯iOA三要素

可信身份 - MFA多因子认证、动态鉴权
可信终端 - 终端准入、微隔离
可信应用 - 细粒度访问控制、安全网关

4.3 网络与边界安全

云防火墙三种边界

互联网边界防火墙 - 管控公网IP与互联网流量(南北向)
NAT边界防火墙 - 管控私网通过NAT访问互联网
VPC间防火墙 - 管控不同VPC内网互通(东西向)

DDoS防护产品矩阵

产品 防护能力 接入方式 适用场景
基础防护 2-10Gbps 默认开启 免费基础防护
高防包 定制 直接绑定云资源IP 腾讯云资源
高防IP 定制 DNS解析指向高防IP 非腾讯云/隐藏源站

WAF部署模式

SaaS型WAF

用户 → DNS(CNAME) → WAF集群 → 源站

CLB-WAF

用户 → CLB(一键开启WAF) → 后端CVM

SSL/TLS握手流程

1. ClientHello - 客户端发送支持的协议、加密套件、随机数A
2. ServerHello - 服务端返回证书、随机数B
3. 验证证书 - 客户端验证证书合法性
4. Pre-Master Secret - 客户端生成随机数C,用服务器公钥加密发送
5. 生成会话密钥 - 双方用A、B、C生成对称密钥
6. 加密通信 - 后续使用会话密钥对称加密

4.4 计算环境安全

主机安全(CWP)四大环节

预防(Prevention)
- 资产清点、漏洞管理、基线检查
保护(Protection)
- 防暴力破解、防网页篡改、登录防护
检测(Detection)
- 木马查杀、异常登录检测、WebShell检测
响应(Response)
- 隔离主机、封禁IP、自动修复漏洞

容器安全(TCSS)全生命周期

构建(Build) - 镜像扫描(漏洞/病毒/敏感信息)
分发(Ship) - 仓库安全(TCR/CCR/Harbor)
运行(Run) - 运行时安全(逃逸检测/异常进程/反弹Shell)

堡垒机(BH)核心功能

认证管理 - MFA多因子认证、LDAP集成
权限管理 - 细粒度授权、命令控制
操作审计 - 全程录像、指令检索

数据安全审计(DAS)

核心能力 - 全量审计:记录所有SQL操作(包括SELECT) - 威胁检测:SQL注入、高危操作、敏感数据访问 - 溯源取证:还原安全事件全貌

数据安全治理中心(DSGC)

治理流程

1. 资产发现 - 自动扫描CDB/TDSQL/COS
2. 敏感数据识别 - AI识别身份证/手机号/银行卡
3. 分类分级 - L1/L2/L3/L4打标
4. 风险评估 - 检测未加密/未脱敏/权限过大


第五章:云迁移与成本管理

5.1 迁移方法论

标准化迁移流程(4P模型)

1. 准备阶段(Preparation)
   - 组建团队、目标对齐、初步调研
2. 规划设计(Planning)
   - 架构设计、迁移方案、资源清单
3. 实施阶段(Process)
   - 环境搭建、数据迁移、应用部署
4. 验收阶段(Product Check)
   - 功能测试、性能测试、业务割接

迁移策略对比

策略 停机时间 复杂度 适用场景
停服迁移 数小时-数天 非核心业务、初次上云
平滑迁移 秒级-分钟级 核心交易、7x24业务

割接方案设计

割接前准备
- 全量演练、数据校验、环境封网
割接流程
1. 停写 - 源端只读模式
2. 追平 - 等待增量同步完成
3. 切换 - 修改DNS/CLB配置
4. 验证 - 核心业务拨测
回滚机制
- 触发条件:数据不一致/业务报错/性能下降
- 操作:切回DNS指向源端

5.2 迁移工具矩阵

云组件映射表

类别 阿里云 AWS 腾讯云 迁移工具
计算 ECS EC2 CVM HyperMotion
容器 ACK EKS TKE Velero
对象存储 OSS S3 COS MSP
数据库 RDS RDS CDB/TDSQL DTS
缓存 Redis ElastiCache Redis DTS
消息队列 Kafka MSK CKafka MirrorMaker

主机迁移三种模式

1. 重新部署(Re-deploy)
   - 适用:无状态应用
   - 方法:新购CVM,重新运行CI/CD

2. 镜像迁移(Image Import)
   - 适用:需保留OS配置
   - 方法:制作镜像(RAW/QCOW2),导入腾讯云

3. 在线热迁移(Live Migration)
   - 适用:海量服务器,业务敏感
   - 工具:HyperMotion/Go2TencentCloud

K8s迁移方案

1. 环境准备 - 创建TKE集群
2. 镜像迁移 - image-transfer同步到TCR
3. 资源迁移 - Velero备份/恢复Deployment/Service
4. 持久化数据 - 快照/存储迁移工具

数据库迁移(DTS)

典型流程

1. 结构迁移 - 自动创建表和索引
2. 全量迁移 - 搬迁存量数据
3. 增量同步 - 持续同步Oplog/Binlog
4. 校验与切换 - 停写、校验、切换连接

Redis迁移三种策略

策略 适用场景 流程
重建迁移 数据量小 新建Redis,业务双写
停机迁移 数据量中等 导出RDB → redis-port导入
在线热迁移 大数据量 DTS全量+增量同步

大数据迁移

HDFS数据迁移

DistCP - Hadoop分布式复制
hadoop distcp hdfs://src:8020/data hdfs://dst:8020/data

冷热分离 - 历史数据迁移到COS,热数据迁移到新HDFS

Hive元数据迁移

1. mysqldump导出Metastore
2. 修改Location字段指向新HDFS
3. 导入目标Metastore

5.3 成本管理(FinOps)

四大计费模式

模式 价格 灵活性 适用场景 类比
包年包月 ⭐⭐ 核心业务、长期稳定 租房(年签)
按量计费 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 突发流量、临时测试 住酒店
竞价实例 ⭐(1折) 离线计算、可中断 特价尾房
预留实例 ⭐⭐ ⭐⭐⭐ 配合按量使用 会员卡

成本优化策略

混合计费策略

电商平时10万日活,大促100万日活

优化前:购买100台包年包月 → 浪费90台
优化后:
- 基线层:10台包年包月(覆盖日常)
- 弹性层:90台按量/竞价(大促自动扩容)
效果:成本降低60%+

资源休眠

开发测试环境
- 工作日10:00-19:00使用
- 配置定时任务:20:00关机,09:00开机
- 每周168小时 → 45小时
- 节省73%成本

存储降冷

COS生命周期管理
0-30天:标准存储(频繁访问)
30-90天:低频存储(价格低40%)
90天+:归档存储(价格低80%)

竞价实例最佳实践

机制 - 闲置算力以10%-20%价格出售 - 资源紧张时提前2分钟通知回收

适用场景 - 无状态应用:Web服务、容器节点 - 断点续传:大数据计算支持Checkpoint - 混合部署:20%包年包月(保底) + 80%竞价(降本)


核心考点速记

必考知识点清单

1. 云计算基础

  • [ ] NIST云计算定义五大特征
  • [ ] IaaS/PaaS/SaaS区别与腾讯云产品对应
  • [ ] 公有云/私有云/混合云适用场景
  • [ ] 信创2+8+N体系

2. 架构设计原则

  • [ ] 六大设计原则(合理部署/业务持续/弹性扩展/性能效率/安全合规/成本优化)
  • [ ] AKF扩展立方(X/Y/Z轴)
  • [ ] 无状态设计要求

3. 计算与容器

  • [ ] CVM实例规格选型(S/C/M/IT/GN)
  • [ ] 计费模式对比(包年包月/按量/竞价)
  • [ ] AS无状态设计(Session外置Redis)
  • [ ] TKE网络模式对比(Global Router/VPC-CNI/Cilium)
  • [ ] Service转发模式(IPVS/IPTables)

4. 网络服务

  • [ ] VPC核心组件(子网/路由表/安全组/ACL)
  • [ ] CLB四层/七层架构(TGW/STGW)
  • [ ] 负载均衡算法(轮询/最小连接/源地址哈希)
  • [ ] CDN工作原理(GSLB智能调度)
  • [ ] ECDN动态加速原理

5. 存储服务

  • [ ] CBS/CFS/COS三大存储对比
  • [ ] CBS选型(高性能/SSD/增强型/极速型)
  • [ ] COS生命周期管理(标准/低频/归档)
  • [ ] 三副本vs纠删码

6. 数据库服务

  • [ ] CDB数据同步方式(异步/半同步/强同步)
  • [ ] 读写分离架构(数据库代理)
  • [ ] TDSQL架构(SQL引擎+SET)
  • [ ] TDSQL-C存算分离(Log is Database)
  • [ ] Redis三大痛点(雪崩/击穿/穿透)

7. 中间件服务

  • [ ] TDMQ家族选型(CKafka/RocketMQ/Pulsar/RabbitMQ)
  • [ ] MQ三大价值(解耦/削峰/异步)
  • [ ] Pulsar四种订阅模式(Exclusive/Failover/Shared/Key_Shared)
  • [ ] RocketMQ事务消息

8. 微服务与Serverless

  • [ ] TSE/TEM/TSF产品对比
  • [ ] SCF冷启动优化
  • [ ] SCF典型场景(Web后端/文件处理/定时任务)

9. 监控与日志

  • [ ] 可观测性三大支柱(Metrics/Tracing/Logging)
  • [ ] CLS核心概念(日志集/日志主题/分区/机器组)
  • [ ] LogListener工作原理(inotify/断点续传)

10. 容灾与性能优化

  • [ ] 灾备等级标准(1-6级)
  • [ ] RTO/RPO定义
  • [ ] 两地三中心架构
  • [ ] 全链路优化策略
  • [ ] 缓存三大痛点解决方案

11. 容器化改造

  • [ ] 改造六步法
  • [ ] Dockerfile优化技巧(多阶段构建)
  • [ ] K8s QoS等级(Guaranteed/Burstable/BestEffort)
  • [ ] 健康检查(Liveness/Readiness)

12. AI与大模型

  • [ ] AI大模型四要素
  • [ ] KV Cache显存计算
  • [ ] 星脉网络核心技术
  • [ ] qGPU算力共享
  • [ ] 国产化AI芯片对比

13. 安全体系

  • [ ] 等保2.0五步流程(定级/备案/建设/测评/检查)
  • [ ] 等保五级划分
  • [ ] 一个中心三重防护
  • [ ] 纵深防御三道防线(云防火墙/WAF/主机安全)
  • [ ] 数据安全治理五大支柱
  • [ ] 零信任三要素(可信身份/终端/应用)

14. 网络与边界安全

  • [ ] 云防火墙三种边界
  • [ ] DDoS防护产品矩阵
  • [ ] WAF部署模式(SaaS/CLB-WAF)
  • [ ] SSL/TLS握手流程
  • [ ] PKI体系核心组件

15. 计算环境安全

  • [ ] 主机安全四大环节(预防/保护/检测/响应)
  • [ ] 容器安全全生命周期(构建/分发/运行)
  • [ ] 堡垒机核心功能(认证/权限/审计)
  • [ ] 数据安全审计(DAS)
  • [ ] 数据安全治理中心(DSGC)

16. 云迁移

  • [ ] 迁移4P模型(Preparation/Planning/Process/Product Check)
  • [ ] 停服迁移vs平滑迁移
  • [ ] 割接方案设计
  • [ ] 云组件映射表
  • [ ] 主机迁移三种模式
  • [ ] DTS工作流程

17. 成本管理

  • [ ] 四大计费模式对比
  • [ ] 混合计费策略
  • [ ] 资源休眠
  • [ ] 存储降冷
  • [ ] 竞价实例最佳实践

高频考点口诀

云计算特征(8个)

超虚高高通弹按极 - 超大规模、虚拟化、高可靠、高可用、通用性、弹性扩展、按需服务、极其廉价

架构设计原则(6个)

合业弹性安成 - 合理部署、业务持续、弹性扩展、性能效率、安全合规、成本优化

等保五步流程

定备建测查 - 定级、备案、建设整改、等级测评、监督检查

可观测性三大支柱

指链日 - 指标(Metrics)、链路(Tracing)、日志(Logging)

Redis三大痛点

雪击穿 - 缓存雪崩、缓存击穿、缓存穿透

MQ三大价值

解削异 - 解耦、削峰填谷、异步处理

数据安全治理五大支柱

法组流技基 - 法律合规、组织保障、风险治理流程、风险治理技术、安全基础设施


实战场景题型

场景1:高可用架构设计

题目:某电商平台要求系统可用性99.95%,如何设计架构?

答案要点: 1. 多可用区部署(至少2个AZ) 2. CLB负载均衡+健康检查 3. AS弹性伸缩(最小2台) 4. 数据库主从+读写分离 5. Redis集群版+持久化 6. 定期备份+快照策略

场景2:性能优化

题目:某视频网站首页加载慢,如何优化?

答案要点: 1. CDN加速静态资源(图片/视频) 2. Redis缓存热点数据 3. 数据库读写分离 4. 图片懒加载+压缩 5. 开启HTTP/2 6. 使用对象存储COS

场景3:成本优化

题目:某企业云账单过高,如何降本?

答案要点: 1. 混合计费:基线包年包月+弹性按量 2. 竞价实例:离线计算任务 3. 资源休眠:测试环境定时开关机 4. 存储降冷:COS生命周期管理 5. 清理僵尸资源:未挂载云硬盘 6. 预留实例:长期稳定业务

场景4:安全合规

题目:某金融系统需要过等保三级,需要哪些安全产品?

答案要点: 1. 云防火墙(边界防护) 2. WAF(Web防护) 3. 主机安全CWP(漏洞/木马) 4. 堡垒机BH(运维审计) 5. 数据库审计DAS(SQL审计) 6. 云安全中心SSC(统一管理) 7. SSL证书(HTTPS加密)

场景5:云迁移

题目:某企业要将100台服务器从IDC迁移到腾讯云,如何规划?

答案要点: 1. 调研:使用MSP资源扫描工具 2. 网络:搭建专线/VPN 3. 数据库:DTS全量+增量同步 4. 主机:HyperMotion在线热迁移 5. 存储:COS Migration迁移文件 6. 割接:分批割接,每批演练 7. 验收:功能/性能/安全测试


考前冲刺检查清单

理论知识

  • [ ] 云计算定义与特征
  • [ ] 架构设计六大原则
  • [ ] 等保2.0标准
  • [ ] 信创体系

产品能力

  • [ ] CVM/AS/TKE核心功能
  • [ ] VPC/CLB/CDN工作原理
  • [ ] CBS/CFS/COS选型
  • [ ] CDB/TDSQL/TDSQL-C架构
  • [ ] Redis/TDMQ最佳实践
  • [ ] SCF/TSE/TEM/TSF区别

安全合规

  • [ ] 等保五步流程
  • [ ] 纵深防御体系
  • [ ] 数据安全治理
  • [ ] 零信任模型

实战能力

  • [ ] 高可用架构设计
  • [ ] 性能优化策略
  • [ ] 成本优化方案
  • [ ] 云迁移流程
  • [ ] 故障排查思路

祝您考试顺利!