3.4 AI 和大模型¶
课程简介¶
人工智能(AI)正以前所未有的速度重塑各行各业。特别是大语言模型(LLM)的出现,对算力、网络、存储及应用架构提出了全新的挑战。本课程将从 AI 大模型的基础概念出发,深入剖析其训练与推理过程中的技术瓶颈(如显存墙、通信开销),并详细介绍腾讯云在高性能计算、网络加速及 AI 视频创作领域的全栈解决方案。
学习目标¶
通过本课程的学习,您将能够:
- ✓ 理解大模型要素:掌握算力、算法、数据三大基石,理解 LLM 的“涌现”能力。
- ✓ 分析技术瓶颈:深入理解 LLM 推理的 KV Cache 显存占用问题及训练阶段的网络通信挑战。
- ✓ 熟悉硬件选型:了解国产化(昇腾、紫霄)及海外(Gaudi 2、L20)AI 芯片的性能与适用场景。
- ✓ 掌握腾讯云方案:熟练运用星脉网络、qGPU、TI-ACC (TACO Kit) 等产品加速 AI 落地。
- ✓ 应用 AIGC 工具:了解视频生成、视频翻译、人脸融合等 AIGC 产品的商业价值。
第一部分:AI 大模型基础与挑战¶
本部分导读
大模型不是简单的“大”,而是量变引起质变。我们需要先理解其背后的技术原理与资源需求。
一、AI 大模型的核心四要素¶
- 人工智能 (AI):模拟人类智能的计算机技术,涵盖机器学习 (ML)、自然语言处理 (NLP)、计算机视觉 (CV)。
- 海量数据 (Data):模型的“燃料”。数据量越大、质量越高,模型学习到的规律越丰富(如 Common Crawl, Wikipedia)。
- 深度学习算法 (Algorithm):模型的“引擎”。通过多层神经网络(Transformer 架构)提取特征。
- 超强算力 (Compute):模型的“底座”。依赖高性能 GPU/TPU 集群进行大规模并行计算。
趋势分析: - 参数规模爆炸:从 GPT-3 (175B) 到 PaLM (540B),参数量呈指数级增长。 - 算力门槛增高:训练资源集中在头部企业(OpenAI, Google, 腾讯)。 - 开源与共享:Llama 2, Mistral, 腾讯混元等模型的开源降低了应用门槛。
二、LLM 推理的技术瓶颈¶
2.1 显存墙与 KV Cache¶
LLM 推理是串行生成的过程(Token by Token)。每生成一个新 Token,都需要将前面的所有 Token 重新计算一遍 Attention。为了加速,我们缓存了 Key 和 Value 矩阵,称为 KV Cache。
KV Cache 显存计算公式: $$ \text{KV Cache Size} = 2 \times \text{Layers} \times \text{Hidden Size} \times \text{Seq Length} \times \text{Batch Size} \times \text{Bytes per Element} $$
案例数据: 当 Batch Size = 64,Seq Length = 2048 时,KV Cache 可能占用高达 120GB 显存。 - 挑战:显存容量决定了并发量(Batch Size)和上下文长度(Seq Length)。 - 解决:需要更高显存带宽(HBM)的 GPU,以及 PagedAttention 等优化技术。
三、大规模训练的网络挑战¶
3.1 网络通信开销¶
在千卡/万卡集群训练中,GPU 需要频繁同步梯度参数(All-Reduce)。 - 木桶效应:任何一个链路的拥塞或丢包,都会导致整个集群等待。 - 丢包敏感:0.1% 的丢包率可能导致 50% 的算力损失(RoCEv2 协议特性)。 - 故障代价:网络中断导致训练失败,Checkpoint 重启可能浪费数小时。
3.2 传统 DCN 的局限¶
传统数据中心网络(DCN)通常基于 TCP/IP,存在带宽瓶颈(100G)和高延迟,无法满足 AI 训练对 高吞吐、零丢包、低延迟 的需求。
第二部分:AI 算力硬件选型指南¶
本部分导读
在全球“缺芯”背景下,如何选择合适的 AI 加速卡?这里对比了国产化替代与海外高性价比方案。
一、国产化替代方案¶
| 芯片型号 | 腾讯紫霄 V1 (Tencent Maize) | 华为昇腾 910B (Ascend) |
|---|---|---|
| 定位 | AI 推理专用 | AI 训练与推理 |
| 配置 | 视频处理优化,高密度推理 | 32GB/64GB HBM,高算力 |
| 对标 | NVIDIA A10 / L4 | NVIDIA A800 / A100 |
| 适用场景 | 7B 以下大模型推理、CV、OCR、ASR | 千亿参数大模型预训练、微调 |
| 优势 | 腾讯自研,针对视频编解码深度优化 | 国产最强算力,生态逐步完善 |
二、海外高性价比方案¶
| 芯片型号 | Intel Gaudi 2 | NVIDIA L20 |
|---|---|---|
| 定位 | 高性价比训练/推理 | 入门级推理/图形渲染 |
| 显存 | 96GB HBM2e (大显存优势) | 48GB GDDR6 |
| 对标 | NVIDIA A100 (性能接近,价格更优) | NVIDIA A10 / L40 |
| 适用场景 | 大模型训练、微调、高并发推理 | AIGC 绘图、云游戏、轻量级推理 |
| 性价比 | BF16 精度下性能优异,适合长文本推理 | 适合图形渲染与 AI 推理混合负载 |
第三部分:腾讯云 AI 基础设施解决方案¶
本部分导读
腾讯云通过“星脉网络”和“qGPU”等黑科技,解决了 AI 落地中的网络瓶颈和资源浪费问题。
一、星脉高性能网络 (Hyper-Performance Network)¶
专为 AI 大模型训练设计的网络架构,解决“算力损耗”痛点。
1.1 核心技术¶
- 自研协议 (TiTa):配合 GOR 控制器,实现微秒级拥塞控制,保障 90% 负载下零丢包。
- TCCL 通信库:拓扑感知流量调度,优化集合通信(All-Reduce),将通信效率提升至 90% 以上。
- 多轨道架构 (Multi-Rail):单机多网卡直连交换机,构建无阻塞的超高带宽网络(3.2Tbps)。
- 光运维 (GOM):1 分钟发现故障,3 分钟定位,5 分钟自愈,保障训练不中断。
二、qGPU 算力共享技术¶
解决 GPU “贵且利用率低” 的痛点,实现 GPU 的细粒度切分。
2.1 核心能力¶
- 资源隔离:支持显存(MB级)和算力(1%粒度)的强隔离,互不干扰。
- 灵活切分:一张物理卡(如 A100)可切分给多个容器(Pod)使用。
- 异构混部:支持在线推理(高优)与离线训练(低优)任务混部,压榨 GPU 利用率。
价值:TCO(总体拥有成本)降低 50% 以上,GPU 利用率提升 100%。
三、TI-ACC (TACO Kit) 加速套件¶
腾讯云自研的 AI 推理与训练加速库。
- TACO Train:训练加速。优化计算图、显存管理和通信协议,训练速度提升 20%-100%。
- TACO Infer:推理加速。
- FlashAttention:优化 Attention 计算,显存占用降低。
- SmoothQuant:模型量化(Int8/Int4),在几乎不损精度的前提下提升推理速度 2-3 倍。
- Continuous Batching:动态批处理,极大提升吞吐量。
第四部分:AIGC 应用与商业化¶
本部分导读
技术最终要服务于业务。腾讯云提供了基于大模型的视频创作引擎,赋能内容生产。
一、大模型视频创作引擎¶
基于腾讯混元大模型及 AI Lab 能力,提供三大核心功能:
1.1 视频生成 (Text-to-Video)¶
- 技术:图片局部动态化、画面扩展。
- 场景:将静态的山水画转为动态视频,或将电商商品图生成展示视频。
1.2 视频翻译 (Video Translation)¶
- 技术:语音识别(ASR) -> 机器翻译(MT) -> 语音合成(TTS) -> 口型同步(Lip Sync)。
- 场景:
- 出海电商:将中文带货视频自动翻译成英语、西班牙语,且口型对得上。
- 教育培训:国外课程引进,自动生成中文配音。
1.3 人脸融合 (Face Swap)¶
- 2C 娱乐:用户上传照片,生成古装影视片段(如《梦华录》换脸)。
- 2B 营销:品牌方使用虚拟模特替换真人模特,降低拍摄成本。
课程总结¶
知识体系回顾¶
本课程构建了从底层硬件到上层应用的 AI 知识图谱:
AI 与大模型
├── 基础设施层 (IaaS)
│ ├── 计算:GPU (昇腾/紫霄/NVIDIA), qGPU 共享
│ └── 网络:星脉网络 (3.2T, 零丢包)
├── 平台层 (PaaS)
│ ├── 训练加速:TACO Train, HCCL
│ └── 推理加速:TACO Infer (量化, Batching)
└── 应用层 (SaaS)
├── 视频生成
├── 视频翻译
└── 人脸融合
架构师实践清单 (Checklist)¶
- [ ] 算力选型:推理任务是否考虑了国产卡(紫霄/昇腾)以降低成本?
- [ ] 网络规划:千卡训练集群是否部署了星脉网络或 RDMA 网络?
- [ ] 资源利用:开发/测试环境的 GPU 是否启用了 qGPU 切分?
- [ ] 推理优化:大模型部署是否使用了 KV Cache 优化和 Int8 量化?
本章课程到此结束。下一章,我们将进入 第四章:云安全,探讨如何在云上构建固若金汤的安全防线。