跳转至

3.4 AI 和大模型

课程简介

人工智能(AI)正以前所未有的速度重塑各行各业。特别是大语言模型(LLM)的出现,对算力、网络、存储及应用架构提出了全新的挑战。本课程将从 AI 大模型的基础概念出发,深入剖析其训练与推理过程中的技术瓶颈(如显存墙、通信开销),并详细介绍腾讯云在高性能计算、网络加速及 AI 视频创作领域的全栈解决方案。

学习目标

通过本课程的学习,您将能够:

  • 理解大模型要素:掌握算力、算法、数据三大基石,理解 LLM 的“涌现”能力。
  • 分析技术瓶颈:深入理解 LLM 推理的 KV Cache 显存占用问题及训练阶段的网络通信挑战。
  • 熟悉硬件选型:了解国产化(昇腾、紫霄)及海外(Gaudi 2、L20)AI 芯片的性能与适用场景。
  • 掌握腾讯云方案:熟练运用星脉网络、qGPU、TI-ACC (TACO Kit) 等产品加速 AI 落地。
  • 应用 AIGC 工具:了解视频生成、视频翻译、人脸融合等 AIGC 产品的商业价值。

第一部分:AI 大模型基础与挑战

本部分导读
大模型不是简单的“大”,而是量变引起质变。我们需要先理解其背后的技术原理与资源需求。

一、AI 大模型的核心四要素

  1. 人工智能 (AI):模拟人类智能的计算机技术,涵盖机器学习 (ML)、自然语言处理 (NLP)、计算机视觉 (CV)。
  2. 海量数据 (Data):模型的“燃料”。数据量越大、质量越高,模型学习到的规律越丰富(如 Common Crawl, Wikipedia)。
  3. 深度学习算法 (Algorithm):模型的“引擎”。通过多层神经网络(Transformer 架构)提取特征。
  4. 超强算力 (Compute):模型的“底座”。依赖高性能 GPU/TPU 集群进行大规模并行计算。

趋势分析: - 参数规模爆炸:从 GPT-3 (175B) 到 PaLM (540B),参数量呈指数级增长。 - 算力门槛增高:训练资源集中在头部企业(OpenAI, Google, 腾讯)。 - 开源与共享:Llama 2, Mistral, 腾讯混元等模型的开源降低了应用门槛。

二、LLM 推理的技术瓶颈

2.1 显存墙与 KV Cache

LLM 推理是串行生成的过程(Token by Token)。每生成一个新 Token,都需要将前面的所有 Token 重新计算一遍 Attention。为了加速,我们缓存了 Key 和 Value 矩阵,称为 KV Cache

KV Cache 显存计算公式: $$ \text{KV Cache Size} = 2 \times \text{Layers} \times \text{Hidden Size} \times \text{Seq Length} \times \text{Batch Size} \times \text{Bytes per Element} $$

案例数据: 当 Batch Size = 64,Seq Length = 2048 时,KV Cache 可能占用高达 120GB 显存。 - 挑战:显存容量决定了并发量(Batch Size)和上下文长度(Seq Length)。 - 解决:需要更高显存带宽(HBM)的 GPU,以及 PagedAttention 等优化技术。

三、大规模训练的网络挑战

3.1 网络通信开销

在千卡/万卡集群训练中,GPU 需要频繁同步梯度参数(All-Reduce)。 - 木桶效应:任何一个链路的拥塞或丢包,都会导致整个集群等待。 - 丢包敏感0.1% 的丢包率可能导致 50% 的算力损失(RoCEv2 协议特性)。 - 故障代价:网络中断导致训练失败,Checkpoint 重启可能浪费数小时。

3.2 传统 DCN 的局限

传统数据中心网络(DCN)通常基于 TCP/IP,存在带宽瓶颈(100G)和高延迟,无法满足 AI 训练对 高吞吐、零丢包、低延迟 的需求。


第二部分:AI 算力硬件选型指南

本部分导读
在全球“缺芯”背景下,如何选择合适的 AI 加速卡?这里对比了国产化替代与海外高性价比方案。

一、国产化替代方案

芯片型号 腾讯紫霄 V1 (Tencent Maize) 华为昇腾 910B (Ascend)
定位 AI 推理专用 AI 训练与推理
配置 视频处理优化,高密度推理 32GB/64GB HBM,高算力
对标 NVIDIA A10 / L4 NVIDIA A800 / A100
适用场景 7B 以下大模型推理、CV、OCR、ASR 千亿参数大模型预训练、微调
优势 腾讯自研,针对视频编解码深度优化 国产最强算力,生态逐步完善

二、海外高性价比方案

芯片型号 Intel Gaudi 2 NVIDIA L20
定位 高性价比训练/推理 入门级推理/图形渲染
显存 96GB HBM2e (大显存优势) 48GB GDDR6
对标 NVIDIA A100 (性能接近,价格更优) NVIDIA A10 / L40
适用场景 大模型训练、微调、高并发推理 AIGC 绘图、云游戏、轻量级推理
性价比 BF16 精度下性能优异,适合长文本推理 适合图形渲染与 AI 推理混合负载

第三部分:腾讯云 AI 基础设施解决方案

本部分导读
腾讯云通过“星脉网络”和“qGPU”等黑科技,解决了 AI 落地中的网络瓶颈和资源浪费问题。

一、星脉高性能网络 (Hyper-Performance Network)

专为 AI 大模型训练设计的网络架构,解决“算力损耗”痛点。

1.1 核心技术

  1. 自研协议 (TiTa):配合 GOR 控制器,实现微秒级拥塞控制,保障 90% 负载下零丢包
  2. TCCL 通信库:拓扑感知流量调度,优化集合通信(All-Reduce),将通信效率提升至 90% 以上。
  3. 多轨道架构 (Multi-Rail):单机多网卡直连交换机,构建无阻塞的超高带宽网络(3.2Tbps)。
  4. 光运维 (GOM):1 分钟发现故障,3 分钟定位,5 分钟自愈,保障训练不中断。

二、qGPU 算力共享技术

解决 GPU “贵且利用率低” 的痛点,实现 GPU 的细粒度切分

2.1 核心能力

  • 资源隔离:支持显存(MB级)和算力(1%粒度)的强隔离,互不干扰。
  • 灵活切分:一张物理卡(如 A100)可切分给多个容器(Pod)使用。
  • 异构混部:支持在线推理(高优)与离线训练(低优)任务混部,压榨 GPU 利用率。

价值:TCO(总体拥有成本)降低 50% 以上,GPU 利用率提升 100%。

三、TI-ACC (TACO Kit) 加速套件

腾讯云自研的 AI 推理与训练加速库。

  • TACO Train:训练加速。优化计算图、显存管理和通信协议,训练速度提升 20%-100%。
  • TACO Infer:推理加速。
    • FlashAttention:优化 Attention 计算,显存占用降低。
    • SmoothQuant:模型量化(Int8/Int4),在几乎不损精度的前提下提升推理速度 2-3 倍。
    • Continuous Batching:动态批处理,极大提升吞吐量。

第四部分:AIGC 应用与商业化

本部分导读
技术最终要服务于业务。腾讯云提供了基于大模型的视频创作引擎,赋能内容生产。

一、大模型视频创作引擎

基于腾讯混元大模型及 AI Lab 能力,提供三大核心功能:

1.1 视频生成 (Text-to-Video)

  • 技术:图片局部动态化、画面扩展。
  • 场景:将静态的山水画转为动态视频,或将电商商品图生成展示视频。

1.2 视频翻译 (Video Translation)

  • 技术:语音识别(ASR) -> 机器翻译(MT) -> 语音合成(TTS) -> 口型同步(Lip Sync)。
  • 场景
    • 出海电商:将中文带货视频自动翻译成英语、西班牙语,且口型对得上。
    • 教育培训:国外课程引进,自动生成中文配音。

1.3 人脸融合 (Face Swap)

  • 2C 娱乐:用户上传照片,生成古装影视片段(如《梦华录》换脸)。
  • 2B 营销:品牌方使用虚拟模特替换真人模特,降低拍摄成本。

课程总结

知识体系回顾

本课程构建了从底层硬件到上层应用的 AI 知识图谱:

AI 与大模型
├── 基础设施层 (IaaS)
│   ├── 计算:GPU (昇腾/紫霄/NVIDIA), qGPU 共享
│   └── 网络:星脉网络 (3.2T, 零丢包)
├── 平台层 (PaaS)
│   ├── 训练加速:TACO Train, HCCL
│   └── 推理加速:TACO Infer (量化, Batching)
└── 应用层 (SaaS)
    ├── 视频生成
    ├── 视频翻译
    └── 人脸融合

架构师实践清单 (Checklist)

  • [ ] 算力选型:推理任务是否考虑了国产卡(紫霄/昇腾)以降低成本?
  • [ ] 网络规划:千卡训练集群是否部署了星脉网络或 RDMA 网络?
  • [ ] 资源利用:开发/测试环境的 GPU 是否启用了 qGPU 切分?
  • [ ] 推理优化:大模型部署是否使用了 KV Cache 优化和 Int8 量化?

本章课程到此结束。下一章,我们将进入 第四章:云安全,探讨如何在云上构建固若金汤的安全防线。