大模型训练中的网络瓶颈分析

发布时间:2026/6/23 20:42:38
大模型训练中的网络瓶颈分析 网罗开发小红书、快手、视频号同名大家好我是展菲目前在上市企业从事人工智能项目研发管理工作平时热衷于分享各种编程领域的软硬技能知识以及前沿技术包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者《ESP32-C3 物联网工程开发实战》图书作者《SwiftUI 入门进阶与实战》超级个体COC上海社区主理人特约讲师大学讲师谷歌亚马逊分享嘉宾科技博主华为HDE/HDG我的博客内容涵盖广泛主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告同时也会提供产品优缺点分析、横向对比并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。展菲您的前沿技术领航员 大家好我是展菲 全网搜索“展菲”即可纵览我在各大平台的知识足迹。每周定时推送干货满满的技术长文从新兴框架的剖析到运维实战的复盘助您技术进阶之路畅通无阻。文章目录引言一、为什么单机时代没有网络问题二、为什么模型越大网络越重要三、AllReduce最大的通信杀手四、为什么 GPU 越多扩展效率越差五、PCIe最容易被忽略的瓶颈六、MoE 为什么更依赖网络七、Pipeline Parallel 最大的问题也是网络八、为什么 InfiniBand 成为 AI 集群标配九、为什么 NCCL 如此重要十、未来最大的瓶颈East-West Traffic十一、下一代训练系统正在消灭网络等待通信计算重叠OverlapGradient CompressionZeRO 参数Sequence ParallelExpert ParallelIn-network Computing总结引言过去两年大模型行业有一个非常有意思的现象。很多团队一开始优化的都是GPU CPU 显存 NVMe结果训练跑起来以后发现GPU 利用率只有 30%于是开始排查CUDA Kernel FlashAttention 混合精度折腾半天发现GPU 根本没在计算而是在等待。等待什么很多时候答案只有两个字网络越来越多团队发现大模型训练真正的瓶颈正在从单卡算力变成集群通信尤其当模型进入70B 671B 1T规模以后整个系统已经从Compute Bound慢慢变成Network Bound很多时候GPU 越多 训练反而越慢因此今天我们从 AI Infra 的角度聊聊一个容易被忽略但决定训练效率上限的问题为什么大模型训练越来越卡在网络一、为什么单机时代没有网络问题早期训练模型ResNet BERT GPT-2规模通常只有几亿参数单机 8 卡就能完成。架构GPU1 GPU2 GPU3 ... GPU8通过NVLink进行通信。特点距离短 带宽高 延迟低例如NVLink900GB/s远远高于100Gb Ethernet ≈12.5GB/s因此那时候计算 通信网络几乎不是问题。二、为什么模型越大网络越重要训练 GPT 类模型本质上是Forward ↓ Backward ↓ Gradient Sync其中Forward本地计算Backward本地计算而真正跨节点发生的是Gradient AllReduce例如70B 模型140GB 参数FP16一次同步梯度140GB如果1024 张 GPU每一步训练都需要数百 GB 的通信于是训练流程变成Compute ↓ Wait Network ↓ Compute ↓ Wait NetworkGPU 大量时间在等待。最终GPU 利用率下降三、AllReduce最大的通信杀手几乎所有分布式训练都会遇到AllReduce例如8 张卡GPU1 GPU2 ... GPU8每张卡都有Gradient训练结束后需要求和 平均 同步形成所有 GPU 参数一致过程如下Ring AllReduceGPU1 → GPU2 ↓ GPU3 ↓ GPU4 ... ↓ GPU1问题在于通信量约为2 × (N-1)/NGPU 数量越大通信时间越长于是出现一个反直觉现象增加 GPU 训练不加速甚至变慢因为Network Compute四、为什么 GPU 越多扩展效率越差理论上8卡 ↓ 16卡 ↓ 32卡速度应该线性提升现实往往是GPU数量理论加速实际加速88x7.8x6464x52x256256x160x10241024x500x原因在于计算复杂度几乎不变O(1)但通信复杂度不断增长。最终强扩展效率下降这也是为什么Scale-up比Scale-out更受欢迎大家更喜欢单机8卡 ↓ 单机16卡 ↓ 单机72卡而不是几百台服务器五、PCIe最容易被忽略的瓶颈很多人觉得网络瓶颈 IB 网络其实不一定服务器内部还有CPU PCIe GPU数据路径GPU ↓ PCIe ↓ CPU ↓ NIC ↓ 网络PCIe Gen464GB/s而 H100 算力1000TFLOPS因此很容易出现GPU等待PCIe形成PCIe Bound所以很多 AI 服务器大量采用NVSwitch绕过 CPU形成GPU ↔ GPU直接互联。六、MoE 为什么更依赖网络Dense Model每个 GPU 负责固定 Layer通信比较规律MoE 模型不同。例如128 个 ExpertToken 到来时Router ↓ Expert17 ↓ Expert82 ↓ Expert33Expert 分散在不同节点于是每一步都会发生All-to-All通信相比AllReduce更加恐怖因为数据随机 无法预测 无法连续网络压力瞬间增加。这也是为什么DeepSeek V3、Mixtral、Qwen-MoE 都极度依赖RDMA InfiniBand七、Pipeline Parallel 最大的问题也是网络PP将模型切成Stage1 ↓ Stage2 ↓ Stage3 ↓ Stage4每层部署到不同 GPUForwardActivation需要不断传递BackwardGradient又要反向传递于是形成Bubble现象。如果网络慢整个流水线停顿。表现为GPU0 100% GPU1 80% GPU7 30%利用率严重失衡。因此PP 的核心优化其实是减少通信等待八、为什么 InfiniBand 成为 AI 集群标配普通以太网TCP/IP路径GPU ↓ CPU ↓ Kernel ↓ NIC ↓ Network存在上下文切换 协议栈开销延迟较高。而 InfiniBand支持RDMA实现GPU Memory ↓ Remote GPU Memory直接访问绕过CPU Kernel延迟下降μs级带宽达到400Gb/s 800Gb/s因此现代 AI 集群几乎都在使用IB RDMA架构。九、为什么 NCCL 如此重要训练时真正执行通信的并不是 PyTorch。而是NCCL负责AllReduce AllGather ReduceScatter AllToAll它决定GPU 如何走网络例如自动选择Ring Tree Hierarchical算法还会根据NVLink PCIe IB动态调优。很多时候训练性能差 20%根本不是模型问题。而是NCCL 参数没调好例如NCCL_IB_HCA NCCL_SOCKET_IFNAME NCCL_P2P_LEVEL都会影响性能。十、未来最大的瓶颈East-West Traffic训练集群越来越大例如10000 GPU甚至100000 GPU此时网络流量不再是North-South而是East-West即GPU ↔ GPU节点 ↔ 节点大量横向流量。 特点高带宽、低延迟、持续传输因此未来 AI 数据中心竞争核心不再只是GPU 数量而是网络拓扑包括Fat Tree Dragonfly Clos NVLink Domain设计。十一、下一代训练系统正在消灭网络等待目前行业最热门方向包括通信计算重叠Overlap把Backward和AllReduce同时执行实现Hide CommunicationGradient CompressionFP16↓FP8↓INT8减少传输量。ZeRO 参数Shard减少同步数据。Sequence Parallel减少 Activation 传输。Expert Parallel局部通信。In-network Computing利用交换机完成Reduce操作例如NVIDIA SHARP进一步降低延迟。总结如果用一句话总结大模型训练中的网络瓶颈模型越来越大但光速没有变。从工程角度来看训练网络瓶颈主要来自AllReduce AllToAll Pipeline Activation PCIe RDMA NCCL East-West Traffic过去限制 AI 的是算力不足现在限制 AI 的越来越是通信效率未来大模型训练竞争的核心很可能不再是谁 GPU 更多而是谁能让上万张 GPU 像一张 GPU 一样高效协同。因为在万卡时代真正昂贵的已经不是 FLOPS。而是等待。