通信世界网消息(CWW)为应对大模型推理的海量算力需求,整合多智算中心资源实现分布式Prefill-Decode Separation(PD分离推理),成为突破单智算中心算力瓶颈的关键路径。但智算中心建设初期的协同规划缺失导致拓扑、硬件、协议等异构问题明显,制约了技术的有效普及。本文阐述了异构智算中心的形成背景与PD分离推理的技术优势,剖析了异构智算中心分布式PD分离推理技术面临的海量KV Cache(键值存储缓存)传输、跨中心资源调度与负载均衡、异构适配三大核心挑战,并梳理国内外在解决上述核心挑战方面的探索成果。此外,本文介绍了中国电信在该方面的探索与实践,展示了中国电信在OTN广域互联场景下,异构智算中心分布式PD分离推理的业务试验。通过分析该试验的性能结果,证明该技术可有效“盘活”存量算力,为大模型分布式推理的规模化部署提供技术参考与实践范式。
分布式PD分离推理技术的现实意义
近年来,人工智能大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而,大模型推理任务对算力的需求极为庞大,单个智算中心难以满足日益增长的业务需求。为应对这一挑战,分布式推理架构结合PD分离技术,将大模型推理任务的P阶段(Prefill)和D阶段(Decode)有效分离,成为高效推理的主流解决方案。
在大模型推理中,P阶段属于计算密集型,D阶段属于访 存密集型,两者分别依赖GPU的计算核心与显存的带宽。当两阶段共用GPU服务器时,容易造成资源不适配,导致算力浪费;而PD分离可通过阶段专属优化,避免两阶段算力资源抢占,提升资源利用率,保障推理延迟的稳定性。
在大模型实际部署中,由于智算中心在建设时未充分考虑各中心间的协同规划,导致拓扑结构、传输协议、GPU硬件及集合通信库等多个方面异构显著。因此,异构智算中心分布式PD分离推理的技术探索极具现实意义。
分布式PD分离推理的技术挑战
分布式PD分离推理的固有挑战
一是海量KV Cache传输挑战。在分布式PD分离推理中,P阶段和D阶段分布在不同智算中心,要求KV Cache在不同物理节点间传输。此外,单推理请求KV Cache数据量较大,且推理任务请求常在智算中心中并行处理,这进一步加剧智算中心间链路带宽、时延以及可靠性压力。网络性能不足将严重影响推理体验,甚至抵消PD分离带来的效率收益。
二是资源池调度与负载均衡挑战。大模型分布式PD分离推理常配置任务调度器,在多个可选智算中心间选择最合适的资源池,同时承担负载监控、任务时长预测、KV Cache协同传输等任务,以实现全局最优资源分配。该需求导致调度器设计复杂度极高,优化性能与智能性面临巨大挑战。此外,多模型并发部署易引发智算中心资源竞争,导致部分智算中心资源紧张,出现过载;另一部分智算中心资源闲置,形成“孤岛”,导致整个网络资源利用率下降。因此,实时监测资源状态与流量变化并动态调整,成为维持系统性能的关键所在。
异构智算中心的衍生挑战 一是硬件与集合通信库适配挑战。异构智算中心常部署不同设备,引入差异化硬件架构、指令集与集合通信库,导致数据格式不兼容,跨智算中心任务通信效率低下甚至中断。例如,英伟达与昇腾GPU的集合通信库完全不同,在一般情况下无法通信。
二是协议转换挑战。RoCE(基于融合以太网的远程直接内存访问)、IB(无限带宽)等主流协议,与GSE(全调度以太网)、UEC(超以太网联盟)等新型协议在技术原理和设计目标上均存在差异,使得跨协议转换存在技术壁垒,异构智算中心难以高效协同。
业界探索
海量KVCache传输优化
海量KV Cache传输的核心难点在于平衡传输效率与数据可靠性,该挑战可从硬件协议、软件编码和网络策略三个方面进行优化。在硬件协议方面,业界常采用IB/RoCE协议通过RDMA(远程直接内存访问)技术直接从内存抓取或存储数据,无需CPU参与,减少硬件接口交互,进而降低传输延迟。从软件编码方面入手,提出算法压缩KV Cache体积技术,以减少传输数据量。在网络策略方面,通过优化广域网络路由策略,利用多路径传输KV Cache数据。
算力资源调度与负载均衡优化
算力资源调度与负载均衡优化需要构建全局感知的智能调度系统,融合状态监控、预测算法与协同策略等不同模块。业界学者设计了两级分层数据中心调度程序Qin,将集群级与节点级调度算法整合,构建统一调度目标,缩短任务完成时间;还有学者提出升级后的调度程序Qin2,引入自动特征选择技术,精确预测任务负载,优化负载平衡效果;业界学者利用深度强化学习动态调整算力资源分布,实现算力资源高利用率与低损失率。
异构硬件与协议适配优化
异构硬件与协议适配优化须突破硬件兼容性与协议互通性瓶颈,关键技术包括统一通信接口与柔性协议转换。由于英伟达的硬件产品占据国际市场主导地位,业界并未过多关注该方向影响,导致相关研究较少。而国内因近年国产GPU崛起并快速占据市场,异构硬件协同需求强烈,但相关研究依然处于初期阶段。不过,“2024世界人工智能大会”“2024数字科技生态大会”上亮相的异构芯片混训方案,标志着该领域研究逐步深入。
中国电信对异构智算中心分布式PD分离推理的探索
2025年7月,中国电信开展异构智算中心PD分离推理拉远验证组网,选取英伟达、沐曦两家厂家GPU,基于DeepSeek-R1蒸馏模型验证异构远距离协同推理的可行性。该试验不断调整输入、输出序列的长度、并发速率等参数,获取TTFT、TPOT、Throughput等性能指标,寻找不同推理任务的最优推理状态。同时,该试验将OTN拉远距离从200km延伸至800km,并使用损伤仪造成丢包引发RDMA 重传,以此模拟真实网络环境。在该环境中,试验通过将出口带宽收敛比逐步扩大至64:1,配合ECN/PFC(网络拥塞管理)流控机制,进行长距离、低链路带宽的异构智算中心PD 分离推理极限性能探索。
经过推理参数和网络参数的不断调整与组合,在OTN 广域互联情况下,试验得到了异构GPU间PD分离推理性能的变化规律,为今后现网部署提供了可靠的数据支撑。此外,试验结果也表明,异构智算中心PD分离推理方案可行,在无损网络低延迟、高吞吐的环境下,可保证带宽收敛比64:1、万米级长距传输性能均达到本地同推理场景的99%,充分满足推理服务的性能要求。而随着进一步网络质量下降、拉远距离增大、收敛带宽增加,性能指标下降可控制在1%~5%。该结论可在一定程度证明,在保障推理性能的前提下,异构智算中心分布式PD分离推理方案可实现异构存量算力的“盘活”。
结语
异构智算中心分布式PD分离推理作为一种新兴技术,为 解决大模型推理面临的算力挑战提供了新思路。尽管在实践过程中面临着KV Cache传输、算力资源调度与负载均衡、异构适配等诸多挑战,但国内外均已进行了一定的研究和探索。中国电信的试验验证为业界提供了宝贵的经验,证明了该技术的可行性,可满足推理服务的资源与性能要求,实现现网异构存量算力的盘活。未来,随着技术的不断进步和创新,以及硬件标准化、协议统一化及算法智能化的升级,异构智算中心分布式PD分离推理技术有望在更多领域得到应用,为人工智能的发展提供更强大的支持。