通信世界网消息(CWW)近年来,人工智能技术浪潮席卷全球,成为推动经济社会数字化转型的核心驱动力和提升国家竞争力的关键引擎。AI的发展离不开强大的智算资源支撑。随着大模型的崛起,智算能力的充分释放不再依赖于单点算力的突破,更需要多个算力节点间的高效协同,我国“东数西算”工程旨在通过高速网络实现算力互联和资源协同。AI时代的网络不仅是提供连通性的“信息管道”,还是连接分布式算力的“神经网络”,并成为决定智算业务效能的关键基础设施。
我国高度重视面向AI的网络基础设施建设和智算技术发展。《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》明确指出,要“推进信息通信网络、全国一体化算力网、重大科技基础设施等建设和集约高效利用,推进传统基础设施更新和数智化改造。”工业和信息化部在相关文件中也明确指出,“逐步形成具备智能感知、实时发现、随需获取的算力互联网。”
AI时代,数据规模的量级跃迁和数据安全的高标准要求,催生了存算分离、训推协同等多种新型AI业务模式。多样化的智算服务需求对广域网络提出了更严苛的要求,如极高的吞吐量和可靠性,无阻塞、超低时延的确定性体验,灵活弹性、智能调度能力等。传统基于“尽力而为”模式的广域承载网络,难以支撑未来高效、安全、普惠的智算业务。在此背景下,亟须打造新一代广域承载网。面向AI的广域承载网将通过AI与网络的深度融合,构建精准感知、高效协同、广域无损和内生安全等四大核心能力,为AI发展和产业智能化升级夯实基础。为满足不断涌现的智算业务新需求,业界还应持续探索网络演进的可行路径,重点突破多维资源感知、一体化调度、数据无损承载、隐私数据安全传输等技术瓶颈,确保智算效能得以充分释放,赋能AI高质量发展。
智算业务需求
智算业务以海量数据为输入,依托高效智能的计算能力,通过模型训练与推理服务,为各行业提供智能化解决方案。整个流程涵盖数据入算、模型训练(包括预训练和后训练)、模型下发和推理应用四个关键环节,不同环节及其细分场景对网络能力提出了差异化要求。
数据入算
数据入算是指将分散在各业务系统或终端的原始数据集中上传至智算中心,为后续模型训练和推理构建统一的数据基础。例如,大型制造企业需要将各地工厂的设备传感数据、生产日志和质检记录汇聚至集团工业智算中心;医疗、金融、教育等领域也普遍存在将本地业务数据集中入算以支撑智能分析的需求。该过程通常涉及TB甚至PB级的大规模数据迁移,传输的数据主要为原始训练数据。
模型训练
模型训练是利用海量数据驱动算法不断优化模型的参数,使模型能够从数据中学习规律并具备特定任务的智能处理能力。根据数据分布、算力布局和安全要求的不同,训练过程可采用多种部署模式。
一是单点训练。单点训练指在单一数据中心内完成全部训练任务,可分为以下两类:一类是企业使用本地数据中心进行训练,数据不出域,对广域网依赖程度低;另一类是将数据上传至公有云或智算中心的单个节点进行训练,这需要将原始训练数据完整上传至云端。
二是跨数据中心协同训练。跨数据中心协同训练主要面向预训练阶段,由多个地理分散的数据中心联合参与同一模型的训练,适用于超大规模模型开发或碎片化算力资源整合出租等场景。当单个数据中心算力不足时,可通过多数据中心协同实现算力池化,从而提升整体训练效率。在此过程中,各节点间主要传输训练过程的中间向量或参数等。
三是边云协同训练。边云协同训练主要面向模型后训练和微调阶段,用户可按需租用云端高性能AI算力,无需投入巨资自建训练基础设施,显著降低使用成本。边云协同模式不仅可为用户提供灵活的算力扩展,还可基于存算分离或模型分割等技术方案,实现用户训练数据不出域,即用户的原始数据保留在本地私有环境中,仅将计算任务远程调度至云端AI算力中心执行,适用于医疗、金融等强监管行业。在此过程中,传输的数据为训练过程的中间向量或参数等。
模型下发
模型下发是指将完成训练的大模型从智算中心分发至边缘推理节点、企业私有数据中心或终端设备,使其进入实际服务阶段。此阶段传输的是完整的模型,随着模型参数量不断增长(如百亿、千亿级),下发过程面临海量数据高效传输的挑战。
推理应用
推理应用是指将已完成训练的模型部署到实际业务环境中,对新输入的数据进行实时分析并输出预测或决策结果。依据计算资源的位置与协同方式,推理可分为以下两类典型模式。
一是单点推理。单点推理指所有推理请求统一发送至云端或中心化服务器进行处理,适用于计算密集型且对结果精度要求高的任务,如大语言模型对话、高分辨率图像识别等。在此模式下,终端需要将原始输入数据上传至云端。
二是边云协同推理。边云协同推理是将推理任务按模型结构或业务需求动态拆分,在边缘节点与云端协同完成,广泛应用于自动驾驶、工业物联网、智能安防等场景。目前业界存在模型分割、大小模型协同、PD分离等多种边云协同推理的技术方案,不同模式下传输的数据类型各异,包括中间向量、预处理结果、KV Cache等。其中,模型分割方案将模型进行层级拆分,可将原始数据保留在本地,仅向云端上传必要中间信息,既降低了对中心算力的依赖度和使用成本,又有效保障了数据隐私与安全。
网络挑战
基于智算业务各环节的数据流向与部署模式,网络需要应对以下四类关键挑战。
一是任务多样化。从大模型训练到推理服务,不同任务对时延、带宽和算力的需求差异显著;而算力资源广泛分布于中心云、区域节点、边缘设备及用户私有环境,网络需要准确识别业务意图与资源分布,实现动态适配。
二是算网性协同不足。在协同训练和推理场景中,计算任务常需在云、边、端多级资源间流转,但当前网络与算力调度系统相互独立,缺乏统一视图与协同机制,难以按照任务需求自动匹配最优的算网资源。
三是传输质量要求高。数据入算上传原始业务数据、模型向下分发完整模型、跨数据中心训练同步中间向量或参数等过程,一方面涉及TB/PB级海量数据传输,另一方面要求极致的网络吞吐率。传统广域网在高并发或突发流量下易发生拥塞与丢包,严重影响训练效率与服务时效。
四是敏感数据传输。医疗、金融、制造等行业在进行模型微调或推理时,涉及敏感数据传输,需要保障数据传输的安全性,防止泄露与篡改。
智算承载网关键技术
精准感知
智算业务覆盖制造、医疗、金融、交通等多个行业,应用场景多样化,任务类型复杂,且计算需求在任务运行过程中呈现动态变化。为实现差异化服务质量保障,网络须具备对业务、算力与网络状态的全面感知能力。目前,业界围绕这一目标,已在三个维度形成关键技术路径。
在应用感知方面,应用感知网络、服务感知网络等方案利用IPv6扩展头嵌入业务标识与SLA参数(如时延、带宽等),使网络具备识别应用意图的能力。应用感知在部署上分为两类:网络侧方案由边缘设备标记流量,部署简单但粒度较粗;应用侧方案由终端或云侧主动注入需求信息,感知更精准,但依赖端侧生态支持。
在网络感知方面,传统测量手段难以满足实时性要求,随流检测、带内操作管理与维护等测量技术成为主流。它们通过在真实业务流中嵌入监测字段,实现对时延、丢包、抖动等指标的实时监测,并可与Telemetry、SDN技术协同,实现动态调优与智能运维。
在算力感知方面,IETF CATS工作组正推动算力度量与分发的标准化工作。其研究聚焦定义统一的算力属性(如类型、容量、负载、能效等),并探索通过扩展BGP、PCEP或SRv6等协议,将算力状态高效分发至网络控制或数据平面,以支持算力感知路由。
应用、网络、算力感知融合一体实现方案如图1所示,该方案基于APN技术实现不同应用需求的标识与感知,基于IFIT实现端到端网络性能与状态感知,基于BGP-LS/BGP-FS协议扩展实现算力状态感知。
图1 应用、网络、算力感知融合一体实现方案
一体调度
面对跨数据中心训练、边云协同推理等典型场景,单一维度的资源调度难以满足端到端服务质量要求。当前,业界围绕“算网协同”与“跨层联动”两个维度,逐步形成以下两条关键技术路径。
算网一体调度旨在结合应用需求,综合评估当前网络状态与算力状态,实现计算任务与网络路径的协同优化。目前调度模式主要有集中式、分布式和混合式。集中式调度依托中心控制,基于全局视图制定资源分配与任务调度策略,有利于端到端优化和资源利用率最大化,但集中决策响应较慢。分布式调度由网络设备基于本地感知的业务需求、邻近算力负载及链路质量自主决策,并通过协商机制协同完成全局任务,具备低时延优势,尤其适合自动驾驶、工业控制等实时性敏感场景,但难以保证全局最优。混合式调度则是上述两种方式的有效协同,基于不同业务需求与场景选择集中全局调度或分布快速调度,具备灵活按需的优势。
IP与光网络协同调度则聚焦大带宽、低时延场景。在管控层,通过IP控制器与光网络编排系统联动,实现跨层资源联合优化;在设备层,彩光直驱、路由光网络、融合式光学路由架构等技术推动路由器与光传输设备融合,减少中间转换环节,该方向在城域网和数据中心互联场景已初步应用,长距传输仍面临信号衰减需要中继补偿与跨层管控复杂等挑战。
无损传输
随着协同训练、分布式推理等新型人工智能技术的不断涌现,不同数据中心通过RDMA(远程直接存储器访问)进行数据通信已成为一项普遍需求。鉴于RDMA技术对数据包丢失的高度敏感性,基于PFC(优先级的流量控制)技术在数据中心内的RoCE v2(基于以太网实现远程直接内存访问)网络得到了广泛部署。相比于TCP,RDMA能提供更大的单流通信带宽。然而,RDMA不具有滑动窗口、确认应答等机制,其可靠性依赖于底层网络的无损特性和硬件保障机制。RDMA吞吐对丢包十分敏感,丢包率必须保证在10-5以下,需要广域网络提供无损传输的能力。
广域精准流控技术。SPFC(基于用户优先级的流量控制)是一种基于用户进行流量标识,可以以租户为粒度进行优先级流量控制的技术。对于SPFC指定用户流量的队列,当队列在下游设备发生拥塞时,系统会触发SPFC反压报文进行反压处理,上游设备会停止发送该队列的用户流量,从而实现用户流量的“零丢包”传输。相较于PFC,SPFC可以实现更精细化的流量控制。基于优先级的流级别流量控制技术架构如图2所示。
图2 基于优先级的流级别流量控制技术架构
广域无损能力发现技术。在广域网中,由于组网非常复杂,流量走向无法判断,因此如何将反压信号传递给有效的上一跳节点成为关键难点。而近些年兴起的SRv6技术,具有路径可编程,并且路径信息以SRv6 segmentlist的形式封装在IPv6 SRH中随流转发的特征,借助这一特征,可以定义一种新的SRv6 SID类型。新型SRv6 SID用来标识路径中具备PFC处理能力的接口,网络设备或控制器可以针对SRv6 segment list进行解析,发现上下游间支持SRv6 SID的接口,在两个接口间建立SRv6 隧道,并将反压信号通过隧道跨越广域网,以此绕过不支持反压信号处理的中间设备并传递到上游。广域无损能力发现技术方案如图3所示。
图3 广域无损能力发现技术方案
安全可靠
在政务、医疗、金融等关键行业,算力业务相关数据的高隐私性对网络安全保障提出刚性要求,尤其分布式部署下的数据跨节点流动易受攻击,须构建针对性防护体系。可通过“网络切片+FlexE硬隔离”技术搭建端到端安全传输通道,由网络切片分配专属资源,FlexE实现转发面细粒度带宽硬隔离,控制面通过分布式协议管控硬件预留资源,确保传输可信。
同时,可通过数网协同技术实现数据流动范围的控制和路径溯源。一方面,基于白名单的数据围栏技术,设备网关通过动态维护白名单,构建细粒度的数据流动边界,确保数据在授权范围内安全流动,有效防范未授权访问与内部威胁。另一方面,基于随流检测的路径溯源技术,网络设备在数据转发过程中监测并上报设备信息、端口信息、时间戳和链路状态,以实现流通路径溯源。
产业生态与发展趋势
网络演进并非孤立的技术路径选择,需要多技术融合与各产业生态合作。未来,广域智算网络的发展有以下三个关键趋势。
一是从算网协同到算网一体。未来,网络将向与算力深度融合的方向演进,通过构建全局的智能管控系统(如“算网大脑”),实现对算力、网络、存储等资源的统一感知、协同调度与全局优化。同时,通过在网计算等技术,将计算与网络从“协作关系”升级为“共生关系”,充分释放网络和算力潜能。
二是更广泛、深入的产业协同。智算业务的发展将催生更加开放和专业化的产业新生态。智算的技术复杂度高、产业链条长,无法由单独厂商承担全部环节。未来,将形成集芯片、设备、软件、运营商、云服务商、行业应用商等于一体的开放生态。同时,跨行业的标准协同至关重要,各领域的垂直行业标准组织需要加强合作,实现全局一体化智算服务。
三是强化可持续发展。在追求高性能的同时,未来生态还需要面对可持续发展的挑战。一方面,智算中心和高速网络能耗巨大,碳排放问题日益凸显,需要大力发展绿色能源、能效调度等关键技术,响应国家“双碳”战略;另一方面,模型、数据与计算将面临更大范围的安全威胁,需要构建内生安全的防御体系,利用AI技术实现数据的安全流动和威胁的智能预测,保障数字生态系统的持续、健康、可信发展。
面向AI业务的广域承载网络演进,是一条从“连接”走向“赋能”的道路,需要把握其关键发展趋势,加速技术革新与生态合作,通过协同创新构筑起支撑数字经济高质量发展的智能底座。
*本篇刊载于《通信世界》2025年12月10日*
第23期 总981期