芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
芯东西2月11日报道,2月10日,思科推出3nm交换芯片Silicon One G300,单设备可提供102.4Tbps的以太网交换容量,专为AI集群网络而优化。
思科将Silicon One G300称作“Agent时代的网络基础”。
G300支持1.6T以太网端口,并集成思科自研200Gbps片上SerDes,可实现低功耗、高性能和更远的传输距离。它具有高达512个端口的高扩展性,能构建更“扁平化”的网络,并将更多计算资源连接到网络边缘附近。
这使得运营商能够在物理距离上更近的地方连接更多GPU,从而降低延迟、简化网络,并最大限度地提高AI训练和推理工作负载的效率。
思科Silicon One G300将为全新思科N9000和思科8000系统提供动力。该系统具有创新的液冷功能,并支持高密度光学器件,以实现新的效率基准,并确保客户充分利用GPU投资。
G300软件开发工具包(SDK)现已发布。首批系统计划在2026年下半年推出。
思科通过两大战略支柱——智能集体网络和面向未来的基础设施,来优化TCO,并提高网络集群的盈利能力。
一、智能集体网络:有效吸收突发AI流量,防止数据包丢失
Silicon One G300引入一系列智能集体网络功能,旨在为大规模GPU集群提供更高的性能和可靠性:
(1)完全共享的数据包缓冲区:将252MB的数据包缓冲区直接嵌入芯片,允许来自任何端口的数据包占用任何可用空间。这种扩展容量可提供比业界其他方案高出2.5倍的突发流量吸收能力,有效吸收突发的AI流量,防止性能下降,并确保网络始终以最佳状态运行。
(2)基于路径的负载均衡:此功能可将流量定向到所有可能的网络路径,并以比软件调优快10万倍的速度,通过硬件对瞬时拥塞事件或网络故障做出响应。这种路径选择自动化无需手动优化,可以提高GPU密度,并确保即使流量模式实时变化,网络也能保持最佳状态。
(3)主动式网络遥测:Silicon One G300提供丰富的可编程会话级诊断功能。这种可视性有助于客户主动识别和解决网络故障以及优化机会。
智能集体网络可带来可衡量的效益。在模拟中,与非优化路径选择相比,更大的数据包缓冲区使网络吞吐量提高了33%。这使得在无需增加网络容量、构建更大网络或添加更多交换机的情况下,即可支持更高的GPU互连流量,从而降低了每个已部署GPU的资本支出。
此外,模拟结果表明,与高级数据包喷射实现相比,作业完成时间(JCT)减少了28%,显著提高了AI计算效率,使AI数据中心每GPU小时产生更多的token。
最后,通过将遥测和可视化功能直接集成到交换机中,运行时所需的软件干预极少。网络可以无缝处理不同的工作负载,无需重新配置或重新优化。
二、面向未来的基础设施:高度可编程,无需更换硬件就能升级
部署新的数据中心设备是一项重大的财务和运营挑战。以往,部署具有高级功能的新硬件迫使网络运营商做出艰难的选择:要么将新设备的功能降级到“最低标准”,要么承担强制淘汰旧设备的成本。
Silicon One通过自适应分组处理技术打破了这一循环。G300只是Silicon One最新一款采用P4可编程技术的芯片,具有高度可编程性,灵活性高,使运营商能够在不更换硬件的情况下升级基础设施。
这种可编程性有两个主要优点:
(1)一种硬件设计可以针对多种角色进行优化。Silicon One G300可用于后端、前端以及跨数据中心的分散式扩展应用。其结果是减少了硬件SKU,简化了库存管理,并降低了总体开发成本。
(2)新功能可在部署后推出。这改变了以往每个周期都购买新设备的模式,转而扩展现有基础设施,同时确保混合世代部署的一致性。
这使得基于Silicon One的产品能够支持新兴的用例,并发挥多种网络作用,保护长期基础设施投资。通过将安全性融合到硬件中,客户可以采用全面、高速的安全性来保持群集的正常运行。
三、面向AI工作负载的极端功率和热需求,推出全新以太网系统
为了使各种规模的AI网络构建器(超大规模到企业)能够实现,思科宣布扩展Silicon One P200产品组合,推出全新思科8000和N9000固定式和模块化以太网系统,并提供灵活的操作系统支持。
Silicon One P200解决方案基于Silicon One架构,可为数据中心互连(DCI)、通用脊交换机以及核心和对等路由等全新应用场景提供支持。
思科N9000和思科8000 102.4T系统由Silicon One G300提供支持,通过液冷和风冷设计,提供更出色的数据中心性能和效率。100%液冷系统可显著提高带宽密度,并实现近70%的能效提升,在单个系统中提供与以前需要6个上一代系统相同的带宽。
思科还在推出创新的光学器件,以释放更高的效率和更高的可靠性。
1.6T OSFP(八通道小型可插拔)光学提供针对1.6T交换机到NIC链路和1.6T、800G、400G或200G交换机到服务器链路的AI扩展解决方案的超高带宽连接,为客户提供高性能和可靠性。
800G线性可插拔光学器件(LPO)提高AI扩展网络的效率,与重定时光学模块相比,LPO将光学模块的功耗降低了50%。
有了支持LPO的新N9000和8000系统,客户可将整体开关功率降低30%,从而实现更可靠和可持续的运营。
思科还推出了新的28.8T模块化线卡。这种P200驱动产品的扩展,结合思科800G ZR/ZR+相干可插拔光学器件,使客户能够在其网络中跨多个角色部署通用架构。
该公司正在通过统一的管理平台优化Nexus One。该平面将硅、系统、光学、软件和可编程智能作为一个单一的集成解决方案,使企业更容易运营其AI网络。
思科还通过AI Canvas引入AgenticOps,用于数据中心联网,通过引导式、人际对话,使故障排除更容易,将复杂问题转化为可操作的解决方案。
结语:推动数据中心AI网络的前沿
AI热潮正面临一个新挑战:大规模并行AI计算并不适合在“混搭”的网络设备上运行。由于需要进行大量的互操作性测试,以及新部署的系统可能被迫回退到旧版功能,运营商正在承担新的隐性成本。
对此,思科正在采用包括Silicon One G300在内的多代AI网络方法,优先考虑网络效率,并大规模降低AI部署的总拥有成本(TCO)。其灵活且集成的方法,可以实现更多的选择、更强的安全性和更深的可观察性,从而支持更多客户转向AI驱动的工作负载。