DeepSeek-V3再发论文，梁文锋署名，低成本训练大模型的秘密揭开了_科技资讯

DeepSeek-V3再发论文，梁文锋署名，低成本训练大模型的秘密揭开了

创始人

2025-05-15 21:41:44

0次

机器之心报道

机器之心编辑部

关于 DeepSeek-V3，你需要了解的一切。

虽然此前 DeepSeek 已经发布了 V3 模型的技术报告，但刚刚，他们又悄然发布了另一篇围绕 DeepSeek-V3 的技术论文！

这篇 14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSeek 在开发和训练 V3 过程中发现的问题和积累的心得，还能收获他们为未来的硬件设计给出的思考和建议。这一次，DeepSeek CEO 梁文锋同样也是署名作者之一。

论文标题：Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
论文地址：https://arxiv.org/pdf/2505.09343

众所周知，如今大语言模型（LLM）的快速扩展暴露了当前硬件架构的一些关键局限性，包括内存容量、计算效率和互连带宽。以 DeepSeek-V3 为例，它是在 2048 块 NVIDIA H800 GPU 集群上进行训练，展示了硬件感知模型协同设计如何高效地应对这些限制，并最终实现了经济高效的大规模训练与推理。

因此，这项新研究并非重复 DeepSeek-V3 的详细架构和算法细节，而是从硬件架构和模型设计的双重视角，探讨它们之间在实现经济高效的大规模训练和推理过程中复杂的相互作用。通过探究这种协同作用，研究者旨在提供切实可行的见解，以洞悉如何在不牺牲性能或可访问性的情况下高效扩展 LLM。

具体而言，本文的重点包括如下：

硬件驱动的模型设计：分析硬件特性（如 FP8 低精度计算和 scale-up/scale-out 扩展网络属性）如何影响 DeepSeek-V3 中的架构选择。
硬件与模型之间的相互依赖关系：研究硬件能力如何影响模型创新，以及 LLM 不断变化的需求如何推动对下一代硬件的需求。
硬件开发的未来方向：从 DeepSeek-V3 中获取可行性见解，以指导未来硬件和模型架构的共同设计，为可扩展、经济高效的人工智能系统铺平道路。

DeepSeek 模型的设计原则

如图 1 所示，DeepSeek-V3 采用了 DeepSeekMoE 架构和多头潜在注意力（MLA）架构。其中，DeepSeekMoE 充分释放了混合专家（MoE）架构的潜力，而 MLA 则通过压缩键值（KV）缓存显著降低了内存消耗。

此外，DeepSeek-V3 引入了 FP8 混合精度训练技术，在保证模型质量的同时大幅降低了计算成本，使大规模训练更加可行。

为了提高推理速度，DeepSeek-V3 在其多 Token 预测模块 (Multi-Token Prediction Module) 的基础上集成了推测解码，从而显著提高了生成速度。

除了模型架构之外，DeepSeek 还探索了经济高效的 AI 基础架构，通过部署多平面双层胖树网络（Multi-Plane two-layer Fat-Tree）来取代传统的三层胖树拓扑结构，从而降低了集群网络成本。

这一系列创新旨在解决扩展 LLM 时的三个核心挑战 —— 内存效率、成本效益和推理速度。

内存效率

LLM 通常需要大量的内存资源，其内存需求每年增长超过 1000%。相比之下，高速内存（例如 HBM）容量的增长速度要慢得多，通常每年不到 50% 。虽然多节点并行是解决内存限制的可行方案，但在源头优化内存使用仍然是一个关键且有效的策略。

为了解决这一瓶颈，DeepSeek 采用了多头潜在注意力 (MLA)，它使用投影矩阵将所有注意力头的键值表示压缩为一个较小的潜在向量，并与模型联合训练。在推理过程中，只需缓存潜在向量，与存储所有注意力头的键值缓存相比，显著降低了内存消耗。

除了 MLA 之外，DeepSeek 还提出了其他几种方法来减少 KV 缓存的大小。这些方法非常有价值，为内存高效注意力机制的进步提供了重要的启发：

共享 KV（GQA；MQA）：多个注意力头共享一组键值对，而不是为每个注意力头维护单独的键值对，从而显著压缩了键值对的存储量。代表性方法包括 GQA 和 MQA。

此外，还包括窗口 KV、量化压缩等。

表 1 比较了 DeepSeek-V3、Qwen-2.5 72B 和 LLaMA-3.1 405B 中每个 token 的 KV 缓存内存占用情况。通过采用 MLA，DeepSeek-V3 显著减少了 KV 缓存大小，每个 token 仅需 70 KB，远低于 LLaMA-3.1 405B 的 516 KB 和 Qwen-2.5 72B 的 327 KB。

MoE 模型的成本效益

对于稀疏计算，DeepSeek 开发了 DeepSeekMoE，这是一种先进的混合专家 (MoE) 架构，如图 1 右下角所示。MoE 模型的优势在于两方面。

在训练时，降低计算需求。MoE 架构的主要优势在于它能够显著降低训练成本。通过选择性地激活专家参数的子集，MoE 模型允许总参数数量大幅增加，同时保持适度的计算需求。例如，DeepSeek-V2 拥有 236B 参数，但每个 token 仅激活 21B 参数。同样，DeepSeek-V3 扩展到 671B 参数 —— 几乎是 V2 的三倍 —— 同时每个 token 的激活量仅为 37B。相比之下，Qwen2.5-72B 和 LLaMa3.1-405B 等密集模型则要求在训练期间所有参数都处于激活状态。

如表 2 所示，DeepSeekV3 的总计算成本约为每 token 250 GFLOPS，而 72B 密集模型需要 394 GFLOPS，405B 密集模型则需要 2448 GFLOPS。这表明，MoE 模型在计算资源消耗量少一个数量级的情况下，实现了与密集模型相当甚至更优的性能。

个人使用和本地部署的优势。未来个性化 LLM 智能体将无处不在，而 MoE 模型在单请求场景中将展现出独特的优势。由于每个请求仅激活一小部分参数，内存和计算需求将大幅降低。例如，DeepSeek-V2（236B 参数）在推理过程中仅激活 21B 参数。这使得搭载 AI SoC 芯片的个人电脑能够达到近每秒 20 个 Token (TPS)，甚至两倍于此的速度，这对于个人使用来说已经绰绰有余。相比之下，类似能力（例如 70B 参数）的密集模型在类似硬件上通常只能达到个位数的 TPS。

提高推理速度

计算与通信重叠：最大化吞吐量。推理速度既包括系统级最大吞吐量，也包括单请求延迟。为了最大化吞吐量，模型从一开始就采用双微批次重叠架构，有意将通信延迟与计算重叠。

此外，DeepSeek 将 MLA 和 MoE 的计算解耦为两个不同的阶段。当一个微批次执行部分 MLA 或 MoE 计算时，另一个微批次同时执行相应的调度通信。相反，在第二个微批次的计算阶段，第一个微批次则进行组合通信步骤。这种流水线方法实现了全对全（all-to-all）通信与持续计算的无缝重叠，确保 GPU 始终保持完全利用率。此外，在生产环境中，DeepSeek 采用预填充和解码分离架构，将大批量预填充和延迟敏感的解码请求分配给不同规模的专家并行组。这一策略最终在实际服务条件下实现了系统吞吐量的最大化。

推理速度和测试时间扩展。以 OpenAI 的 o1/o3 系列为例，LLM 中的测试时间扩展通过在推理过程中动态调整计算资源，推动了数学推理、编程和通用推理的重大进步。后续模型 —— 包括 DeepSeek-R1、Claude-3.7 Sonnet 、Gemini 2.5 Pro、Seed1.5-Thinking 和 Qwen3—— 也采用了类似的策略，并在这些任务中取得了显著的改进。

对于这些推理模型来说，较高的 token 输出速度至关重要。在强化学习 (RL) 工作流程中 —— 例如 PPO、DPO 和 GRPO —— 快速生成大量样本的需求使得推理吞吐量成为关键的瓶颈。同样，冗长的推理序列会增加用户等待时间，从而降低此类模型的实际可用性。因此，通过软硬件协同创新来优化推理速度对于提高推理模型的效率至关重要。

低精度驱动设计

FP8 混合精度训练

GPTQ 和 AWQ 等量化技术显著降低了内存需求。然而，这些技术主要应用于推理阶段以节省内存，而非训练阶段。NVIDIA 的 Transformer Engine 已经支持 FP8 混合精度训练，但在 DeepSeek-V3 之前，尚无开源大型模型利用 FP8 进行训练。

通过基础设施团队和算法团队的深入合作，以及大量的实验和创新，DeepSeek 开发了一个兼容 FP8 的 MoE 模型训练框架。图 1 展示了在训练过程中使用 FP8 精度前向和后向处理的计算组件。

LogFMT

在当前的 DeepSeek-V3 架构中，DeepSeek 采用低精度压缩进行网络通信。在 EP 并行过程中，Token 使用细粒度的 FP8 量化进行调度，与 BF16 相比，通信量减少了 50%。这显著缩短了通信时间。

除了这些传统的浮点格式外，DeepSeek 还尝试了一种新的数据类型，称为 LogFMT-nBit（ Logarithmic Floating-Point Formats ）。

互连驱动的设计

当前的硬件架构

DeepSeek 目前使用的 NVIDIA H800 GPU SXM 架构（如图 2 所示）基于 Hopper 架构构建，与 H100 GPU 类似。然而，为了符合法规要求，它的 FP64 计算性能和 NVLink 带宽有所降低。具体而言，H800 SXM 节点中的 NVLink 带宽从 900 GB/s 降至了 400 GB/s。节点内扩展带宽的显著降低对高性能工作负载构成了挑战。为了弥补这一缺陷，每个节点都配备了八个 400G Infiniband (IB) CX7 网卡，以增强扩展能力，从而弥补带宽不足。

为了解决这些硬件限制，DeepSeek-V3 模型融入了多项与硬件优势和局限性相符的设计考量。

硬件感知型并行化设计

为了适应 H800 架构的限制，DeepSeek-V3 考虑了这些并行策略：避免张量并行 (TP)、增强 Pipeline 并行 (PP)、加速专家并行 (EP)。对这些策略的具体说明请访问原论文。

模型协同设计：节点受限式路由

在 H800 架构中，纵向扩展（scale-up，节点内）和横向扩展（scale-out，节点间）通信之间的带宽差异约为 4:1。具体而言，NVLink 可提供 200GB/s 的带宽（其中实际可实现约 160GB/s），而每个 400Gbps IB 网卡仅提供 50GB/s 的带宽（考虑到较小的消息大小和延迟影响，有效带宽为 40GB/s）。为了平衡并充分利用更高的节点内带宽，模型架构与硬件进行了协同设计，尤其是在 TopK 专家选择策略方面。

假设一个包含 8 个节点（共 64 台 GPU）和 256 个路由专家（每台 GPU 4 个专家）的设置。对于 DeepSeek-V3，每个 token 会被路由到 1 个共享专家和 8 个路由专家。如果 8 个目标专家分布在所有 8 个节点上，则通过 IB 的通信时间将为 8𝑡，其中𝑡 表示通过 IB 发送一个 token 的时间。但是，通过利用更高的 NVLink 带宽，路由到同一节点的 token 可以通过 IB 发送一次，然后通过 NVLink 转发到其他节点内 GPU。NVLink 转发功能可以对 IB 流量进行去重。当给定 token 的目标专家分布在 𝑀 个节点上时，去重后的 IB 通信成本将降低至 𝑀𝑡（𝑀 < 8）。

由于 IB 流量仅依赖于 𝑀，DeepSeek-V3 为 TopK 专家选择策略引入了节点受限路由。具体来说，DeepSeek 将 256 位路由专家分成 8 组，每组 32 位专家，并将每组部署在单个节点上。在此部署基础上，DeepSeek 通过算法确保每个 token 最多路由到 4 个节点。这种方法缓解了 IB 通信瓶颈，并提高了训练期间的有效通信带宽。

纵向扩展和横向扩展收敛

当前实现的局限性。虽然节点受限的路由策略降低了通信带宽需求，但由于节点内 (NVLink) 和节点间 (IB) 互连之间的带宽差异，它使通信流水线内核的实现变得复杂。

在实际应用中，GPU Streaming Multiprocessors (SM) 线程既用于网络消息处理（例如，填充 QP 和 WQE），也用于通过 NVLink 进行数据转发，这会消耗大量的计算资源。例如，在训练期间，H800 GPU 上多达 20 个 SM 会被分配用于通信相关操作，导致实际计算资源减少。为了最大限度地提高在线推理的吞吐量，DeepSeek 完全通过 NIC RDMA 进行 EP 的 all-to-all 通信，从而避免了 SM 资源争用并提高了计算效率。这凸显了 RDMA 异步通信模型在计算和通信重叠方面的优势。

SM 在 EP 通信过程中执行的关键任务包括转发数据、数据传输、Reduce 操作、管理内存布局、数据类型转换，尤其是在组合阶段的 Reduce 操作和数据类型转换方面。如果将这些任务卸载到专用通信硬件，可以释放 SM 以用于计算内核，从而显著提高整体效率。

针对此，DeepSeek 给出了一些建议，其中最核心的是「将节点内（纵向扩展）和节点间（横向扩展）通信集成到一个统一的框架中」。

通过集成专用协处理器进行网络流量管理以及 NVLink 和 IB 域之间的无缝转发，此类设计可以降低软件复杂性并最大限度地提高带宽利用率。例如，DeepSeek-V3 中采用的节点受限路由策略可以通过硬件支持动态流量去重进一步优化。

DeepSeek 还探究了新兴的互连协议，例如 Ultra Ethernet Consortium (UEC)、Ultra Accelerator Link (UALink)。近期，Unified Bus (UB) 引入了一种全新的纵向扩展和横向扩展融合方法。

DeepSeek 在这里主要关注了在编程框架层面实现纵向扩展和横向扩展的融合的方法，具体包括统一网络适配器、专用通信协处理器、灵活的转发和广播及 Reduce 机制、硬件同步原语。详见原论文。

带宽争用和延迟

当前硬件还存在另一大局限：缺乏在 NVLink 和 PCIe 上不同类型流量之间动态分配带宽的灵活性。

例如，在推理过程中，将键值缓存数据从 CPU 内存传输到 GPU 会消耗数十 GB/s 的带宽，从而导致 PCIe 带宽饱和。如果 GPU 同时使用 IB 进行 EP 通信，KV 缓存传输和 EP 通信之间的争用可能会降低整体性能并导致延迟峰值。

针对这些问题，DeepSeek 同样给出了一些建议，包括动态 NVLink/PCIe 流量优先级、I/O 芯片芯片集成、纵向扩展域内的 CPU-GPU 互连。

大规模网络驱动的设计

网络协同设计：多平面胖树

在 DeepSeek-V3 的训练过程中，DeepSeek 部署了一个多平面胖树 (MPFT) 横向扩展（scale-out）网络，如图 3 所示。

其中，每个节点配备 8 台 GPU 和 8 个 IB 网卡，每个 GPU - 网卡对分配到不同的网络平面。此外，每个节点还配备一个 400 Gbps 以太网 RoCE 网卡，连接到单独的存储网络平面，用于访问 3FS 分布式文件系统。在横向扩展网络中，他们使用了 64 端口 400G IB 交换机，使该拓扑理论上最多可支持 16,384 台 GPU，同时保留了双层网络的成本和延迟优势。然而，由于政策和监管限制，最终部署的 GPU 数量仅为两千余台。

此外，由于 IB ConnectX-7 目前的局限性，DeepSeek 部署的 MPFT 网络未能完全实现预期的架构。理想情况下，如图 4 所示，每个网卡 (NIC) 应具有多个物理端口，每个端口连接到单独的网络平面，但通过端口绑定，共同作为单个逻辑接口向用户公开。

从用户的角度来看，单个队列对 (QP) 可以在所有可用端口之间无缝地发送和接收消息，类似于数据包喷射。因此，来自同一 QP 的数据包可能会穿越不同的网络路径，并以无序方式到达接收方，因此需要在网卡内原生支持无序布局，以保证消息一致性并保留正确的排序语义。例如，InfiniBand ConnectX-8 原生支持四平面。未来的网卡能够完全支持高级多平面功能，从而使双层胖树网络能够有效地扩展到更大的 AI 集群，这将大有裨益。总体而言，多平面架构在故障隔离、稳健性、负载均衡和大规模系统可扩展性方面具有显著优势。

DeepSeek 还介绍了多平面胖树的几大优势，包括 MPFT 由多轨胖树 (MRFT) 的子集构成（因此可以无缝整合英伟达和 NCCL 为 MRFT 网络开发的现有优化技术）、成本效益、流量隔离、延迟降低、稳健性等，详见原论文。

DeepSeek 还对 MPFT 和 MRFT 进行了对比性的性能分析，结果见图 5 和 6 以及表 4。

基于此，他们得到了一些关键发现，包括多平面网络的 all-to-all 性能与单平面多轨网络非常相似；在 2048 块 GPU 上训练 V3 模型时，MPFT 的性能与 MRFT 的性能几乎相同。

低延迟网络

在 DeepSeek 的模型推理中，大规模 EP 严重依赖于 all-to-all 通信，而这种通信对带宽和延迟都非常敏感。举一个典型场景的例子，在 50GB/s 的网络带宽下，理想情况下数据传输大约需要 120 𝜇s。因此，微秒级的固有网络延迟会对系统性能产生严重影响，其影响不容忽视。

那么，DeepSeek 是怎么做的呢？

首先分析一下 IB 或 RoCE。如表 5 所示，IB 始终能保持较低的延迟，这使得使其成为了分布式训练和推理等延迟敏感型工作负载的首选。尽管 IB 的延迟性能优于基于融合以太网的 RDMA (RoCE)，但它也存在一些局限性，包括成本和扩展性方面的问题。

虽然 RoCE 有可能成为 IB 的经济高效的替代方案，但其目前在延迟和可扩展性方面的限制使其无法完全满足大规模 AI 系统的需求。DeepSeek 也给出了一些改进 RoCE 的具体建议，包括使用专用低延迟 RoCE 交换机、优化路由策略、改进流量隔离或拥塞控制机制。

为降低网络通信延迟，DeepSeek 使用了 InfiniBand GPUDirect Async (IBGDA)。

传统上，网络通信涉及创建 CPU 代理（proxy）线程：GPU 准备好数据后，必须通知 CPU 代理，然后 CPU 代理填充工作请求 (WR) 的控制信息，并通过门铃机制向 NIC) 发出信号，以启动数据传输。此过程会带来额外的通信开销。

IBGDA 是如何解决此问题的？实际上，它的做法是允许 GPU 直接填充 WR 内容并写入 RDMA 门铃 MMIO 地址。

通过在 GPU 内部管理整个控制平面，IBGDA 消除了与 GPU-CPU 通信相关的显著延迟开销。此外，在发送大量小数据包时，控制平面处理器很容易成为瓶颈。由于 GPU 具有多个并行线程，发送方可以利用这些线程来分配工作负载，从而避免此类瓶颈。包括 DeepSeek 的 DeepEP 在内的一系列工作都利用了 IBGDA，并报告使用它取得了显著的性能提升。因此，DeepSeek 提倡在各种加速器设备上广泛支持此类功能。

未来硬件架构设计的讨论与见解

前面在具体的应用场景（application contexts）中指出了硬件局限性，并提供了相应的建议。在此基础上，接下来将讨论扩展到更广泛的考量，并为未来的硬件架构设计提出前瞻性方向：

鲁棒性挑战：如何通过更先进的错误检测与纠正机制，应对硬件故障和静默数据损坏，构建永不停歇的 AI 基础设施。
CPU 瓶颈与互联限制：如何优化 CPU 与加速器之间的协同，特别是突破 PCIe 等传统接口的限制，实现高速、无瓶颈的节点内部通信。
面向 AI 的智能网络：如何打造具备低延迟和智能感知能力的网络，通过光互联、无损机制、自适应路由等技术，应对复杂的通信需求。
内存语义通信与排序：如何解决当前内存语义通信中的数据一致性与排序挑战，探索硬件层面的内建保证，提升通信效率。
网络中计算与压缩：如何将计算和压缩能力下沉到网络中，特别是针对 EP 等特定负载，释放网络带宽潜力。
以内存为中心的架构创新：如何应对模型规模指数级增长带来的内存带宽危机，探索 DRAM 堆叠、晶圆级集成等前沿技术。

鲁棒性挑战（Robustness Challenges）

现有限制

互连故障（Interconnect Failures）：高性能互联（如 IB 和 NVLink）易在实际部署中出现间歇性连接中断，影响节点间通信。尤其在通信密集型负载（例如 EP）中，即使短暂中断亦可导致显著性能下降，甚至任务失败。
单点硬件故障（Single Hardware Failures）：节点宕机、GPU 故障或 ECC（错误更正码）内存出错等单点硬件故障，可能影响长时间运行的训练任务，常需高昂重启。大规模部署中，这类单点故障概率随系统规模扩大显著上升。
静默数据损坏（Silent Data Corruption）：例如多位内存翻转或计算精度误差等绕过 ECC 检测机制的错误，可能导致模型质量受损。这类错误尤为隐蔽，易在长时间运行任务中累积传播并污染下游计算（downstream computations）。目前多数应用层启发式缓解策略（mitigation strategies）难以实现系统级全面鲁棒保障。

面向高级错误检测与纠正的建议

为缓解静默损坏风险，硬件应集成超越传统 ECC 的高级错误检测机制，如基于校验和验证、硬件加速冗余校验，以提升大规模部署可靠性。

此外，厂商应提供全面诊断工具包，使用户能精确验证系统完整性，主动预警潜在静默损坏。将工具包作为标准硬件配置部署，可促进全生命周期持续验证和透明度，增强系统整体可信度。

CPU 瓶颈与互联网络限制

尽管加速器（accelerator）设计常为系统优化核心，但 CPU 在协调计算任务、管理 I/O 和维持整体系统吞吐方面仍扮演关键角色。然而，当前硬件架构存在若干关键瓶颈：

首先，如前所述，CPU 与 GPU 间的 PCIe 接口在大规模参数、梯度或 KV 缓存（KV cache）传输中常成带宽瓶颈。为缓解此问题，未来系统应引入 CPU–GPU 直连互联方案（例如 NVLink 或 Infinity Fabric），或将 CPU 与 GPU 集成于 scale-up domain，消除节点内部数据传输瓶颈。

除 PCIe 限制外，维持如此高数据传输速率需极高内存带宽。例如，要充分利用 160 通道 PCIe 5.0 接口，每节点需超过 640 GB/s 数据传输能力，这意味约 1 TB/s 每节点内存带宽，对传统 DRAM 架构是一大挑战。

最后，对延迟敏感任务（诸如 kernel launch、网络处理）需高单核 CPU 性能，通常基础主频需达 4 GHz 以上。此外，现代 AI 工作负载要求每 GPU 配备足够 CPU 核心，避免控制侧瓶颈。对于基于芯粒（chiplet）的架构，还需额外 CPU 核心支持实现面向缓存的负载划分与隔离策略（cache-aware workload partitioning and isolation）。

面向 AI 的智能网络架构

为了应对延迟敏感型工作负载的需求，未来的互联网络需同时具备「低延迟」与「智能感知」的能力，具体可从以下几个方向探索：

封装内光互联（Co-Packaged Optics）：通过集成硅光子（silicon photonics）技术，能够实现可扩展的高带宽互联，并显著提升能效，这对于构建大规模分布式 AI 系统至关重要。

无损网络（Lossless Network）：基于信用的流控机制（Credit-Based Flow Control, CBFC）可实现无损数据传输，但若采用基础策略触发流控，可能引发严重的队首阻塞（head-of-line blocking）。因此，必须部署更先进的端侧驱动拥塞控制算法（congestion control, CC），以主动调节注入速率，避免网络拥塞恶化为系统性瓶颈。

自适应路由（Adaptive Routing）：如前所述，未来网络应标准化采用动态路由机制，如数据包喷洒（packet spraying）与拥塞感知路径选择策略（congestion-aware path selection）。这些策略可持续感知当前网络状态并智能调度通信流，有效缓解网络热点，特别是在 all-to-all 与 reduce-scatter 等集合通信操作中，对缓解通信瓶颈效果显著。

高效的容错协议（Efficient Fault-Tolerant Protocols）：通过自愈协议、自适应端口冗余和快速故障转移机制，可显著提升系统在故障情境下的鲁棒性。例如，链路级重试机制（link-layer retry）和选择性重传协议（selective retransmission protocols）是提升大规模网络可靠性、减少停机时间的关键组件，能够在面对间歇性故障时确保系统无缝运行。

动态资源管理（Dynamic Resource Management）：为更高效地处理混合型工作负载，未来硬件需支持动态带宽调度与流量优先级控制。例如，统一的多任务集群中应将推理任务与训练通信隔离调度，以确保延迟敏感型应用的响应能力。

内存语义通信与内存排序问题的探讨

基于加载 / 存储语义（load/store memory semantics）进行节点间通信，具有高效且对程序员友好的优势。

但当前实现方案普遍受限于内存排序一致性问题。例如，发送端通常需要在写入数据后，执行显式的内存屏障操作（memory fence），再更新标志位以通知接收端，从而确保数据一致性。

这种强排序要求引入了额外的往返延迟（round-trip time, RTT），可能阻塞发出线程，影响写操作重叠能力，最终降低吞吐率。

类似的乱序同步问题，在基于消息语义的远程直接内存访问（Remote Direct Memory Access, RDMA）中同样存在。例如，在 InfiniBand 或 NVIDIA BlueField-3 上，若在常规 RDMA 写操作之后再执行采用数据包喷洒（packet spraying）的 RDMA 原子加（atomic add）操作，也会引入额外的 RTT 开销。

为应对上述挑战，DeepSeek 团队主张从硬件层面引入内建排序保证，以强化内存语义通信中的数据一致性。这种一致性应同时在编程接口层（如 acquire/release 语义）和接收端硬件层实施，从而实现无需额外开销的有序数据交付。

可行路径包括：在接收端缓存原子消息，并通过数据包序号实现顺序处理；但相比之下，基于 acquire/release 的机制更加优雅且具效率优势。

DeepSeek 团队提出一种简单的概念机制 —— 区域获取 / 释放机制（Region Acquire/Release Mechanism, RAR）：在该方案中，接收端硬件维护一个用于跟踪内存区域状态的位图，获取与释放操作基于 RAR 地址范围生效。

该机制延伸了最小位图开销下的高效排序保障，由硬件强制执行排序逻辑，完全摆脱发送端对显式屏障指令的依赖，理想情况下实现于网络接口卡（NIC）或 I/O 芯片上。

值得强调的是，RAR 机制不仅适用于基于内存语义的通信场景，也可覆盖基于消息语义的 RDMA 操作，具有广泛的实际适用性。

网络中计算与压缩机制

EP（Expert Parallelism）任务涉及两个关键的全对全通信阶段：分发（dispatch）与合并（combine），它们构成网络级优化的重要着力点。

分发阶段类似于小规模的多播（multicast）操作，需要将一条消息转发至多个目标设备。若在硬件协议层支持自动包复制与多目标转发，将大幅减少通信开销，提升总体效率。

合并阶段则近似于小规模规约（reduction）操作，可通过网络中的聚合机制实现场内计算（in-network aggregation）。然而，由于 EP 合并操作通常规约范围有限、负载不均，实现灵活、高效的网络内规约尚具挑战性。

此外，如前所指出，LogFMT 可在基本不影响模型性能的前提下实现低精度 token 传输。若将 LogFMT 原生集成进网络硬件，可通过提升信息熵密度（entropy density）降低带宽消耗，进一步优化通信性能。依托硬件加速的压缩 / 解压模块，LogFMT 可无缝融入分布式系统，从而显著提升整体吞吐能力。

以内存为中心的架构创新

内存带宽的限制

近年来模型规模呈指数级增长，远超高带宽存储器（High-Bandwidth Memory, HBM）技术的发展速度。这种增长差距使得「内存瓶颈」问题愈发突出，尤其在像 Transformer 这类注意力机制密集的模型结构中尤为严重。

架构性建议

DRAM 堆叠加速器（DRAM-Stacked Accelerators）：通过 3D 封装技术，可将 DRAM 芯片垂直集成于逻辑底片之上，从而获得极高的内存带宽、超低访问延迟以及现实可用的内存容量（受堆叠层数限制）。该架构模型在追求极速推理的专家混合模型（Mixture-of-Experts, MoE）中尤显优势，因其对内存吞吐极度敏感。如 SeDRAM 等架构即展示了此方法在内存受限工作负载中的颠覆式性能潜力。

晶圆级集成系统（System-on-Wafer, SoW）：晶圆级集成（wafer-scale integration）可最大化计算密度与内存带宽，是应对超大规模模型所需带宽密度的可行途径。

了解更多内容，请参考原论文。

上一篇：我国自主研发深水海管铺设智能监测装备完成海试

下一篇：5G技术赋能工业互联网实现新突破

DeepSeek-V3再发论文，梁文锋署名，低成本训练大模型的秘密揭开了

相关内容

热门资讯