大模型时代的服务器变革：UALink 超节点与 CXL 内存池

“当 AI 的算力瓶颈转向数据传输，我们需要的，不再是更强的芯片，而是更聪明的连接。”

GPU 服务器的形态，正迎来一次剧烈的底层重构。

在过去十年里，我们将计算、存储、内存做了彻底的云端解耦。但随着大模型的爆发、推理成本飙升，以及 MoE（专家混合模型）等新范式的落地，传统的 RDMA+PCIe 架构已经无法满足海量参数与并行操作间极致的通信效率需求。

这场深层次的性能革命，正悄然在“互联”层面发生。

阿里在 OCP 会议上发布的《Server Scale-Up Interconnect Technologies》报告，系统性提出了两大关键基础设施技术：UALink SuperNode 与 CXL Memory Pool，正在重新定义 AI 服务器在高并发、高吞吐、大模型时代的构建方式。

本文将为你完整拆解这两个技术背后的底层逻辑与行业意义。

01 | 为什么需要 SuperNode 与内存池？

先看一个 MoE 推理的现实场景：

一次前向传递，需要 GPU 间大规模 All2All 通信；

一旦涉及 Expert Parallelism（EP），传统 Scale-Out 的 RDMA 带宽、延迟、语义，都成为性能瓶颈；

结果是：GPU 性能富余，却被通信堵死。

报告数据显示：

“在 64 卡部署中，仅将 8×8 小服务器变成 1×64 SuperNode，MoE 解码性能就提升了 20%~32%。”

这意味着：不重构互联，AI 的性能红利根本释放不出来。

这正是 UALink SuperNode 与 CXL Memory Pool 出现的时代背景——

UALink：为 GPU 集群提供统一的 Scale-Up 互联架构，专为 EP/TP 等极端通信场景优化；

CXL：打破内存壁垒，实现 CPU 间的共享内存池，降低延迟与内存成本，提升弹性。

互联，成为 AI Infra 的核心创新场。

02 | UALink：为 GPU 而生的超低延迟网络

RDMA 本质是为 CPU 架构设计的通信协议，在 GPU 大规模并行下，存在如下结构性问题：

Doorbell 机制 + 中断通知，高频通信下 GPU 负载严重；

协议栈复杂，占用 IO 资源，浪费算力；

构建复杂（WQE、QP 等），延迟不可控。

而 UALink 是为 GPU 通信而生：

“提供原生 memory semantics（load/store/atomic），延迟低至 100ns，单芯片带宽可达 10Tb+。”

阿里自研的 Panjiu 超节点架构，正是基于 UALink 构建：

单节点支持 128 张 GPU 卡；

点对点稳定重传协议，简化通信层；

模块化拓扑设计，硬件替换仅需分钟级；

液冷系统支持单芯片 2KW 散热，整柜达 350KW。

“在 AI 进入数百卡级别集群时代，只有具备统一寻址、原子通信、极低延迟能力的 Scale-Up 架构，才能承载未来的 TP/EP/PP 等混合并行计算。”

03 | CXL：CPU 的内存池革命

如果说 UALink 是为 GPU 打通数据高速路，CXL 则是 CPU 端对共享内存的新秩序构建。

CXL 的核心能力可以总结为三点：

原生内存语义支持：无需数据拷贝，直接 load/store；

跨节点 Cache Coherence：支持 CXL 2.0（软件）到 3.x（硬件）级别一致性；

极低延迟：在 [64B, 16KB] 区间内显著优于 RDMA。

这意味着过去由 RDMA 构建的分布式缓存机制，可以被更优雅的 CXL Memory Pool 替代：

PolarDB 的 CXL 部署中，实现了 2.1x 性能提升；

数据共享场景下，提升 34%~154%；

故障恢复速度提高最高 11 倍。

阿里 CXL 系统架构：

CPU 节点 + CXL Switch 节点 + Memory 节点；

每个 Memory Node 支持 16TB AliMemory；

构建三层结构：计算池 + 分布式内存池 + 分布式存储池。

“内存池化的本质，不只是扩容，而是让数据亲密协作，重构应用执行的基础。”

尾声：底层架构的变革，才刚开始

UALink 和 CXL，并不是在讲一个更快的互联，而是在讲更聪明的资源组织方式。

它们的目标不是拉高峰值性能，而是解决极端通信下的资源错配：

SuperNode 架构打破 GPU 小集群的通信壁垒；

CXL 内存池让 CPU 之间像 NUMA 一样协作。

这是一场从通信语义、互联协议、资源抽象，到硬件架构的全面重塑。

“性能，从不是更多计算，而是更少浪费。”

我们正走进一个全新范式：

服务器的未来形态，不是更大的计算单元，而是更高效的连接结构。

UALink 超节点与 CXL 内存池背后的底层逻辑与行业意义

01 | 为什么需要 SuperNode 与内存池？

02 | UALink：为 GPU 而生的超低延迟网络

03 | CXL：CPU 的内存池革命