UALink 超节点与 CXL 内存池背后的底层逻辑与行业意义
“当 AI 的算力瓶颈转向数据传输,我们需要的,不再是更强的芯片,而是更聪明的连接。”
GPU 服务器的形态,正迎来一次剧烈的底层重构。
在过去十年里,我们将计算、存储、内存做了彻底的云端解耦。但随着大模型的爆发、推理成本飙升,以及 MoE(专家混合模型)等新范式的落地,传统的 RDMA+PCIe 架构已经无法满足海量参数与并行操作间极致的通信效率需求。
这场深层次的性能革命,正悄然在“互联”层面发生。
阿里在 OCP 会议上发布的《Server Scale-Up Interconnect Technologies》报告,系统性提出了两大关键基础设施技术:UALink SuperNode 与 CXL Memory Pool,正在重新定义 AI 服务器在高并发、高吞吐、大模型时代的构建方式。
本文将为你完整拆解这两个技术背后的底层逻辑与行业意义。
01 | 为什么需要 SuperNode 与内存池?
先看一个 MoE 推理的现实场景:
一次前向传递,需要 GPU 间大规模 All2All 通信;
一旦涉及 Expert Parallelism(EP),传统 Scale-Out 的 RDMA 带宽、延迟、语义,都成为性能瓶颈;
结果是:GPU 性能富余,却被通信堵死。
报告数据显示:
“在 64 卡部署中,仅将 8×8 小服务器变成 1×64 SuperNode,MoE 解码性能就提升了 20%~32%。”
这意味着:不重构互联,AI 的性能红利根本释放不出来。
这正是 UALink SuperNode 与 CXL Memory Pool 出现的时代背景——
UALink:为 GPU 集群提供统一的 Scale-Up 互联架构,专为 EP/TP 等极端通信场景优化;
CXL:打破内存壁垒,实现 CPU 间的共享内存池,降低延迟与内存成本,提升弹性。
互联,成为 AI Infra 的核心创新场。
02 | UALink:为 GPU 而生的超低延迟网络
RDMA 本质是为 CPU 架构设计的通信协议,在 GPU 大规模并行下,存在如下结构性问题:
Doorbell 机制 + 中断通知,高频通信下 GPU 负载严重;
协议栈复杂,占用 IO 资源,浪费算力;
构建复杂(WQE、QP 等),延迟不可控。
而 UALink 是为 GPU 通信而生:
“提供原生 memory semantics(load/store/atomic),延迟低至 100ns,单芯片带宽可达 10Tb+。”
阿里自研的 Panjiu 超节点架构,正是基于 UALink 构建:
单节点支持 128 张 GPU 卡;
点对点稳定重传协议,简化通信层;
模块化拓扑设计,硬件替换仅需分钟级;
液冷系统支持单芯片 2KW 散热,整柜达 350KW。
“在 AI 进入数百卡级别集群时代,只有具备统一寻址、原子通信、极低延迟能力的 Scale-Up 架构,才能承载未来的 TP/EP/PP 等混合并行计算。”
03 | CXL:CPU 的内存池革命
如果说 UALink 是为 GPU 打通数据高速路,CXL 则是 CPU 端对共享内存的新秩序构建。
CXL 的核心能力可以总结为三点:
原生内存语义支持:无需数据拷贝,直接 load/store;
跨节点 Cache Coherence:支持 CXL 2.0(软件)到 3.x(硬件)级别一致性;
极低延迟:在 [64B, 16KB] 区间内显著优于 RDMA。
这意味着过去由 RDMA 构建的分布式缓存机制,可以被更优雅的 CXL Memory Pool 替代:
PolarDB 的 CXL 部署中,实现了 2.1x 性能提升;
数据共享场景下,提升 34%~154%;
故障恢复速度提高最高 11 倍。
阿里 CXL 系统架构:
CPU 节点 + CXL Switch 节点 + Memory 节点;
每个 Memory Node 支持 16TB AliMemory;
构建三层结构:计算池 + 分布式内存池 + 分布式存储池。
“内存池化的本质,不只是扩容,而是让数据亲密协作,重构应用执行的基础。”
尾声:底层架构的变革,才刚开始
UALink 和 CXL,并不是在讲一个更快的互联,而是在讲更聪明的资源组织方式。
它们的目标不是拉高峰值性能,而是解决极端通信下的资源错配:
SuperNode 架构打破 GPU 小集群的通信壁垒;
CXL 内存池让 CPU 之间像 NUMA 一样协作。
这是一场从通信语义、互联协议、资源抽象,到硬件架构的全面重塑。
“性能,从不是更多计算,而是更少浪费。”
我们正走进一个全新范式:
服务器的未来形态,不是更大的计算单元,而是更高效的连接结构。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



