黄仁勋2026 CES演讲全程视频(纯净版)
英伟达在 CES 2026 发布了下一代 AI 计算平台Rubin
六款新芯片同时发布,整个机架当一台电脑来设计
这六款芯片分别是:
Vera CPU:英伟达自研 CPU,88个定制 Olympus 核心
Rubin GPU:下一代 GPU,3360亿晶体管
NVLink 6 Switch:机架内 GPU 互联,每 GPU3.6TB/s 带宽
ConnectX-9 SuperNIC:网卡,800Gb/s
BlueField-4 DPU:数据处理单元,负责安全和存储
Spectrum-6 Ethernet Switch:机架间互联,102.4Tb/s
英伟达管这叫「极端协同设计」(Extreme Codesign)
黄仁勋原话Rubin 来得正是时候,AI 计算需求正在爆炸
Rubin 平台六款芯片
性能提升多少和 Blackwell 比:
推理 token 成本降到十分之一
训练同样的 MoE 模型,GPU 数量降到四分之一
网络功耗效率提升5 倍
具体场景:训一个 10 万亿参数的 MoE 模型,Blackwell 需要64000张 GPU,Rubin 只要16000张
训练 10T MoE 模型所需 GPU 数量对比
Vera CPU英伟达之前用的是 Grac CPU,这次换成了全新的 Vera
名字来自天文学家 Vera Rubin,发现暗物质存在证据的那位
核心规格:
88个定制 Olympus 核心,176线程
1.5TB LPDDR5X 内存,带宽1.2TB/s
2270亿晶体管
支持 Arm v9.2 架构
和 Grace 比,内存带宽翻了2.4倍,内存容量翻了3倍,NVLink-C2C 带宽翻倍到1.8TB/s
英伟达说这颗 CPU 专门为 AI 工厂设计,核心任务是喂数据给 GPU
Vera CPU
Grace vs Vera 对比
规格
Grace
Vera
核心数
72 Neoverse V2
88 Olympus
线程数
72
176
L3 缓存
114MB
162MB
内存带宽
512GB/s
1.2TB/s
内存容量
480GB
1.5TB
NVLink-C2C
900GB/s
1.8TB/s
Rubin GPU单颗 GPU 规格:
3360亿晶体管(Blackwell 是2080亿)
288GB HBM4 显存
显存带宽22TB/s(Blackwell 是8TB/s)
NVFP4 推理算力50PFLOPS
224个 SM,第六代 Tensor Core
第三代 Transformer Engine,硬件级自适应压缩,专门针对 FP4 精度优化
NVLink 带宽翻倍,每 GPU3.6TB/s(Blackwell 是1.8TB/s)
Rubin GPU 规格
Blackwell vs Rubin 对比
规格
Blackwell
Rubin
晶体管
2080 亿
3360 亿
NVFP4 推理
10 PFLOPS
50 PFLOPS
FP8 训练
5 PFLOPS
17.5 PFLOPS
HBM 带宽
8 TB/s
22 TB/s
NVLink 带宽
1.8 TB/s
3.6 TB/s
HBM 带宽代际提升
Vera Rubin NVL72这是 Rubin 平台的旗舰配置,72 张 GPU 组成一台机器
一个机架里塞了:
72张 Rubin GPU
36颗 Vera CPU
NVLink 6 互联
ConnectX-9 网卡
li>
BlueField-4 DPU
整机规格:
NVFP4 推理算力3.6EFLOPS
HBM4 总量20.7TB
系统内存54TB
机架内互联带宽260TB/s
英伟达说这个带宽比整个互联网还大
全液冷设计,45 度温水直接冷却,比 Blackwell 流量提升近一倍
无线缆设计,组装速度比上一代快18倍
Vera Rubin NVL72 计算托盘
NVLink 6第六代 NVLink,负责 72 张 GPU 之间的通信
72 GPU 全互联拓扑
核心升级:
每 GPU 带宽3.6TB/s,翻倍
全互联拓扑,任意两张 GPU 之间延迟一致
内置 SHARP 网络计算,FP8 算力14.4TFLOPS
每个 Switch Tray 带宽28.8TB/s
MoE 模型的 all-to-all 通信吞吐提升2倍
支持热插拔、部分填充运行、动态流量重路由
NVLink 6 Switch
BlueField-4 DPU这是一颗 DPU,专门处理网络、存储、安全这些基础设施任务
内部集成了64核 Grace CPU 和 ConnectX-9 网卡
和 BlueField-3 比:
规格
BlueField-3
BlueField-4
带宽
400 Gb/s
800 Gb/s
CPU 核心
16 A78
64 Neoverse V2
内存带宽
75 GB/s
250 GB/s
内存容量
32GB
128GB
存储 IOPS
10M
20M
新功能叫 ASTRA(Advanced Secure Trusted Resource Architecture),给裸金属和多租户环境提供硬件级隔离
还有个「推理上下文内存存储平台」,专门存 KV Cache,长上下文推理的吞吐提升5倍,功耗效率也提升5倍
BlueField-4 DPU
ConnectX-9 SuperNIC网卡,每 GPU 提供1.6Tb/s 带宽
主要升级:
800Gb/s 单端口带宽
200G PAM4 SerDes
可编程拥塞控制
硬件加密引擎,支持 IPsec 和 PSP
和 Spectrum-6 交换机配合,在端点就做流量整形,防止拥塞
ConnectX-9 和 BlueField-4
Spectrum-6 以太网交换机Spectrum-X 以太网的新一代,负责机架间互联
核心升级:
单芯片带宽102.4Tb/s,翻倍
200G SerDes
共封装光学(Co-packaged Optics)
共封装光学把光模块直接做进芯片封装里:
功耗效率提升5倍
信号损耗从 22dB 降到 4dB,信号完整性提升64倍
可靠性提升10倍
还有 Spectrum-XGS,支持跨地域数据中心组网,几百公里外的机房可以当一个集群用
Spectrum-6 交换机
Spectrum-X 光学交换机
推理性能实测英伟达用 Kimi-K2-Thinking(1T MoE 模型,32K 输入 + 8K 输出)做了测试
结果:
同等交互性下,每瓦吞吐提升10倍
同等延迟下,每百万 token 成本降到十分之一
推理吞吐对比
推理成本对比
谁在用云厂商AWS、Google Cloud、Microsoft Azure、Oracle Cloud、CoreWeave、Lambda、Nebius、Nscale
AI 公司OpenAI、Anthropic、Meta、xAI、Mistral、Cohere、Perplexity、Black Forest Labs、Runway、Cursor、Harvey
硬件厂商Dell、HPE、Lenovo、Supermicro、Cisco
微软会在下一代 Fairwater AI 超算中心部署 Vera Rubin NVL72,规模到几十万张 GPU
CoreWeave 2026 下半年上线 Rubin 实例
各家 CEO 怎么说Sam Altman(OpenAI)Intelligence scales with compute. Rubin 让我们能继续 scale
Dario Amodei(Anthropic)Rubin 的效率提升能让模型有更长的记忆、更好的推理、更可靠的输出
Mark Zuckerberg(Meta)Rubin 的性能和效率提升是把最先进模型部署给几十亿用户的前提
Elon Musk(xAI) Rubin 是 AI 的火箭引擎
Satya Nadella(Microsoft)我们在建世界上最强的 AI 超算,Vera Rubin 加进来,开发者能以全新方式创造、推理、扩展
什么时候能用Rubin 已经在量产
2026 下半年开始出货
AWS、Google Cloud、Microsoft、Oracle 会是第一批部署的云厂商
DGX SuperPOD
本文网址:




