下一代GPU发布,硅光隆重登场,英伟达还能火多久?

年度科技盛宴GTC昨晚正式拉开帷幕。会上,黄仁勋透露,美国四大云端龙头今年已购360 万个 Blackwell 芯片,预计2028 年资料中心资本支出规模突破1万亿美元。

编者按:本文来自微信公众号 半导体行业观察(ID:icbank),创业邦经授权转载。

年度科技盛宴GTC昨晚正式拉开帷幕。会上,黄仁勋透露,美国四大云端龙头今年已购360 万个 Blackwell 芯片,预计2028 年资料中心资本支出规模突破1万亿美元。

年度科技盛宴GTC昨晚正式拉开帷幕。

会上,黄仁勋透露,美国四大云端龙头今年已购360 万个 Blackwell 芯片,预计2028 年资料中心资本支出规模突破1万亿美元。他同时透露,透露,Blackwell 架构的芯片,已经全面投产,客户的需求令人难以置信。

黄仁勋甚至开玩笑说他是”主要营收破坏者“,因为他贬低了英伟达的旧款Hopper 系列,展示了Blackwell 如何提供比旧款Hopper 系列更好的推理性能。

黄仁勋说,由于这些优势,当Blackwell 开始批量发货时,公司甚至无法免费赠送Hopper 产品,但他表示“当科技发展如此之快”且“工作量如此之大”时,最新一代芯片将带来巨大的好处。

于是,在大会上,黄仁勋正式揭开了英伟达新GPU路线图。

Blackwell Ultra,今年重点

本届GTC上,NVIDIA 首先通过其 Blackwell Ultra 平台升级 Blackwell,提供高达 288 GB 的 HBM3e 内存。不过,Nvidia 并未我们期望那样,透露 Blackwell Ultra 比原版 Blackwell 有多好的数据。

在被记者要求提供更多细节时,英伟达方面表示,Blackwell Ultra GPU(GB300 和 B300)与 Blackwell GPU(GB200 和 B200)是不同的芯片。Blackwell Ultra GPU 旨在满足测试时间扩展推理的需求,FP4 计算能力提高了 1.5 倍。这是否意味着 B300 是一款物理上更大的芯片,可以在封装中容纳更多张量核心?

而在此前与记者的一次事先简报会上,Nvidia 透露,单个 Ultra 芯片将提供与 Blackwell 相同的 20 petaflops AI 性能,但现在拥有 288GB 的HBM3e 内存,而不是 192GB。同时,Blackwell Ultra DGX GB300“Superpod”集群将提供与 Blackwell 版本相同的 288 个 CPU、576 个 GPU 和 11.5 exaflops FP4 计算能力,但拥有 300TB 的内存,而不是 240TB。

不过,Nvidia 将其新款 Blackwell Ultra 与H100 进行了比较,后者是 2022 年推出的芯片,最初为 Nvidia 的 AI 奠定了基础,领先的公司可能希望对其进行升级:Nvidia 表示,相较于H100 ,Blackwell Ultra提供 1.5 倍的 FP4 推理能力,可以显著加快“AI 推理”速度,NVL72 集群能够运行 DeepSeek-R1 671B 的交互式副本,只需 10 秒即可给出答案,而 H100 则需要 1.5 分钟。Nvidia 表示,这是因为它每秒可以处理 1,000 个 token,是 Nvidia 2022 年芯片的十倍。

英伟达在官方新闻稿中表示,NVIDIA GB300 NVL72 采用机架级设计,连接 72 个 Blackwell Ultra GPU 和 36 个基于 Arm Neoverse 的NVIDIA Grace CPU,充当专为测试时间扩展而构建的单个大型 GPU。借助 NVIDIA GB300 NVL72,AI 模型可以访问平台增强的计算能力,探索问题的不同解决方案,并将复杂请求分解为多个步骤,从而获得更高质量的响应。

英伟达指出,GB300 NVL72 预计还将在NVIDIA DGX Cloud上推出,这是一个端到端、完全托管的领先云 AI 平台,可通过软件、服务和 AI 专业知识优化性能,以应对不断变化的工作负载。配备 DGX GB300 系统的NVIDIA DGX SuperPOD 采用 GB300 NVL72 机架设计,为客户提供交钥匙 AI 工厂。

与 Hopper 一代相比,NVIDIA HGX B300 NVL16 在大型语言模型上的推理速度提高了 11 倍,计算能力提高了 7 倍,内存增加了 4 倍,从而为 AI 推理等最复杂的工作负载提供了突破性的性能。

此外,Blackwell Ultra 平台还适用于以下应用:

代理式人工智能,它使用复杂的推理和迭代规划来自主解决复杂的多步骤问题。人工智能代理系统超越了指令遵循。它们可以推理、规划并采取行动来实现特定目标;

物理人工智能,使公司能够实时生成合成的、逼真的视频,以大规模训练机器人和自动驾驶汽车等应用程序。

关于这颗芯片,另一个有趣的点是一些公司将能够购买单个 Blackwell Ultra 芯片:Nvidia 宣布推出一款名为 DGX Station 的台式电脑,该电脑搭载单个 GB300 Blackwell Ultra、784GB 统一系统内存、内置 800Gbps Nvidia 网络,以及承诺的 20 petaflops AI 性能。华硕、戴尔和惠普将与 Boxx、Lambda 和 Supermicro 一起销售台式电脑版本。

明年的Vera Rubin,下一代的Feynman

但明年,公司将将凭借其全新的 CPU 和 GPU 平台(代号为 Rubin 和 Vera)将事情推向新的高度。

Vera Rubin,首次在 2024 年台北国际电脑展上亮相,目前计划于 2026 年下半年发布。这款以著名天文学家命名的 GPU将具有数十TB 的内存,并配备名为 Vera 的定制 Nvidia 设计 CPU。

Nvidia 表示,Vera Rubin 将比其前代产品Grace Blackwell有显著的性能提升,特别是在 AI 训练和推理方面。

具体而言,该系统有两个主要组件:一个称为 Vera 的 CPU 和一个称为 Rubin 的新 GPU 设计。它以天文学家 Vera Rubin 的名字命名。

首先看其Vera CPU,表示,英伟达表示,Vera 是 Nvidia 的首款定制 CPU 设计,它基于名为 Olympus 的核心设计,将取代当前的 Grace CPU。Vera 将是一个相对较小且紧凑的 CPU,具有 88 个定制 ARM 内核和 176 个线程。它还将有一个 1.8 TB/s 的 NVLink 内核到内核接口,用于与 Rubin GPU 连接。

以前,当 Nvidia 需要 CPU 时,它会使用Arm的现成设计。但是,高通、苹果等已经开发出定制 Arm 核心设计的公司表示,它们能够实现更加量身定制,并释放出更好的性能。于是,英伟达也定制了 Vera,他们表示,新设计将比去年的 Grace Blackwell 芯片中使用的 Grace CPU 快两倍。

其次是Rubin GPU,按照Nvidia所说,Rubin 实际上是两个 GPU。从 Rubin 开始,Nvidia 表示,当它将两个或多个芯片组合成一个芯片时,它会将它们称为独立的 GPU。来到数据方面,据介绍,Rubin 还将提供 1.2 ExaFLOPS FP8 训练,而B300只有0.36 ExaFLOPS。总体而言,计算性能提高了 3.3 倍。同时,Rubin还将标志着从 HBM3/HBM3e 向 HBM4 的转变,其中 HBM4e 用于 Rubin Ultra。每 GPU 的内存容量仍为 288GB,与 B300 相同,但带宽将从 8 TB/s 提高到 13 TB/s。还将有一个更快的 NVLink,将吞吐量翻倍至 260 TB/s,机架之间的新 CX9 链路速度为 28.8 TB/s(带宽是 B300 和 CX8 的两倍)。

与CPU搭配后,Vera Rubin 每个芯片可提供 50 petaflops浮点运算的 FP4 推理性能。在完整的 NVL144 机架中配置时,该系统可提供 3.6 exaflops浮点运算的 FP4 推理计算能力,是 Blackwell Ultra 在类似机架配置中的 1.1 exaflops浮点运算能力的 3.3 倍。

上图是 Rubin NVL144 机架,它将与现有的 Blackwell NVL72 基础设施兼容。下图中,我们提供了 Blackwell Ultra B300 NVL72 的相同配置数据,以供比较。B300 NVL72 提供 1.1 PFLOPS 密集 FP4 计算,而 Rubin NVL144(同样拥有 144 个 GPU 芯片)将提供 3.6 PFLOPS 密集 FP4。

黄仁勋还宣布了将于 2027 年下半年推出的 Rubin Ultra。Rubin Ultra 将采用 NVL576 机架配置,并配备带有四个标线大小芯片的独立 GPU,也就是将四个芯片组合成一个芯片,使 Rubin 的速度翻倍,并将其称为四个 GPU,每个芯片可提供 100 petaflops 的 FP4 精度(一种用于表示和处理 AI 模型中数字的 4 位浮点格式)。

在机架层面,Rubin Ultra 将提供每秒 15 exaflops浮点运算的 FP4 推理计算和每秒 5 exaflops浮点运算的 FP8 训练性能,比 Rubin NVL144 配置强大约四倍。每个 Rubin Ultra GPU 将包含 1TB 的 HBM4e 内存,整个机架包含 365TB 的快速内存。

不过,这里的情况有点奇怪。Nvidia 列出了 4.6 PB/s 的 HBM4e 带宽,但 576 个 GPU 的带宽相当于每个 GPU 8 TB/s。这似乎比以前每个 GPU 的带宽要少,但这可能是四个 GPU 芯片如何连接在一起的一个因素。每四个标线大小的 GPU 还将有 1TB 的 HBM4e,具有 100 PetaFLOPS 的 FP4 计算能力。

NVLink7 接口速度将比 Rubin接口快 6 倍,吞吐量为 1.5 PB/s。CX9 互连也将实现机架间 115.2 TB/s 的 4 倍提升,这可能是通过将链路数量增加四倍来实现的。

根据介绍,英伟达下一代未来还有 Feynman GPU。黄仁勋在主题演讲中没有透露 Feynman 架构的细节,该架构以美国理论物理学家理查德·费曼 (Richard Feynman) 命名,它采用了 Vera CPU。Nvidia 计划在 2028 年某个时候将 Feynman 推向市场,取代 Rubin Vera。

硅光,英伟达掀起新篇章

在谈GPU和CPU的同时,英伟达在本届GTC上还带来了公司在硅光上的新篇章。

知名媒体The Next Platform表示,谈到网络时,规则很简单。对于大规模分布式、基本不连贯的应用程序的超大规模网络,规则是:尽可能路由,必要时交换(Route when you can, and switch if you must)。对于对延迟和带宽都敏感的 HPC 和 AI 工作负载,我们坚持古老的格言:尽可能交换,必要时路由(Switch when you can, route if you must)。而对于网络布线,我们的选择是:尽可能使用铜线,必要时使用光纤(Copper when you can, fiber when you must)。

当中,Nvidia 机架式 GB200 NVL72 系统背板的大量铜缆能充分说明最后一条原则,该系统由 36 个 MGX 服务器节点组成,每个节点都有两个“Blackwell”B200 GPU 加速器与一个“Grace”CG100 Arm 服务器处理器配对,组成一个共享内存计算引擎集群,该集群有 36 个 CPU 和 72 个 GPU,使用 NVSwitch 4 互连来创建 CPU 和 GPU 内存结构,需要超过 5000 条粗铜缆,由以 224 Gb/秒运行的 NVLink 5 SerDes 直接驱动。由于所有这些通信都在机架内部进行,因此铜缆足以(虽然很麻烦)在 GPU 之间提供更凉爽、高带宽的管道,CPU 悬挂在其上。

不过,这种方式也会面临挑战,因为你每次将铜线上的带宽增加一倍,线路上的垃圾也会增加一倍,因此您只能在一半的线路长度上获得干净的信号。当(不是如果)Nvidia 将其 NVLink 6 端口的带宽与其下一代“Rubin”GPU 加速器一起增加一倍时,这意味着它只能跨越半个机架的 GPU,如果它们的运行温度也更高,那么它可能远远少于半个机架。这显然不是一个目标。

因此,在 GPU 上甚至在 CPU 上切换到 CPO 有了最佳理由,因为未来的“Vera”CPU 上也使用 NVLink 6 端口。无论如何,随着 AI 推理工作负载的增长,Nvidia 希望将 GPU 的 NUMA 域增加 2 倍或 4 倍,但将其减半。

不过,在本届的GTC大会上,英伟达并没有提出针对 GPU 或与之相连的 HBM3E 或 HBM4 内存组进行 CPO。不过,他们公布了其采用硅光子学并在其 Quantum InfiniBand 和 Spectrum Ethernet 系列交换机中部署共封装光学器件 (CPO) 的计划,这不仅是一个令人兴奋的发展,而且事实证明它将在很大程度上降低数据中心规模 AI 系统中网络的功率需求。

网络中光学器件的功耗巨大,资本支出也巨大。有传闻称,我们曾多次听说,数据中心规模集群的大部分成本都来自链路两端的光学收发器以及它们之间的光缆。将交换机连接到网络接口卡的一些部件占网络成本的 75% 到 80%,而交换机和 NIC 占另外 20% 到 25%。这听起来很疯狂。

从英伟达他们提供的两张图表让我们了解到数据中心运营商在使用光链路交叉连接数据中心的服务器和存储时面临的问题。

如上图所示,这是一个基于使用服务器节点的数据中心,每个服务器节点中每四个 GPU 配备两个 CPU(如 GB200 NVL72 机架式 MGX 系统设计),数据中心中有 100000 台服务器,因此有 400000 个 GPU。(如果您使用 HGX 设计,它不会完全连接机架内的 GPU 内存,而只会连接服务器节点内的 GPU 内存,那么每四个 GPU 就会有一个 CPU,只需要 50,000 台服务器即可容纳 400,000 个 GPU,但它占用的空间只有一半,光收发器也略少。但它占用的空间是原来的两倍。)

换而言之,无论如何,Nvidia 选择的方案将有 240 万个光收发器,这些可插拔模块插入每个服务器端口和每个交换机端口,将电信号转换为可通过光纤管道传输的光信号。这 240 万个收发器使用 40 兆瓦的功率,而这些可插拔模块上的激光器占其中的 24 兆瓦。

在“传统”超大规模和云数据中心中,收发器采用 Clos topology,而不是像 AI 或 HPC 超级计算机那样采用full fat tree topology,因此在收发器上消耗的功率约为 2.3 兆瓦,如果将数字倒推,则略低于 140000 个此类可插拔模块。收发器数量如此之少的原因很简单:一台拥有一两个 CPU 的服务器执行 Web 基础设施甚至搜索引擎抓取任务时只有一个端口,而 GPU 服务器则需要为每个 GPU 配备至少一个端口。AI 超级计算机中计算引擎的数量推动了光收发器的使用。

现在,业界提供了一个摆脱它们的完美借口,Nvidia 正在其下一代 Quantum-X InfiniBand 和 Spectrum-X 交换机上实现这一目标,并且可能最终会在其 Connect-X SmartNIC 和 BlueField DPU 上实现这一目标,正如我们上面指出的那样,GPU 和 CPU 上的 NVLink 端口以及 NVSwitch 内存原子交换机(memory atomic switches)上。

如上图所示,Nvidia 采用了两种不同的共封装光学器件方法,这些方法由 Nvidia 和图表底部的众多合作伙伴共同开发。硅光子引擎由 Nvidia 自己创建(Mellanox 在制造可插拔光学器件方面拥有丰富的专业知识),并且为这些交换机 ASIC 创建了一种新的微环调制器 (MRM) 设计,以集成其光学器件。

在 800 Gb/秒端口中转向 200 Gb/秒信号通道可能是迫在眉睫的挑战。仅仅将信号从交换机 ASIC 传输到面板上的端口就需要大量的信号重定时器(每个端口可能多达两个),而且正如 Astera Labs 的财务报表所示,成本“肯定会增加”。

Nvidia 还与晶圆厂合作伙伴台湾半导体制造公司合作,优化其自己的光子引擎设计,并包括高功率(和高效率)激光器和可拆卸光纤连接器。

正如您在上图左侧看到的,未来带有 CPO 的 Quantum-X InfiniBand ASIC 拥有一个单片交换机 ASIC 芯片,该芯片带有六个不同的 CPO 模块,每个模块都有三个连接器,总共看起来像 18 个端口,运行速度为 800 Gb/秒,但实际上是 36 个端口(每个插头似乎有两个端口)。

显然,这款 InfiniBand 小型 CPO 模块旨在降低成本,并实现高产量制造。这只是第一步,它不会导致高基数的交换机,因此需要大量的交换机通过服务器上的 NIC 连接一定数量的 GPU 端口。

Spectrum-X 带 CPO 具有多芯片设计,用于以太网交换机 ASIC,具有一个单片数据包处理引擎,由八个 SerDes 芯片组(每侧两个)包裹,然后在角落处有四个未知芯片组,我们不知道它们在做什么。Spectrum-X CPO 芯片的每一侧都有九个端口,总共 36 个端口,运行速度为 800 GB/秒。

在这两种设计中,SerDes 的运行速度均为每通道 224 Gb/秒,每个端口由四条通道组成,编码开销总共损失 96 Gb/秒,因此每个端口的净速度为 800 Gb/秒。Quantum-X ASIC 上的 SerDes 总共有 72 条通道,Spectrum-X chiplet 系列上的 SerDes 有 144 条通道。

由于所有超大规模企业和云构建者都希望将以太网用作其 AI 集群的后端网络,并且大多数其他新云和许多 HPC 超级计算中心预计也会效仿,因此 Shainer 重点关注了 Spectrum-X 带来的好处。

首先,我们来看看 Nvidia 是如何进行 CPO 封装的,以及效果如何。然后我们再来看看交换机本身。

以下是其示意图,以及使用集成光学器件和在交换机中使用集成激光源可以节省多少电量,有趣的是,计算结果显示的是 1.6 Tb/秒端口,这是数据中心的未来,而不是现在:

如上图所示,光收发器上的数字信号处理器耗电 20 瓦,为收发器提供光源的外部调制激光器耗电 10 瓦。因此,240 万个收发器共有 30 瓦,用于交叉连接 100,000 台服务器和 400,000 个 GPU。当我们进行计算时,我们得到的是 72 兆瓦,而不是 40 兆瓦(这可能是 800 Gb/秒的端口号)。

使用 CPO,交换机盒中有一个连续波激光源,每个端口消耗 2 瓦功率,光学引擎集成了 Spectrum 交换机 ASIC 使用的相同基板,消耗 7 瓦功率。因此,现在每个端口的功率降低到 9 瓦,跨越 240 万个链路,功率降低到 21.6 兆瓦。根据我们的计算,链路功率减少了 3.3 倍。

使用 CPO 不仅可以降低功率,而且由于信号组件之间的转换更少,因此整体端到端配置中的噪声也更少。请看一看:

每次从一个组件跳转到另一个组件时,都会产生信号噪声,而当可插拔光学器件连接到交换机时,收发器和交换机打印机电路板、基板和端口笼之间会有五次转换,总共会产生 22 分贝的信号损失。使用 CPO,基板中有一个转换,用于将交换机 ASIC 连接到硅光子模块,信号损失仅为 4 分贝。这意味着信号噪声降低了 5.5 倍。

所有这些的效果如下:

上图显示,在相同的光学功率范围内,GPU 数量可以增加 3 倍,但正如我们上面所看到的(您也可以从图表中亲眼看出),实际数量是 3.3 倍。值得注意的是,连接任意数量的 GPU 所需的激光器数量也将减少 4 倍以上。当然,诀窍是将激光源置于 Quantum-X 和 Spectrum-X 交换机内部,以便在发生故障时轻松在现场更换,或者足够可靠,不用担心发生故障。因此,带有 CPO 的 Quantum-X 和 Spectrum-X 交换机将采用液体冷却,这样可以让它们在更冷的温度下运行,并且不会让激光器变得异常。

目前,Nvidia 计划推出三种不同的交换机,推出共同封装的光学产品。

第一款是 Quantum 3450-LD,其机箱内有四个 Quantum-X CPO 插槽,以无阻塞方式完全连接,以 800 Gb/秒的速度提供 144 个端口,这些端口的总有效带宽为 115 Tb/秒。(我们想知道为什么不是六个,您需要将四个 ASIC 呈现给面板,其中两个用于将四个 ASIC 联网在一起。)这款 Quantum-X 交换机将于 2025 年下半年上市。

以下是配有全电缆接口的 Quantum-X 交换机:

两款采用 CPO 的 Spectrum-X 交换机将需要更长时间才能投入使用,预计要到 2026 年下半年。

Nvidia 的第一款配备 CPO 的以太网交换机是 Spectrum SN6810,它将配备单个 Spectrum-X CPO 设备,并为 128 个以 800 Gb/秒运行的端口提供 102.4 Tb/秒的总带宽。(封装上显然有一些额外的 CPO 单元,以提高封装良率。)Spectrum SN6800 交换机非常出色,拥有 512 个以 800 Gb/秒运行的端口,机箱内的四个 ASIC 总共提供 409.6 Tb/秒的有效总带宽。不过,我们想知道为什么机箱中没有六个 Spectrum-X CPO ASIC,而是四个,以便以无阻塞方式交叉连接它们。

写在最后

虽然黄仁勋在会上激情慢慢,公司新发布的产品也同样引起了广泛讨论。而且,据彭博社报道,OpenAI 斥资 1000 亿美元建设的星际之门基础设施项目的首个数据中心综合体将拥有容纳多达 40 万个 Nvidia 公司强大的 AI 芯片的空间——如果能够装满,它将成为已知最大的人工智能计算能力集群之一。

Meta也表示,它计划在 2024 年底之前拥有相当于 600,000 台 Nvidia H100(该公司数据中心半导体的上一代产品)的计算能力。专注于 AI 的云提供商 CoreWeave Inc. 在本月初的公开募股文件中表示,该公司在 32 个数据中心拥有超过 250,000 个 Nvidia 图形处理单元。

但是,无论是谷歌联手MTK打造芯片,还是Meta测试最新训练芯片,或者是最新的亚马逊AI芯片服务降价与和英伟达竞争,都在给这家芯片巨头带来新的挑战。

而且,投资者似乎对这一主题演讲并不太感兴趣。

在主题演讲之前,Nvidia的股价约为每股 118 美元,盘中下跌约 1.5%。在美国东部时间下午 3:15 左右收盘后,股价继续下跌。截至周二午后交易,该股下跌逾 3.4%。

这让我们不得不发出疑问,GPU巨头,还能火多久?

附:黄仁勋演讲Keynote重点

在演讲中,黄仁勋表示,“GTC 从 GeForce 起步”

Jensen 手里有一台 GeForce RTX 5090,为了进行比较,还有一台 RTX 4090。

Jensen 正在展示路径追踪环境——其中配备了强大的 AI 来提供升级、去噪等功能。

“生成式人工智能从根本上改变了计算方式”

AI 现在有了代理——Jensen 称之为“Agentic”AI。模型可以从网站检索内容,既可以作为训练,也可以作为更直接的信息检索。

Jensen表示,他们今天还将详细讨论推理人工智能。

以及“physical AI”,使用AI来帮助模拟和训练其他AI模型。

“让 GTC 做大的唯一方法就是发展圣何塞。我们正在努力!”

每年都有更多的人加入,因为人工智能能够为更多的人和公司解决更多的问题。

三个基本缩放定律:

训练前扩展、训练后扩展和测试时扩展。如何创建、如何训练以及如何扩展?

扩展:去年几乎全世界都犯了错误。推理所需的计算量很容易就比去年全世界认为的要多 100 倍。

我们现在有了能够通过思维链和其他技术逐步推理的人工智能。但生成令牌的底层过程并没有改变。相反,这种推理需要更多的令牌——高得多,“很容易多 100 倍”。

为了保持模型的响应,每秒所需的计算量同样很高。

强化学习是过去几年的重大突破。为人工智能提供数百万个不同的示例,让其逐步解决问题,并在人工智能做得更好时奖励(强化)。这相当于数以万亿的Token来训练该模型。换句话说:生成合成数据来训练人工智能。

Jensen表示,硬件销售行业已经接受了这一举措。

Hopper 的出货量在云服务提供商中名列前茅。Hopper 的巅峰之年与 Blackwell 的第一年相比。

仅一年时间(Blackwell 刚刚开始出货),NVIDIA 就报告其企业级 GPU 销量显著增长。

Jensen预计数据中心的建设投资很快就会达到一万亿美元。

Jensen 认为,我们正看到数据中心建设向加速计算(即 GPU 和其他加速器而不仅仅是 CPU)发展的转折点。

“计算机已经成为Token的生成器,而不是文件的检索器。”这就是 NVIDIA 所说的 AI 工厂。

虽然数据中心中的一切都将加速,但并非所有一切都将是人工智能。

您还需要物理、生物和其他科学领域的框架。NVIDIA 已将所有这些作为其 CUDA-X 库的一部分提供。cuLitho 用于计算光刻,cuPynumeric 用于数值计算,Aerial 用于信号处理等。这是 NVIDIA 在更大行业中的“护城河”。

“我们将于周四在 GTC 举办第一届量子日。”

“CUDA 的安装基础现在无处不在”通过使用这些库,开发人员的软件可以覆盖每个人。

Blackwell 比第一代 CUDA GPU 快 50,000 倍以上。

Jensen在随后的演讲中指出,我热爱我们所做的事情。我更热爱你们所做的事情。

CSP 喜欢 CUDA 开发人员是 CSP 客户。

但现在他们要把人工智能带到世界其他地方,情况正在发生一些变化。GPU 云、边缘计算等都有自己的要求。

在 NV 的众多小型公告中,几家公司(思科、T-Mobile 等)正在利用 NVIDIA 的技术(Ariel-Sionna 等)为美国无线电网络构建全栈。

但这只是其中一个行业。自动驾驶汽车也是如此。AlexNet 说服 NVIDIA 全力投入自动驾驶汽车技术。现在他们的技术正在世界各地使用。NVIDIA 制造用于训练、模拟和自动驾驶汽车的计算机。

NVIDIA 宣布通用汽车将与 NVIDIA 合作打造其未来的自动驾驶汽车车队。

“自动驾驶汽车的时代已经到来”

NVIDIA 已让第三方对所有 700 万行代码的安全性进行了评估。安全性似乎是 NVIDIA 今年汽车业务的关键词。

数字孪生、强化学习、生成多样化场景等。全部围绕 NVIDIA Cosmos 构建。使用 AI 创造更多 AI。

现在讨论数据中心。

Grace Blackwell 现已全面投入生产。Jensen 正在展示其合作伙伴提供的各种机架系统。

NVIDIA 花了很长时间研究分布式计算——如何纵向扩展,然后如何横向扩展。横向扩展很难;因此 NVIDIA 必须首先使用 HGX 和 8 路 GPU 配置进行纵向扩展。

Jensen 正在展示 NVL8 系统的构建。重点强调了过去。

为了克服这一问题,NVIDIA 必须重新设计 NVLink 系统的工作方式,以进一步扩大规模。NVIDIA 将 NVLink 交换移出机箱,并将其移至机架单元设备。“分解式 NVLInk”

现在 NVIDIA 可以在一个机架中提供一个 ExaFLOP(低精度)。

Blackwell GPU 已经突破了标线极限,因此 NVIDIA 通过采用现在的机架级系统而不是单个服务器来扩大规模。

反过来,所有这些都有助于为人工智能提供计算性能。不仅用于训练,还用于推理。

Jensen 展示了大规模计算的推理性能曲线。简而言之,它是总吞吐量和响应能力之间的平衡。保持系统饱和将最大化令牌吞吐量,但生成单个令牌需要很长时间。时间太长,用户就会转向其他地方。

这是典型的延迟与吞吐量的权衡。

因此,对于 NVIDIA 的 CSP 合作伙伴和其他使用 NV 硬件进行推理的客户来说,为了最大化他们的收入,他们需要仔细选择曲线上的一个点。通常,理想的点是向上和向右 - 吞吐量和响应能力最高,而不会显着损害一个以换取另一个的微小改进。

所有这些都需要 FLOPS、内存带宽等。因此 NVIDIA 构建了硬件来提供这些功能。

传统的 LLM 速度快、效率高,但在 NVIDIA 的婚礼座位用例中却不尽如人意。浪费了 439 个 token。推理模型可以处理它,但需要超过 8,000 个 token。

要使所有这些性能优异,不仅需要大量硬件,还需要大量优化的软件,直至操作系统,以处理批处理等基本优化。

预填充(消化信息)非常耗费 FLOPS。下一步,解码,需要耗费大量内存带宽,因为模型需要从内存中提取;输入数万亿个参数。所有这些都是为了产生 1 个 token。

这就是你需要 NVLink 的根本原因。将多个 GPU 整合成一个巨大的 GPU。

然后这可以进行进一步的优化。将使用多少个 GPU 来进行预填充和解码?

公告:NVIDIA Dynamo,分布式推理服务库。AI Factory 的操作系统。

Jensen 在范围方面将 Dynamo 与 VMWare 进行了比较。VMWare 是建立在 CPU 系统上的,而 Dynamo 是建立在 GPU 系统上的。

Dynamo 是开源的。

现在回到硬件和性能。Jensen 正在将 NVL8 Hopper 设置与 Blackwell 进行比较。每兆瓦每秒token数与每用户每秒token数的对比图。

“只有在 NVIDIA 你才会被数学折磨”

对于服务提供商来说,长时间内拥有大量token就意味着大量收入。请记住吞吐量与响应度之间的权衡。这是 NVIDIA 试图改变的曲线。

Blackwell 改进了这一点,提供了更好的硬件和对低精度数据格式 (FP4) 的支持。使用更少的能量做与以前相同的事情,从而做更多的事情。

“未来每个数据中心的电力都将受到限制。”“我们现在是一个电力受限的行业”。

Dynamo 让 Blackwell NVL72 运行速度更快。这是在等功率下,而不是等芯片下。一代速度提升了 25 倍。

现在讨论一下帕累托前沿和帕累托最优,以及各种模型配置如何达到曲线上的不同点。

在其他情况下,Blackwell 的性能(等功率)可达到 Hopper 的 40 倍。

“我是主要的收入破坏者。”“有些情况下,Hopper是没问题的。”

事实就是如此:“买得越多,省得越多。”“买得越多,赚得越多。”

NVIDIA 还讨论如何为数据中心构建数字孪生。(毕竟,在 NV 的世界里,它只是另一家工厂)

最终,使用数字孪生可以提前规划和优化所有这些,然后最终构建一次并快速构建。

Blackwell Ultra NVL72 将于今年下半年出货。1.1 Exaflops 密集 FP4 推理。2 倍网络带宽。20TB HBM 系统内存。还有一条新的注意指令,性能应该会翻倍。

行业现在正处于必须规划支出的阶段。各公司正在对硬件、设施和 NVIDIA 生态系统做出多年承诺。这就是 Jensen 希望明确 NVIDIA 路线图的原因。

继布莱克威尔之后的是发现暗物质的Vera Rubin。

Vera Rubin NVL144,2026 年下半年。Vera Arm CPU + Rubin GPU。

未来,NVIDIA 在谈论 NVLink 域时将计算 GPU 裸片,而不是单个 GPU 芯片。因此 NVL144 是 144 个裸片,而不是 144 个芯片。

然后是 2027 年下半年的 Rubin Ultra NVL576。每机架 600KW。15 ExaFLOP。每个 GPU 封装 1TB HBM4e 内存。

Rubin将大幅降低人工智能计算的成本。

以上就是关于纵向扩展的讨论。现在是时候讨论横向扩展和 NVIDIA 的网络产品了。

Jensen 正在重述 NVIDIA 收购 Mellanox 并进军网络市场的决定。

CX-8 和 CX-9 即将问世。NVIDIA 希望在 Rubin 时代能够将 GPU 规模扩展到数十万个。

横向扩展意味着数据中心将达到体育场的大小。铜线连接无法满足需求。光纤是必需的。而光纤可能非常耗能。因此,NVIDIA 计划利用共封装硅光子技术提高光纤网络的效率。

基于一种称为微环调制器 (MRM:Micro Ring Modulators) 的技术。台积电采用他们一直在晶圆厂开发的全新 3D 堆叠工艺制造。

Jensen 正在谈论当前光纤网络的工作原理,即两侧每个端口都有单独的收发器。这种方式可靠且有效,但从电到光的转换(以及从电到光的转换)会消耗较少的电量。

“每个 GPU 都有 6 个收发器”。这将耗费 180 瓦(每个 30 瓦)的功率和数千美元的收发器费用。

收发器消耗的所有电力都无法用于 GPU。这使得 NVIDIA 无法向客户销售更多 GPU。

采用TSMC的COUPE封装

NVIDIA 将于 2025 年晚些时候推出硅光子 Quantum-X(InfiniBand)交换机,然后在 2026 年下半年推出 Specturm-X(以太网)交换机。

无需收发器 – 直接光纤输入。Spectrum-X 交换机上最多有 512 个端口。

节省 6 MW 意味着数据中心可以添加 10 个 Rubin Ultra 机架。

Rubin之后的下一代 GPU 是谁?传奇人物理查德·费曼 (Richard Feynman)。

现在转向系统。

到今年年底,100% 的 NVIDIA 软件工程师将由人工智能辅助。我们需要一条新的计算机生产线。

宣布推出 DGX Spark。这是 NVIDIA 之前宣布的 Project DIGITS 迷你 PC 的最终名称。

DGX Spark 和 DGX 站。

GPU 加速存储。NVIDIA 一直与所有主要存储供应商合作。

戴尔将提供全系列基于 NVIDIA 的系统。

NVIDIA 还宣布推出新的开源模型:NVIDIA Nemo Llame Nemotron Reasoning。

接下来,谈谈机器人技术。

“世界严重缺乏人力工人”

反过来,这些机器人将通过物理世界的人工智能模拟进行训练。

隆重推出 NVIDIA Isaac GROOT N1。

“物理人工智能和机器人技术发展如此之快。每个人都关注这个领域。这很可能是最大的行业。”

Jensen 正在重述 Omniverse + Cosmos 模拟的工作原理。使用 Cosmos 创建各种环境来帮助训练。

机器人技术中可验证的奖励是什么?物理学。如果机器人的行为符合物理规律,那么就可以验证其准确性。

Blackwell 正在加速发展,但 NVIDIA 已经将目光锁定在 2025 年底推出的 Blackwell Ultra、2026 年推出的 Vera Rubin、2027 年推出的 Rubin Ultra 和 2028 年推出的 Feynman。

参考链接

https://arstechnica.com/ai/2025/03/nvidia-announces-rubin-ultra-and-feynman-ai-chips-for-2027-and-2028/

https://www.cnbc.com/2025/03/18/nvidia-announces-blackwell-ultra-and-vera-rubin-ai-chips-.html

https://www.tomshardware.com/pc-components/gpus/nvidia-announces-rubin-gpus-in-2026-rubin-ultra-in-2027-feynam-after

https://www.theverge.com/news/631835/nvidia-blackwell-ultra-ai-chip-gb300

https://www.nextplatform.com/2025/03/18/nvidia-weaves-silicon-photonics-into-infiniband-and-ethernet/

https://www.servethehome.com/nvidia-gtc-2025-keynote-live-coverage/

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。


反馈
联系我们
推荐订阅