英伟达、阿里重新定义AI价值,FLOPS逐渐让位给Token/W

2026-03-20 14:30:20
关注

英伟达、阿里重新定义AI价值,FLOPS逐渐让位给Token/W

图片由AI生成

文|姚金鑫、晓静

编辑|徐青阳

3月17日,英伟达CEO黄仁勋身着标志性的皮夹克,在GTC 2026大会上进行了两个多小时的演讲。会后,网络热议“英伟达要做Token之王”。然而,若细致回顾整个演讲内容,可以发现黄仁勋真正强调的,并非Token数量,而是“每瓦Token产出”(Tokens per Watt)。

他在展示推理性能图时明确提出,每座数据中心、每座AI工厂,本质上都受到电力的严格限制。一座1GW的工厂无法扩展为2GW,这是物理定律所决定的。在功率不变的前提下,谁能在单位能耗内产出更多Token,谁就能降低运营成本、提高收入。

这句话实际上揭示了GTC 2026的真正核心。

舆论热衷于讨论Vera Rubin比Blackwell强多少倍,Groq LPX的推理速度提升35倍,甚至英伟达计划将数据中心部署到太空中。这些话题固然吸引眼球,但它们本质上都指向同一个主题:在电力受限的前提下,如何实现AI的高效产出。

当黄仁勋将“Tokens per Watt”作为衡量AI工厂产出的核心指标时,实际上也揭示了一个更深层次的产业变化——算力竞争的度量体系正从芯片层迈向系统层,从峰值计算能力转向端到端能效。衡量标准不再只是芯片的性能,而是整个系统如何将电力转化为智能。

在当前的技术和产品格局下,英伟达和黄仁勋尚未完全突破“Token/W”的瓶颈。要真正成为“Token之王”,还需在多个维度上取得突破。

这是一次“智能度量语言”的迁移,而这场迁移带来的产业视角转变,远比任何一颗新芯片都更有价值。

巧合的是,在GTC 2026正式开幕前一天,阿里巴巴宣布成立Alibaba Token Hub,由吴泳铭亲自负责。阿里巴巴并未将AI战略命名为“智能系统”,而是直接以“Token”为核心,这表明Token在AI产业中的战略地位已显著提升。

这同样反映出,行业正在从以芯片为中心的视角,逐步转向以系统为中心的思考方式。这也正是这篇文章的核心观点。

01

GTC 2026最值得关注的变革,不在芯片本身

尽管GTC 2026的焦点仍是Vera Rubin、Rubin POD、LPX、DSX AI Factory等新品与新概念,但将这些技术整合来看,可以发现算力竞争的边界已从单一芯片扩展至整个AI基础设施体系。

Rubin被定义为POD规模平台,多个机架组合成一个高度协同的大规模系统;而DSX则作为AI工厂的参考架构,旨在最大化每瓦Token的产出。

这表明,产业竞争的核心正在从“芯片算力有多强”,转向“整个系统能效有多高”,更具体地说,就是系统如何在有限的电力、散热和网络条件下,稳定地输出AI结果。

而衡量这一产出的核心指标,就是每瓦Token数(Token/W)。

本文试图通过Token/W这一度量单位,深入解析GTC 2026所传递出的产业信号,并探讨其对AI基础设施发展的深远影响。

02

系统视角下的度量体系,不能再停留于芯片层级

在芯片主导的时期,衡量标准主要包括FLOPS、显存带宽、FLOPS/W、TOPS/W、bit/J等。这些指标帮助定义了单一组件的能力边界。

然而,这也带来一个现实问题——目前智能数据中心缺乏一个统一、客观、通用的系统度量标准。

通常,数据中心的容量以MW(兆瓦)衡量,国内智能算力中心则以PFlops(基于FP16)作为基准。然而,即使算力和电力相同,如果芯片、网络与散热设计不同,系统效能也会差异巨大。

原因在于,传统指标只能反映单一维度。例如,FLOPS反映的是理论算力,bit/J衡量的是局部数据搬运能效,而带宽描述的则是子系统的通信能力。

然而,AI系统最终需要回答的问题是:在给定的功率预算、散热条件和机房约束下,系统能稳定输出多少AI结果?这一问题,无法通过芯片层级指标单独解决。

从英伟达的发布来看,其关注的指标已扩展到Token成本、每瓦吞吐量、每瓦Token性能等。

度量语言正在从“部件语言”过渡到“系统语言”。

因此,如果说芯片层的度量单位是FLOPS、带宽和 bit/J,那么系统层的合理度量,就应是Token/W。前者衡量组件性能,后者衡量系统整体产出;前者追求局部最优,后者则追求系统最优。

03

Token/W连接起能源到智能产出的完整链条

在GTC 2026的演讲中,黄仁勋将Token描述为现代AI的基本单位。这一说法精准地捕捉了当前大语言模型、推理服务和Agent系统的核心价值所在:用户买单的,本质上是系统处理和生成Token的能力。

从业务角度看,Token具备三个优势:1)与模型推理过程紧密关联;2)与收入模型直接挂钩;3)适用于推理时代的新型计算负载。

Agent系统、多轮对话、长上下文、检索增强、工具调用、推理链等复杂任务,虽难以用FLOPS描述,但可在Token、延迟与吞吐率等维度上体现。

更重要的是,AI基础设施的底层约束正日益体现为能源约束。国际能源署(IEA)《Energy and AI》报告预测,2030年全球数据中心的用电量将达到约945TWh,其中AI驱动的增长尤为显著。

Token/W的价值在于,它将电力输入与Token产出连接起来,构建了一条完整的智能价值链。

从这个角度看,Token/W并非简单替代FLOPS/W或bit/J,而是填补了系统层视角的空白——AI系统到底将多少能源,转化成了多少智能。

本次GTC 2026最值得探讨的,恰恰在于这一视角的转变。不能再孤立地看待芯片,而是将其纳入系统,再将系统置于产业约束中。

这也是作者一直倡导的系统视角。评估AI芯片时,不能只关注算力峰值、内存带宽或接口参数,还需考虑它在系统中的协同能力、部署方式、能耗结构,以及最终在业务端的产出效率。

GTC 2026在一定程度上,验证了这一系统视角。当英伟达自身都将核心叙事转向AI工厂时,整个产业正从以AI芯片为中心,迈向以AI系统为中心。

这一点至关重要。产业在早期往往沉迷于部件参数,因为它们易于测量和宣传。但一旦进入大规模部署阶段,胜负往往取决于系统组织能力。当前的AI基础设施,正处在这一关键阶段。

04

Token/W体系下,光互连地位显著上升

一旦度量体系转向系统级,许多此前被视为配套设施的技术环节,其战略地位将显著提升。

光互连便是其中最具代表性的例子。

过去,行业对光互连的讨论多集中于光模块、通信带宽、器件性能等。然而,在Token/W框架下,光互连的价值变得更加直观——它降低数据搬运的能耗,提升大规模AI计算系统将电力转化为Token的能力。

在介绍英伟达光网络产品时,基于光子的CPO(共封装光子)相比传统光模块,可实现最高5倍的能效提升,同时降低延迟,支撑更大规模AI工厂的扩展。

这说明,光互连的价值已不再局限于链路性能,而是系统能效与扩展性。

从产业逻辑上看,这一趋势十分合理。随着模型规模、上下文长度和集群规模的增加,系统中许多能耗并不发生在计算单元,而是发生在跨芯片、跨板卡、跨机柜、跨POD的通信中。

在这一阶段,提升Token/W已不能仅依靠更强大的GPU,还需要更高效的互连技术。

因此,从Token/W的角度出发,发展光互连的原因并非其前沿性,而是它已成为大规模AI系统中不可或缺的节能手段。

05

光计算虽尚处早期,但在系统视角下逻辑愈发清晰

相较光互连,光计算仍处于更早期阶段。通用性、精度、编译器、制造一致性与系统集成等问题仍需时间解决。

然而,从系统视角来看,其产业意义已较以往更为清晰。

原因在于,Token/W关注的是端到端能效。谁能在高频、高密度、可重复映射的计算路径中显著降低能耗,谁就有可能在系统层提升Token产出效率。这一逻辑并不依赖光计算全面替代GPU,也不要求它一步到位成为通用计算底座。

它只需在某些关键负载中,有效降低J/token,提高固定功率下的Token产出。

这也意味着,光计算的产业叙事应从单点器件效率,转向系统层节能贡献。若仅从TOPS/W、MAC/J等指标出发,它更像实验室故事;但若从Token/W视角出发,它则有机会进入基础设施讨论。

这一变化对光计算而言极为关键。它终于拥有了一个能与客户、园区、电力和资本开支对话的上层语言。

06

当算力度量从芯片迈向系统,光互连与光计算正式进入产业主线

当算力竞争还主要停留在芯片层面时,光互连被视为I/O技术,光计算更像是前沿器件探索。

但当竞争进入AI大规模系统级基础设施时,情况发生了变化。系统能效越来越依赖于密集计算的能耗、数据搬运、上下文管理、跨节点协同、供电和热管理。这些环节,正是光学技术最具潜力的领域。

从Token/W的角度看,光互连主要解决的是Token生成过程中的数据搬运能耗;而光计算则尝试降低每个Token背后的计算能耗。二者共同作用,影响的是系统的Token产出效率。

这正是它们进入产业主线的根本原因。

更现实地说,除了芯片产能与供给,未来数据中心和AI工厂还将面临电网接入、机房散热、园区能耗、机柜功率密度及投产速度等限制。国际能源署对AI能耗的预测,以及英伟达对AI工厂的阐述,都指向同一个方向:AI基础设施正在演变为一个以能源为核心衡量标准的系统工程。

从这一趋势出发,光互连与光计算所解决的,正是AI时代日益昂贵、难以通过传统电学路径优化的难题:数据搬运能耗和高密度计算的单位能耗。

这一趋势背后,体现的是一种更系统的产业思维。这也是GTC 2026再次强调硅光与光子技术的原因所在。

当算力度量从芯片迈向系统,光学技术将逐步从前沿选项,转变为可建设的基础设施。

从这一视角看,CPO与光计算系统的发展前景十分可期。

写在最后:AGI发展的核心轴线

作者在日常工作中一直推动建立可量化、可比较的算力度量标准,并采用Token/W来评估不同芯片的性能表现。

回顾科技史,当内燃机的能量与重量比持续提升时,汽车得以诞生,飞机得以起飞,火箭得以升空。

而在AI时代,当系统产出的Token与能耗的比值越来越高时,智能也将变得更加高效,AGI的诞生也将在其中成为可能。

GTC 2026上真正值得关注的,并非英伟达一家公司的成败,也非黄仁勋是否成为“Token之王”,而是AI时代新度量衡的明确。

更进一步地说,英伟达、阿里以及众多行业巨头,已逐步意识到必须从系统思维出发,看待AI产业的发展。

这与人类文明发展的主线高度一致:用更少的能量,采集、传输并处理更多信息。

AGI也不会例外。

关于作者

本文作者姚金鑫(J叔)为芯片创业者,CCF高性能计算专委会执行委员

来源:腾讯科技

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

广告
提取码
复制提取码
点击跳转至百度网盘