英伟达与阿里重塑AI算力评价体系,Token/W成新基准
图片由AI生成
文|姚金鑫、晓静
编辑|徐青阳
在英伟达GTC 2026大会的舞台上,黄仁勋身着标志性的皮夹克,连续两小时向全球观众展示其对AI未来的设想。会后,众多媒体报道将焦点放在“英伟达要做Token之王”这一说法上。
然而,若深入解读黄仁勋的演讲内容,可以发现他真正强调的核心并非Token数量本身,而是“每瓦Token数”(Tokens per Watt)。他在展示推理性能时明确指出,数据中心与AI工厂的能效是决定其竞争力的关键。
黄仁勋直言不讳地表示,一座AI工厂的电力资源是有限的,无法突破物理限制。因此,在相同功率预算下,谁能在单位能耗中产出更多Token,谁就能在成本控制和盈利能力上占据优势。
这一论断揭示了GTC 2026大会的核心主题:算力的度量标准正在从芯片层面,向系统级基础设施转移。
尽管外界对Vera Rubin、Blackwell、Groq LPX等新技术和产品充满兴趣,但这些本质上都是围绕“Token/W”这一核心概念展开的讨论——即如何在能源受限的背景下,最大化智能产出。
黄仁勋的发言不仅关乎英伟达自身战略,更揭示出整个产业正在经历一次“度量语言”的迁移。从芯片性能转向系统级能效,从峰值计算能力转向实际应用中的能量转化效率。
值得注意的是,就在GTC 2026开幕前一日,阿里巴巴宣布成立“Alibaba Token Hub”,由集团高级副总裁吴泳铭领导。这一举动将Token提升至阿里AI战略的核心层级,表明行业对系统级AI能力的认知正在加速成熟。
01 GTC2026的真正焦点:算力系统化
GTC 2026上,Vera Rubin、Rubin POD、LPX和DSX AI Factory等新产品的推出引发了广泛关注。但若将这些发布整合起来看,会发现英伟达正在推动算力竞争的边界从单颗芯片扩展至整个AI基础设施。
Rubin被定义为“Pod规模平台”,多个机架协同构成一个大规模、高一致性的AI系统;而DSX则是面向AI工厂的参考架构,目标是实现每瓦Token产出的最大化。
这标志着AI产业的比拼已不再局限于芯片层面的算力竞赛,而是进入到了一个系统工程的阶段。核心问题是:在给定的电力、冷却与网络资源下,如何构建一个高效且稳定的AI生产系统。
而衡量这一系统的指标,正逐渐聚焦于“每瓦Token数”。
本文旨在通过分析这一度量单位,揭示GTC 2026传达出的核心思想,以及它对中国AI基础设施建设的深远影响。
02 系统竞争下,度量标准必须升级
在芯片时代,衡量算力的主要指标是FLOPS、带宽、bit/J等,这些参数描述了芯片的理论性能边界。
但在实际应用中,这些指标无法为整个AI系统提供统一的度量标准。当前数据中心普遍以PFlops或MW作为衡量单位,但不同架构的系统在相同功率下,其产出差异巨大。
根本原因在于,传统度量单位仅反映系统某一局部的能力,而无法衡量整个系统的综合性能。
在英伟达最新的话语体系中,出现频率更高的词汇是“token cost”、“每瓦吞吐量”、“每瓦token性能”等,这些指标更贴近实际应用场景。
由此,我们可以看到一个趋势:度量语言正在从芯片级语言向系统级语言迁移。
如果说芯片时代的度量语言是峰值算力和能效比,那么在系统时代,更合适的度量单位应是每瓦Token数。前者强调局部最优,后者关注系统最优。
03 Token/W:连接能源与智能产出的核心指标
在英伟达GTC 2026的官方资料中,Token被定义为“现代AI的基本单位”。这一说法恰当地概括了当前AI产业的运营逻辑:用户最终支付的,是系统处理和生成Token的能力。
从业务角度来看,Token具备三个优势:一是与模型推理过程直接相关;二是与收入模型高度绑定;三是能够适应如Agent、多轮对话、长上下文推理等新型负载。
这些新型负载难以用传统FLOPS指标衡量,但在Token、延迟和有效吞吐量(goodput)层面则更容易体现。
更重要的是,AI基础设施的底层限制正日益凸显为能源问题。IEA(国际能源署)报告显示,全球数据中心用电量预计将在2030年达到约945TWh,AI成为主要推动力。
Token/W的价值在于,它串联起整个AI生产链:从电力输入到计算、存储、网络调度,最终转化为智能输出。
从这个角度看,Token/W并不仅仅是对FLOPS/W的替代,它提供了一个新的视角——即AI系统如何将能源高效转化为智能。
因此,GTC 2026最具讨论价值的部分,正是这一系统视角的提出。它要求我们不再孤立看待芯片,而是将其置于整个系统和产业约束中进行分析。
04 Token/W视角下,光互连地位显著上升
当度量标准从芯片级迁移到系统级,一些原本被视为配套技术的环节,其重要性将显著提升。
光互连正是其中的典型代表。以往讨论光互连时,多从光模块、传输距离、带宽密度等器件视角出发,这属于芯片子系统层面。
而在Token/W的框架下,光互连的意义变得更加直观:它有助于降低数据传输能耗,提高大规模AI计算系统的整体能效。
在GTC 2026上,NVIDIA展示了基于光子的CPO技术,其能效比传统光模块高出5倍,延迟更低,支持更大规模的AI工厂扩展。
这表明,光互连的价值已从组件性能提升,转变为系统能效优化。
随着模型规模增大、上下文长度增加、集群扩展加快,数据搬运的能耗正逐渐超过计算单元本身。
因此,提高Token/W不仅依赖于更强大的GPU,还需要更高效的互连技术。
从Token/W的视角出发,发展光互连的动因已不再仅仅是前沿技术,而成为大规模AI系统的重要节能手段。
05 光计算进入系统能效优化主航道
相比光互连,光计算仍处于更早期的发展阶段。其在通用性、精度、系统集成等方面仍面临挑战。
但若从系统视角出发,光计算的产业意义正变得愈发清晰。
Token/W关注的是端到端能效。在某些计算密集型任务中,光计算可通过降低单位能量消耗,提升系统整体的Token产出效率。
这种逻辑并不要求光计算替代GPU,而是要求其在关键负载中发挥节能作用。
因此,光计算的叙事应从单点能效提升转向系统级贡献。
如果行业仍停留在TOPS/W或MAC/J的指标层面,光计算仍难进入主流讨论;但一旦引入Token/W,其在系统能效中的地位将显著提升。
这一趋势对光计算行业具有重要意义,因为它终于有了一个与电力、园区、资本等要素对话的语言体系。
06 Token/W推动光互连与光计算进入产业主线
当算力竞争仍停留在芯片层面时,光互连被视为输入输出技术,而光计算则被视为前沿探索。
但当竞争迁移到系统级AI基础设施,情况发生了变化。系统效率的提升越来越依赖于高密度计算能耗、数据搬运、上下文管理、节点协同、供电与热管理等环节,而这些正是光学技术的用武之地。
从Token/W的视角来看,光互连解决了数据搬运中的能耗问题,而光计算则致力于降低计算能耗,两者共同影响系统的Token产出效率。
这正是它们进入主流AI基础设施的原因。
随着电网接入、散热、园区能耗和机柜功率密度等问题的加剧,传统电学路径已难以满足AI系统的优化需求。
光互连与光计算的引入,正是为了解决这些高能耗问题。
从英伟达在GTC 2026上强调硅光与CPO技术来看,光学正逐步从先进选项走向产业基础设施。
写在最后:AGI的推进主轴
作者长期呼吁建立可量化、可对比的算力度量标准,并在实际测试中广泛采用Token/W作为核心指标。
回顾科技历史,内燃机的能量密度提升推动了汽车、飞机与火箭的诞生。同样,当AI系统的智能产出(Token)与能耗比持续上升时,AGI的实现也将成为可能。
GTC 2026真正值得铭记的,不仅是英伟达的战略动向,更是整个行业对系统思维的认同。
英伟达、阿里等企业正逐步意识到,AI的发展必须从系统视角出发。
这一趋势与人类文明的演进方向一致:用更少的能源,采集、传输和处理更多信息。
AGI的实现,也不例外。
关于作者
姚金鑫(J叔),芯片创业者,中国计算机学会高性能计算专委会执行委员。
来源:腾讯科技