英伟达与阿里引领AI产业思维转型:Token/W成为新度量体系

2026-03-23 16:07:25
关注

英伟达与阿里引领AI产业思维转型:Token/W成为新度量体系

图片由AI生成

作者|姚金鑫、晓静

编辑|徐青阳

3月17日,英伟达CEO黄仁勋身着标志性的皮夹克,在GTC 2026大会上进行了长达两个小时的主题演讲。会后,业界广泛热议的焦点是“英伟达是否将称霸Token市场”。但若细究演讲内容,真正被强调的,其实是“每瓦Token数”(Tokens per Watt)这一核心理念。

黄仁勋在展示推理性能数据时明确指出,数据中心与AI工厂的运行本质上受制于电力资源。以1GW为例,其容量无法通过物理手段扩展至2GW。在固定功耗前提下,系统能效越高,单位成本就越低,利润增长曲线也就越陡。

这句话揭示了GTC 2026的核心信息:AI产业的竞争逻辑正在从算力峰值向系统能效转移。

尽管媒体普遍聚焦于Vera Rubin与Blackwell的性能对比、Groq LPX的推理速度提升,以及英伟达提出的太空数据中心构想,但这些本质上都围绕着同一个核心——在能源受限的环境下,最大化单位电能的智能产出。

黄仁勋将“Token/W”定义为衡量AI系统产出的核心指标。这一转变背后,隐含着更深层的产业趋势:算力竞争的度量体系正从芯片级别跃迁至系统级别,从峰值参数转向端到端能效,从“谁的芯片更快”演进为“谁能把电能转化为智能的效率更高”。

在当前的技术与产品生态下,英伟达仍受限于Token/W的优化空间,距离真正意义上的“Token之王”仍有距离。

这一术语体系的演变,不仅是一次语言层面的迁移,更是一场产业视角的革新。它所揭示的系统性思维,远比任何单个芯片的发布更具深远意义。

巧合的是,在GTC 2026开幕前一天,阿里巴巴宣布成立“Alibaba Token Hub”,由集团CTO吴泳铭亲自领导。阿里的AI战略不再以“AI”命名,而是直接聚焦于“Token”,将Token提升至战略核心。

这一举措再次表明,系统性视角正在逐步成为AI行业的新共识。

01

GTC 2026最值得关注的变化,不在于芯片本身

本届GTC上,Vera Rubin、Rubin POD、LPX、DSX AI Factory等新产品的发布引发了广泛关注。然而,若从整体来看,这些发布共同构成了一种新的算力竞争叙事:从芯片层面上升到AI基础设施整体。

英伟达将Rubin定义为“POD-scale platform”,即多个机架组成的高规模、高相干性系统。DSX则被描述为针对AI工厂的参考架构,旨在最大化每瓦Token数。

这意味着,产业竞争的焦点已从“谁的芯片算力更高”,转向“谁的系统能效更强”,更进一步来说,是“谁能更高效地将有限的电力、散热和网络资源转化为稳定、可扩展的AI输出”。

衡量这一输出的核心单位,正是“每瓦Token数”(Tokens/W)。

本文旨在通过Token/W这一核心指标,解析GTC 2026所释放的产业信号,以及其对AI基础设施发展方向带来的深远影响。

02

当竞争对象是系统,度量体系也必须升级

在芯片时代,衡量算力的标准主要包括FLOPs、TOPS、bit/J等指标,它们能直观描述芯片的性能边界。

然而,在实际应用中,智算中心缺乏一套统一、客观、通用的度量体系。在国内,智算中心通常以PFlops(FP16)作为算力衡量标准,而在国外则更多采用MW作为电力指标。但同样的算力或电力配置,由于芯片、网络与散热系统不同,其实际效能可能差异巨大。

原因在于,传统度量方式仅关注某一维度。FLOPS衡量的是理论算力,bit/J关注的是局部搬运能效,带宽反映的是子系统的通信能力。这些指标虽然重要,但它们只能描述系统中的某个环节。

而一个完整的AI系统所要回答的问题是:在固定的功率、散热与空间条件下,系统能产生多少有效的智能输出。这一问题,芯片层级的指标无法单独解决。

英伟达在GTC 2026中提出的一系列关键指标包括:Token成本、每瓦吞吐量、每瓦Token性能等,标志着度量体系已从部件语言向系统语言演进。

换句话说,芯片层的度量关注部件能力,系统层的度量则关注整体产出。前者追求局部最优,后者则追求系统最优。

03

Token/W连接能源与智能输出链

在英伟达的官方文档中,Token被定义为现代AI的基本单位,这一表述准确揭示了其在AI系统中的核心地位。无论是语言模型、推理服务,还是Agent系统,用户所购买的核心价值,正是系统生成和处理Token的能力。

从业务角度看,Token具备三个显著优势:1)与模型推理流程高度绑定;2)与收入模型直接相关;3)能够覆盖推理时代的新型负载。

例如,Agent交互、长上下文、检索增强、工具调用和推理链等复杂场景,难以用单一的FLOPS指标衡量,却能在Token数、延迟(latency)与有效吞吐量(goodput)上留下清晰的痕迹。

更重要的是,AI基础设施的底层瓶颈正日益显现为能源瓶颈。据IEA《Energy and AI》报告预测,到2030年,全球数据中心的电力消耗将增长至约945TWh,AI成为主要驱动力之一。美国将在这轮增长中占据显著份额。

换句话说,AI产业未来的诸多挑战,表面看似芯片问题,实质上是电力、散热与基础设施组织问题。

Token/W的价值在于,它将电力输入、计算、网络、存储、调度和冷却等环节串联,最终转化为Token产出。它不是对FLOPS/W或bit/J的简单替代,而是在系统视角上补足了一层此前未能覆盖的关键维度。

AI系统究竟将多少能量转化为多少智能输出?这正是Token/W所回答的核心问题。

从这个角度看,GTC 2026最值得探讨的部分,恰是这种系统性思维的确立。它提醒我们,看AI芯片,不能仅盯着算力峰值、接口参数和内存带宽,更要关注其在网络中的协同能力、在机架中的部署方式、在园区中的电力获取方式,以及最终在商业层面如何转化为实际产出。

英伟达在GTC 2026中将重点转向AI工厂,标志着行业从“AI芯片中心主义”走向“计算系统中心主义”。这不仅是技术层面的转变,更是产业组织逻辑的演进。

事实上,任何产业在早期都容易陷入部件参数的迷恋,因为这些最容易衡量,也最容易传播。但当产业进入规模化部署阶段,决定胜负的关键往往在于系统组织能力。当前的AI基础设施,已经进入这一阶段。

04

从Token/W出发,光互连价值将显著提升

一旦度量体系进入系统层面,许多此前被视为辅助环节的技术节点,其重要性将随之上升。

光互连正是其中一个典型。

过去讨论光互连,常聚焦于光模块、通信性能与器件层面,如高带宽、低能耗、高密度等。但这些指标仍属于子系统维度。在Token/W框架下,光互连的价值更为直观:它能够有效降低数据搬运的能耗,提升大规模AI系统将电能转化为Token的能力。

在GTC 2026上,NVIDIA展示的基于光子的CPO(Co-packaged Optics)技术,相比传统光模块,能效提升最高可达5倍,同时显著降低延迟,支持更大规模AI工厂的扩展。

这一描述的重点已不再是链路的先进性,而是系统规模的扩展与能效的提升。

从业务逻辑上看,这种转变很容易理解。随着模型规模、上下文长度与集群规模的增加,系统中大量能耗并不发生在算术单元,而是发生在数据搬运环节——跨芯片、跨板卡、跨机架、跨POD。

到了这个阶段,提升Token/W,已不仅依赖于更强的GPU,更需要高效的互连系统。

因此,从Token/W的角度来看,光互连的发展意义并非因其前沿性,而是因其在大规模AI系统中已成为关键节能手段。

05

光计算虽属前沿,但其系统价值正逐步显现

与光互连相比,光计算仍处于更早期阶段,这一点必须承认。

通用性、精度、编译支持、制造一致性与系统集成等关键问题仍处于演进中。但若将观察视角转向系统层级,光计算的产业价值已变得更为清晰。

关键在于,Token/W衡量的是端到端能效。谁能在一个高频、高密度、可重复映射的计算路径上,显著降低能耗,谁就能在系统层面提高Token产出效率。

这一逻辑不要求光计算替代整个GPU架构,也不需要其立即成为通用计算底座。它只需要在特定工作负载中,实现整套系统的能量效率提升,从而在固定功率预算下,提高Token产出。

因此,光计算的产业叙事需要从单点器件效率转向系统级节能贡献。若行业仍聚焦于TOPS/W或MAC/J,光计算仍局限于实验室阶段;而一旦行业转向Token/W,它便有机会进入基础设施层面的讨论。

这一转变对光计算而言尤为关键。它终于拥有了一个可以与电力、园区、资本开支等基础设施要素对话的上层语言。

06

当算力度量从芯片走向系统,光互连与光计算进入产业主线

在算力竞争仍聚焦于芯片层面的阶段,光互连被视为I/O技术,而光计算则被归为前沿器件探索。

当算力竞争演进至AI大规模系统基础设施层面时,情况发生了根本变化。系统的整体效率越来越依赖于密集计算能耗、数据搬运、上下文管理、节点协同、供电与热管理等多个维度,而这些正是光学技术大显身手的领域。

从Token/W的角度看,光互连解决的是每个Token生成背后的数据搬运能耗问题;光计算则尝试优化每个Token中的部分计算能耗。两者共同推动的是整套系统的Token产出效率。

这正是它们进入产业主线的根本原因。

从实际角度来看,除了芯片的产能与供应链,未来AI数据中心和工厂所面临的主要约束还包括电力接入、散热能力、园区能耗、机柜功率密度以及部署速度。国际能源署此前对AI能耗的预测,以及NVIDIA对AI工厂的描绘,都在指向同一方向:AI基础设施正逐步成为以能源为衡量标准的系统性工程。

从这一新方向出发,光互连与光计算所解决的,正是传统电学路径难以继续优化的高能数据搬运与高能耗计算问题。

这背后体现的是一种更完整的系统思维。这或许正是GTC 2026为何再次强调光子与硅光技术的原因——当算力度量从芯片走向系统,光学技术将从前沿选项,逐步走向值得建设的基础设施。

从长远来看,CPO与光计算系统将大有可为。

写在最后:AGI的推进主线

作者一直主张建立一套客观、可衡量的算力评估标准,并在日常工作中运用Tokens/W作为核心度量方法。

回顾科技史,当内燃机的输出能量与重量比持续提升时,汽车、飞机乃至火箭才得以实现突破。

在AI时代,当AI系统的输出(即Token)与消耗能量之间的比率持续提高时,智能将越来越高效,AGI的实现路径也才可能真正打开。

GTC 2026上真正值得关注的,不是英伟达一家的胜负,也不在于黄仁勋是否能称王,而在于AI产业新的度量体系已逐步确立。

英伟达、阿里,乃至众多产业巨头,都已经开始从系统视角审视AI的发展。

这与人类文明演进的主线高度一致——用更少的能量,采集、传输与处理更多的信息。

AGI,亦不例外。

作者介绍

姚金鑫(J叔),芯片领域创业者,中国计算机学会高性能计算专委会执行委员。

来源:腾讯科技

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

广告
提取码
复制提取码
点击跳转至百度网盘