浪潮信息刘军:AI产业若不能大幅降本,将难以实现盈利
全球人工智能产业已由模型性能比拼,逐步进入智能体规模化落地的关键阶段。在此背景下,“降本”不再是一项可选项,而是决定企业盈利能力和行业突破的关键要素。为应对这一挑战,浪潮信息推出了元脑HC1000超扩展AI服务器,首次将推理成本压缩至1元/每百万token。这一进展不仅有望清除智能体产业化“最后一公里”的成本障碍,也将深刻影响AI产业竞争的基础逻辑。
刘军:当前1元/百万token仍是阶段性成果
据浪潮信息首席AI战略官刘军介绍,尽管当前1元/百万token的成本已取得突破性进展,但面对未来token消耗量呈指数增长的趋势,这一成本水平仍难以支撑AI的全面普及。他指出,要让AI真正成为类似“水电煤”一样的基础资源,token成本必须实现数量级的进一步下降。成本控制将从“核心竞争力”演变为“生存入场券”,决定企业在智能体时代的命运。
token成本与AI普惠化的关键关系
回顾互联网的发展历程,基础设施的“提速降费”始终是推动行业繁荣的核心因素。从最初的拨号上网按KB计费,到光纤入户后的百兆带宽普及,再到4G/5G时代数据成本趋近于零,每一次通信成本的下降都催生了新的应用生态。如今,AI行业也正处于类似的发展拐点。
随着技术进步使token单价不断降低,企业得以在更复杂、更耗能的场景中大规模部署AI。例如,从早期的问答系统,发展到支持超长上下文、具备多步推理能力的智能体系统,单任务对token的需求正呈现指数增长。如果token成本的下降速度跟不上需求增长,企业将面临更高的运营成本,这正是经济学中“杰文斯悖论”在token经济中的再现。
token消耗量的指数级增长趋势显著
来自多个渠道的数据验证了这一趋势。火山引擎披露,截至2024年12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超10倍;谷歌10月发布的数据也显示,其平台每月token处理量已达1300万亿,日均43.3万亿,相较一年前增长数十倍。
当token使用量达到“百万亿/月”的规模时,即使每百万token成本下降1美元,也可能带来每月1亿美元的成本差异。刘军强调:“token成本直接决定了智能体的盈利能力。要实现AI的规模化普惠,必须继续推动token成本的量级下降。”
token成本居高不下的深层原因
当前,AI大模型竞赛已从“盲目堆算力”进入“单位算力产出价值”优化的新阶段。影响单位算力产出价值的因素包括能源价格、硬件成本、算法效率和运营开销等。但目前token成本的80%以上仍来自算力支出,而推理任务与训练任务的架构不匹配,是导致高成本的结构性原因。
首先,算力利用率(MFU)在训练和推理阶段存在严重倒挂。训练阶段MFU可达50%以上,但推理阶段由于自回归解码机制,硬件需加载全部模型参数以生成单个token,导致GPU大部分时间处于等待状态,MFU往往仅为5%-10%。这种“高配低效”的现象是当前算力成本居高不下的核心。
其次,推理任务中KV Cache的指数级增长造成显存占用和访问密集问题,不仅增加了功耗,还提升了HBM的使用需求。存储瓶颈的放大进一步限制了token成本的下降。
第三,随着模型规模突破单机处理能力,跨节点通信成为新瓶颈。传统RoCE或InfiniBand网络的延迟远高于片内总线,通信开销占推理总时长的30%以上,迫使企业增加硬件投入以维持响应速度,推高整体TCO。
浪潮信息重构系统架构,降低token成本
刘军指出,降低token成本的关键不在于“打造全能型机器”,而是围绕目标任务重构系统设计,将推理流程进一步细分,支持P/D分离、A/F分离、KV并行、专家拆分等策略,按需配置计算资源,提升每张卡的负载效率,实现“卡时成本”更低、“卡时产出”更高的目标。
元脑HC1000:首款实现1元/百万token的AI服务器
为应对当前token成本高企的难题,浪潮信息推出了元脑HC1000超扩展AI服务器。该产品基于全新设计的全对称DirectCom极速架构,采用无损超扩展设计,能够高效聚合本土AI芯片,支持高吞吐量推理任务,推理成本首次突破1元/每百万token,为智能体突破token成本瓶颈提供了高性能算力支持。
当前主流大模型的token成本仍较高,如Claude、Grok等模型的输出价格普遍在10-15美元,国内大模型虽略低,也多在10元以上。在大规模调用量面前,这样的成本水平让商业化应用面临严峻的ROI挑战。
DirectCom架构:实现高性能与低成本并行
元脑HC1000采用DirectCom极速架构,每个计算模组配置16颗AIPU,采用直达通信方式,解决传统协议转换和带宽争抢问题,实现超低延迟。计算与通信资源1:1配比,实现全局无阻塞通信;全对称拓扑设计支持灵活的P/D分离、A/F分离方案,可按需配置计算实例,最大化资源利用率。
此外,该服务器支持超大规模无损扩展,通过算网深度协同和全域无损技术,使推理性能提升1.75倍。通过对大模型计算流程的细分与结构解耦,可实现更灵活的负载配比,单卡MFU最高提升5.7倍。
智能调度与未来展望
元脑HC1000还引入自适应路由和智能拥塞控制算法,实现数据包级动态负载均衡,有效减少KV Cache传输对预计算和解码实例的影响,降低5-10倍。
刘军强调,即便“1元/每百万token”已属突破,但面对未来token使用量的指数级增长,若要实现token成本的持续下降,还需推动计算架构的根本性创新。整个AI产业应从规模导向转向效率导向,重新思考系统架构设计,发展专用计算架构,探索大模型专用芯片,实现软硬件深度融合优化,这将是未来技术演进的核心方向。
稿源:美通社