浪潮信息刘军：AI产业若不能大幅降本，将难以实现盈利-传感器专家网

浪潮信息刘军：AI产业若不能大幅降本，将难以实现盈利

全球人工智能产业已由模型性能比拼，逐步进入智能体规模化落地的关键阶段。在此背景下，“降本”不再是一项可选项，而是决定企业盈利能力和行业突破的关键要素。为应对这一挑战，浪潮信息推出了元脑HC1000超扩展AI服务器，首次将推理成本压缩至1元/每百万token。这一进展不仅有望清除智能体产业化“最后一公里”的成本障碍，也将深刻影响AI产业竞争的基础逻辑。

刘军：当前1元/百万token仍是阶段性成果

据浪潮信息首席AI战略官刘军介绍，尽管当前1元/百万token的成本已取得突破性进展，但面对未来token消耗量呈指数增长的趋势，这一成本水平仍难以支撑AI的全面普及。他指出，要让AI真正成为类似“水电煤”一样的基础资源，token成本必须实现数量级的进一步下降。成本控制将从“核心竞争力”演变为“生存入场券”，决定企业在智能体时代的命运。

token成本与AI普惠化的关键关系

回顾互联网的发展历程，基础设施的“提速降费”始终是推动行业繁荣的核心因素。从最初的拨号上网按KB计费，到光纤入户后的百兆带宽普及，再到4G/5G时代数据成本趋近于零，每一次通信成本的下降都催生了新的应用生态。如今，AI行业也正处于类似的发展拐点。

随着技术进步使token单价不断降低，企业得以在更复杂、更耗能的场景中大规模部署AI。例如，从早期的问答系统，发展到支持超长上下文、具备多步推理能力的智能体系统，单任务对token的需求正呈现指数增长。如果token成本的下降速度跟不上需求增长，企业将面临更高的运营成本，这正是经济学中“杰文斯悖论”在token经济中的再现。

token消耗量的指数级增长趋势显著

来自多个渠道的数据验证了这一趋势。火山引擎披露，截至2024年12月，豆包大模型日均token使用量突破50万亿，较去年同期增长超10倍；谷歌10月发布的数据也显示，其平台每月token处理量已达1300万亿，日均43.3万亿，相较一年前增长数十倍。

当token使用量达到“百万亿/月”的规模时，即使每百万token成本下降1美元，也可能带来每月1亿美元的成本差异。刘军强调：“token成本直接决定了智能体的盈利能力。要实现AI的规模化普惠，必须继续推动token成本的量级下降。”

token成本居高不下的深层原因

当前，AI大模型竞赛已从“盲目堆算力”进入“单位算力产出价值”优化的新阶段。影响单位算力产出价值的因素包括能源价格、硬件成本、算法效率和运营开销等。但目前token成本的80%以上仍来自算力支出，而推理任务与训练任务的架构不匹配，是导致高成本的结构性原因。

首先，算力利用率（MFU）在训练和推理阶段存在严重倒挂。训练阶段MFU可达50%以上，但推理阶段由于自回归解码机制，硬件需加载全部模型参数以生成单个token，导致GPU大部分时间处于等待状态，MFU往往仅为5%-10%。这种“高配低效”的现象是当前算力成本居高不下的核心。

其次，推理任务中KV Cache的指数级增长造成显存占用和访问密集问题，不仅增加了功耗，还提升了HBM的使用需求。存储瓶颈的放大进一步限制了token成本的下降。

第三，随着模型规模突破单机处理能力，跨节点通信成为新瓶颈。传统RoCE或InfiniBand网络的延迟远高于片内总线，通信开销占推理总时长的30%以上，迫使企业增加硬件投入以维持响应速度，推高整体TCO。

浪潮信息重构系统架构，降低token成本

刘军指出，降低token成本的关键不在于“打造全能型机器”，而是围绕目标任务重构系统设计，将推理流程进一步细分，支持P/D分离、A/F分离、KV并行、专家拆分等策略，按需配置计算资源，提升每张卡的负载效率，实现“卡时成本”更低、“卡时产出”更高的目标。

元脑HC1000：首款实现1元/百万token的AI服务器

为应对当前token成本高企的难题，浪潮信息推出了元脑HC1000超扩展AI服务器。该产品基于全新设计的全对称DirectCom极速架构，采用无损超扩展设计，能够高效聚合本土AI芯片，支持高吞吐量推理任务，推理成本首次突破1元/每百万token，为智能体突破token成本瓶颈提供了高性能算力支持。

当前主流大模型的token成本仍较高，如Claude、Grok等模型的输出价格普遍在10-15美元，国内大模型虽略低，也多在10元以上。在大规模调用量面前，这样的成本水平让商业化应用面临严峻的ROI挑战。

DirectCom架构：实现高性能与低成本并行

元脑HC1000采用DirectCom极速架构，每个计算模组配置16颗AIPU，采用直达通信方式，解决传统协议转换和带宽争抢问题，实现超低延迟。计算与通信资源1:1配比，实现全局无阻塞通信；全对称拓扑设计支持灵活的P/D分离、A/F分离方案，可按需配置计算实例，最大化资源利用率。

此外，该服务器支持超大规模无损扩展，通过算网深度协同和全域无损技术，使推理性能提升1.75倍。通过对大模型计算流程的细分与结构解耦，可实现更灵活的负载配比，单卡MFU最高提升5.7倍。

智能调度与未来展望

元脑HC1000还引入自适应路由和智能拥塞控制算法，实现数据包级动态负载均衡，有效减少KV Cache传输对预计算和解码实例的影响，降低5-10倍。

刘军强调，即便“1元/每百万token”已属突破，但面对未来token使用量的指数级增长，若要实现token成本的持续下降，还需推动计算架构的根本性创新。整个AI产业应从规模导向转向效率导向，重新思考系统架构设计，发展专用计算架构，探索大模型专用芯片，实现软硬件深度融合优化，这将是未来技术演进的核心方向。

稿源：美通社

浪潮信息刘军：AI产业若不能大幅降本，将难以实现盈利