生数科技朱军:通用世界模型成为数字与物理世界的纽带

2026-03-20 16:26:11
关注

生数科技朱军:通用世界模型成为数字与物理世界的纽带

2026年3月19日,中信证券举办的春季资本市场论坛上,生数科技创始人朱军教授发表了题为《通用世界模型:连接数字世界与物理世界的桥梁》的主旨演讲。作为清华大学人工智能研究院副院长,同时也是ACM/IEEE/AAAI会士,朱军系统地阐述了生成式人工智能如何从“内容生成”向“物理世界”延伸的关键技术路径。

他指出,随着统一模型架构日趋成熟,数据范式不断完善,世界模型正迎来关键的技术拐点。通用世界模型正在被视为通往AGI(通用人工智能)的重要方向。

围绕这一战略方向,生数科技率先展开布局。2025年7月和12月,公司联合清华大学陆续发布了基于视频大模型的具身基础模型Vidar,以及统一架构的通用基座世界模型Motus。相较国际领先模型Pi0.5,Motus在任务成功率上提升了约40%,并在多种具身任务中展现出显著的泛化能力。

朱军在演讲中详细介绍了生数科技在通用世界模型方面的战略布局。以基座世界模型(Foundation World Model)为核心,构建覆盖数字空间与物理空间的双轨技术体系。

该基座模型依托于全球首创的U-ViT架构,融合视觉、听觉、触觉等多模态信息,构建出对世界统一的认知与建模能力,为上层应用提供统一的智能基础。

在数字空间,生数科技依托世界生成模型(WGM)开发出视频大模型产品Vidu。Vidu在单时点模拟世界中表现突出,提升了AI在数字内容生产中的效率,并推动数字世界的AGI进程。

而在物理空间,生数科技则基于世界行动模型(WAM)打造了Motus产品。Motus作为具身智能的“核心大脑”,致力于解决传统链路割裂、数据稀缺与泛化能力不足等问题,支持零样本泛化与跨本体适配。该模型推动机器人从“模块执行”迈向“统一智能体”,最终实现物理世界的AGI。

这一技术路径贯通了“理解世界”、“生成世界”与“行动于世界”的全流程,使通用世界模型真正成为连接数字与物理世界的桥梁。

生成式AI迈向新阶段:从“生成内容”到“理解世界”

当前,生成式人工智能正处于演进的关键时期。其核心目标已不再局限于内容生成,而是转向对物理世界的建模与理解。

朱军指出:“生成能力是理解世界的基础。若无法生成,就难以真正理解。”从概率图模型到深度学习,再到大规模预训练、Transformer与扩散模型的兴起,技术路径不断演化,逐步逼近通用人工智能的边界。

视频:连接数字与物理世界的核心媒介

在AI发展过程中,研究重心正从语言拓展至视频。

“相较于语言,视频包含更丰富的时空信息与物理规律,是连接两个世界的关键媒介。”朱军强调,“视频不仅是内容的表现形式,更是世界运行机制的记录方式。”

视觉在人类认知中占据主导地位,机器若要真正理解世界,也必须以视觉为核心。然而,仅依赖语言模型难以形成完整的智能闭环。真正的智能系统应具备从经验中学习、对未来进行预测并执行行为的能力,而这需要与物理世界持续互动。

数据破局:构建以视频为核心的多层数据体系

具身智能长期面临“数据墙”问题,包括真实机器人数据稀缺、获取成本高以及难以复用。

对此,以视频为核心的数据路径正在成为行业共识。通过整合互联网视频、人类操作视频、仿真数据与机器人数据,系统性挖掘其中蕴含的物理交互信息。

“视频是目前最大规模、信息最丰富的数据形态。利用以视频为主的扩展性与异构性数据,是构建通用世界模型最具可行性的路径。”朱军指出。

通过引入“隐动作(Latent Action)”等方法,模型可将视频中的运动信息映射到动作空间,在缺乏真实机器人数据的条件下,依然具备有效的执行能力。

世界模型:从模块拼接走向统一架构

在这一背景下,通用世界模型被视为通向通用人工智能的重要路径。

其目标是构建一个统一的智能系统,使AI能够完成从“观察”到“预测”再到“行动”的完整闭环。然而,当前行业仍以模块化方式为主,例如VLA模型侧重行为模仿,传统世界模型侧重未来预测,逆动力学模型聚焦动作生成,各自覆盖部分能力。

“世界模型不应是模块的简单拼接,而应像人脑一样,统一架构实现多种认知能力。”朱军强调。通用世界模型的目标是在同一模型中融合感知、推理、预测与行动能力,构建类似人脑的整体智能体系。

Motus:开启具身智能多任务泛化的新范式

在统一架构与数据路径的支持下,生数科技与清华大学联合开源的Motus模型,实现了多模态能力的系统整合。

在模型架构上,Motus基于UniDiffuser统一建模框架,融合视觉语言知识(VLM)、视频生成知识(VGM)以及动作技能知识(Action Expert),在单一模型中实现语言、视频与动作的统一表达与生成,构建真正意义上的统一世界模型。

在数据利用与扩展方面,Motus展现出显著优势。在数据扩展实验中,与国际领先模型Pi0.5相比,Motus能从更广泛异构数据中学习,并有效融合多模态先验能力。其在50项任务中的平均成功率提升了35.1%,同时数据效率达到13.55倍。

在任务扩展实验中,Motus的平均成功率随着任务复杂度增加而持续提升,而对比模型性能则出现下降。最终,Motus在成功率上保持了37%的绝对优势,表现出更强的多任务泛化能力。

更值得关注的是,Motus首次揭示了具身智能Scaling的新维度——多任务泛化能力曲线。这一曲线为具身基座模型提供了关键的“北极星指标”,其演进路径与语言模型高度一致,也呼应了GPT-2提出的“语言模型是无监督多任务学习者”的理念。

在长程、多步骤的复杂任务中,Motus展示了接近人类水平的决策能力与执行稳定性。值得注意的是,这些任务并非简单指令,而是端到端完成的长序列操作,不依赖传统的“快慢双系统”。

拐点已近:通用世界模型能力持续跃迁

正如图灵奖得主Richard Sutton在《苦涩的教训》中所强调,“通用方法最终是最有效的,其优势巨大。”这一观点在AI发展路径中正不断被验证。

朱军表示,以视频为核心的可扩展异构数据体系,是构建通用世界模型最可行的路径,并逐步获得行业认同。随着统一架构、数据范式与训练体系的成熟,通用世界模型的技术路径日益清晰,行业正进入由规模驱动的能力跃迁阶段。

从视频生成走向世界模型,正成为AI从“理解世界”迈向“改变世界”的关键路径。随着技术的进一步演进,通用世界模型将加速融入物理世界,真正成为连接数字与物理世界的桥梁。

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘