生数科技朱军：通用世界模型成为数字与物理世界的纽带-传感器专家网

生数科技朱军：通用世界模型成为数字与物理世界的纽带

2026年3月19日，中信证券举办的春季资本市场论坛上，生数科技创始人朱军教授发表了题为《通用世界模型：连接数字世界与物理世界的桥梁》的主旨演讲。作为清华大学人工智能研究院副院长，同时也是ACM/IEEE/AAAI会士，朱军系统地阐述了生成式人工智能如何从“内容生成”向“物理世界”延伸的关键技术路径。

他指出，随着统一模型架构日趋成熟，数据范式不断完善，世界模型正迎来关键的技术拐点。通用世界模型正在被视为通往AGI（通用人工智能）的重要方向。

围绕这一战略方向，生数科技率先展开布局。2025年7月和12月，公司联合清华大学陆续发布了基于视频大模型的具身基础模型Vidar，以及统一架构的通用基座世界模型Motus。相较国际领先模型Pi0.5，Motus在任务成功率上提升了约40%，并在多种具身任务中展现出显著的泛化能力。

朱军在演讲中详细介绍了生数科技在通用世界模型方面的战略布局。以基座世界模型（Foundation World Model）为核心，构建覆盖数字空间与物理空间的双轨技术体系。

该基座模型依托于全球首创的U-ViT架构，融合视觉、听觉、触觉等多模态信息，构建出对世界统一的认知与建模能力，为上层应用提供统一的智能基础。

在数字空间，生数科技依托世界生成模型（WGM）开发出视频大模型产品Vidu。Vidu在单时点模拟世界中表现突出，提升了AI在数字内容生产中的效率，并推动数字世界的AGI进程。

而在物理空间，生数科技则基于世界行动模型（WAM）打造了Motus产品。Motus作为具身智能的“核心大脑”，致力于解决传统链路割裂、数据稀缺与泛化能力不足等问题，支持零样本泛化与跨本体适配。该模型推动机器人从“模块执行”迈向“统一智能体”，最终实现物理世界的AGI。

这一技术路径贯通了“理解世界”、“生成世界”与“行动于世界”的全流程，使通用世界模型真正成为连接数字与物理世界的桥梁。

生成式AI迈向新阶段：从“生成内容”到“理解世界”

当前，生成式人工智能正处于演进的关键时期。其核心目标已不再局限于内容生成，而是转向对物理世界的建模与理解。

朱军指出：“生成能力是理解世界的基础。若无法生成，就难以真正理解。”从概率图模型到深度学习，再到大规模预训练、Transformer与扩散模型的兴起，技术路径不断演化，逐步逼近通用人工智能的边界。

视频：连接数字与物理世界的核心媒介

在AI发展过程中，研究重心正从语言拓展至视频。

“相较于语言，视频包含更丰富的时空信息与物理规律，是连接两个世界的关键媒介。”朱军强调，“视频不仅是内容的表现形式，更是世界运行机制的记录方式。”

视觉在人类认知中占据主导地位，机器若要真正理解世界，也必须以视觉为核心。然而，仅依赖语言模型难以形成完整的智能闭环。真正的智能系统应具备从经验中学习、对未来进行预测并执行行为的能力，而这需要与物理世界持续互动。

数据破局：构建以视频为核心的多层数据体系

具身智能长期面临“数据墙”问题，包括真实机器人数据稀缺、获取成本高以及难以复用。

对此，以视频为核心的数据路径正在成为行业共识。通过整合互联网视频、人类操作视频、仿真数据与机器人数据，系统性挖掘其中蕴含的物理交互信息。

“视频是目前最大规模、信息最丰富的数据形态。利用以视频为主的扩展性与异构性数据，是构建通用世界模型最具可行性的路径。”朱军指出。

通过引入“隐动作（Latent Action）”等方法，模型可将视频中的运动信息映射到动作空间，在缺乏真实机器人数据的条件下，依然具备有效的执行能力。

世界模型：从模块拼接走向统一架构

在这一背景下，通用世界模型被视为通向通用人工智能的重要路径。

其目标是构建一个统一的智能系统，使AI能够完成从“观察”到“预测”再到“行动”的完整闭环。然而，当前行业仍以模块化方式为主，例如VLA模型侧重行为模仿，传统世界模型侧重未来预测，逆动力学模型聚焦动作生成，各自覆盖部分能力。

“世界模型不应是模块的简单拼接，而应像人脑一样，统一架构实现多种认知能力。”朱军强调。通用世界模型的目标是在同一模型中融合感知、推理、预测与行动能力，构建类似人脑的整体智能体系。

Motus：开启具身智能多任务泛化的新范式

在统一架构与数据路径的支持下，生数科技与清华大学联合开源的Motus模型，实现了多模态能力的系统整合。

在模型架构上，Motus基于UniDiffuser统一建模框架，融合视觉语言知识（VLM）、视频生成知识（VGM）以及动作技能知识（Action Expert），在单一模型中实现语言、视频与动作的统一表达与生成，构建真正意义上的统一世界模型。

在数据利用与扩展方面，Motus展现出显著优势。在数据扩展实验中，与国际领先模型Pi0.5相比，Motus能从更广泛异构数据中学习，并有效融合多模态先验能力。其在50项任务中的平均成功率提升了35.1%，同时数据效率达到13.55倍。

在任务扩展实验中，Motus的平均成功率随着任务复杂度增加而持续提升，而对比模型性能则出现下降。最终，Motus在成功率上保持了37%的绝对优势，表现出更强的多任务泛化能力。

更值得关注的是，Motus首次揭示了具身智能Scaling的新维度——多任务泛化能力曲线。这一曲线为具身基座模型提供了关键的“北极星指标”，其演进路径与语言模型高度一致，也呼应了GPT-2提出的“语言模型是无监督多任务学习者”的理念。

在长程、多步骤的复杂任务中，Motus展示了接近人类水平的决策能力与执行稳定性。值得注意的是，这些任务并非简单指令，而是端到端完成的长序列操作，不依赖传统的“快慢双系统”。

拐点已近：通用世界模型能力持续跃迁

正如图灵奖得主Richard Sutton在《苦涩的教训》中所强调，“通用方法最终是最有效的，其优势巨大。”这一观点在AI发展路径中正不断被验证。

朱军表示，以视频为核心的可扩展异构数据体系，是构建通用世界模型最可行的路径，并逐步获得行业认同。随着统一架构、数据范式与训练体系的成熟，通用世界模型的技术路径日益清晰，行业正进入由规模驱动的能力跃迁阶段。

从视频生成走向世界模型，正成为AI从“理解世界”迈向“改变世界”的关键路径。随着技术的进一步演进，通用世界模型将加速融入物理世界，真正成为连接数字与物理世界的桥梁。

生数科技朱军：通用世界模型成为数字与物理世界的纽带