8月11日,昆仑万维Skywork AI技术发布周正式启动。8月11日至8月15日,每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。
8 月12日,昆仑万维正式开源两款世界模型:“Matrix-Game 2.0”与“Matrix-3D”。
DeepMind在一周前为社区带来了交互式世界模型的重大更新Genie 3,实现了交互式实时长序列生成,让世界模型备受关注,然而Genie 3并没有开源,让大家只能猜测这样的世界模型该如何实现。
8月12日昆仑万维为大家带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版本——“Matrix-Game 2.0”,同样实现了通用场景下的交互式实时长序列生成的世界模型。并且为促进交互式世界模型领域的发展,“Matrix-Game 2.0”全面开源,是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。

“Matrix-Game 2.0”在实时生成和长序列能力上实现了质的飞跃。相较于上一版本,2.0版本更加侧重低延迟、高帧率的长序列交互性能,能够以25 FPS的速度,在多种复杂场景中稳定生成连续视频内容,且生成时长可扩展至分钟级,大幅提升了连贯性与实用性。
在推理速度显著提升的同时,模型依然保持了对物理规律与场景语义的精准理解,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。
这使得“Matrix-Game 2.0”不仅打破了内容生成与交互之间的壁垒,也为虚拟人、游戏引擎、具身智能等前沿应用打开了新的可能,为构建通用虚拟世界提供了强有力的技术基座。
当前,“Matrix-Game 2.0”具备三大核心优势:
1.高帧率实时交互长序列生成:支持前后左右移动和视角转动,用户可通过指令操控角色在场景中自由行动,系统以 25 FPS 实时生成连续画面,单次交互可生成分钟级别长交互视频,动作自然流畅,响应精准。
2.多场景泛化能力:模型具备出色的跨域适应性,不仅适用于特定任务场景,还支持多种风格与环境的模拟,包括城市、野外等空间类型,以及真实、油画等视觉风格。
3.增强的物理一致性:对物理规则的理解进一步提升,角色在面对台阶、障碍物等复杂地形时,能够展现出符合物理逻辑的运动行为,提升沉浸感与可控性。
另一款开源的世界模型则是“Matrix-3D”,用于3D世界的生成与探索。它从单图像出发,生成高质量、轨迹一致的全景视频,并直接还原可漫游的三维空间,对标李飞飞WorldLabs的生成效果,可实现更大范围的探索空间。

Matrix-3D通过引入全景表示、条件视频生成与3D重建模块,突破了现有方法在视角范围、几何一致性和视觉质量上的限制。Matrix-3D同时支持文本、图像作为输入,生成的3D场景支持自由探索。
Matrix-3D的全景视频生成结果在全景视频生成评测集上也取得了最好的生成质量,我们的运镜控制精度也达到了行业最优。

以谷歌Genie 3等为代表的世界模型,已经为我们描绘了一个激动人心的未来蓝图。它向我们展示了AI不再仅仅是内容生成工具,而是可以构建和模拟世界的“造物主”。随着AI技术的不断进步,可以展望,世界模型将成为我们理解世界、创造未来、并最终实现通用人工智能的关键基础设施。
昆仑万维作为中国领先的人工智能科技公司,不仅打造出天工语言大模型、天工多模态大模型、SWE代码大模型、Agent大模型、视频大模型、音乐大模型、音频大模型等模型底座矩阵,还推出了火爆全球的AIGC产品,如Skywork超级智能体、Mureka等。
昆仑万维“可交互视频生成大模型Matrix-Game”与“3D世界生成与探索模型Matrix-3D”的开源,代表了公司对未来AI技术的提前布局,也将进一步赋能公司AI多矩阵产品的开发。未来,昆仑万维也将持续研发与开源优秀的AI技术方案、与开发者和用户共建新的技术平台,为全球AGI时代的发展贡献中国方案。
(责任编辑:朱赫)