
作者 | 李水青
编辑 | 云鹏
智东西 4 月 27 日报道,今日,蚂蚁灵光 App 上线 " 体验世界模型 " 功能,成为业界首个可在移动端体验世界模型的智能助手,实现了分钟级一致性和实时可交互体验。

用户只需上传一张图片,即可在手机上探索最长 60 秒的 3D 世界,并通过手游摇杆操控视角,像玩游戏一样在其中走动。从触发指令到开始探索,整个过程仅需秒级。
灵光 App" 体验世界模型 " 功能背后,其接入了蚂蚁灵波今年 1 月开源的 LingBot-World-Fast 世界模型,该模型可提供高保真、可控制且逻辑一致的模拟环境。
智东西第一时间体验了该功能,发现该功能确实能实现秒级生成速度,无需等待,生成的 3D 画面较自然合理且连续性较好;操纵上虽然有秒级延迟,但可以接受;作为一款端侧功能,清晰度仍有提升空间。

灵光 App 可一秒内生成一个 " 世界 "
具体操作上,用户在灵光 App 对话框上传一张图片后,系统会智能推荐操作指令,用户选择 " 生成图中世界 ";或者直接输入 " 帮我用第一人称视角探索这个世界 " 等自然语言,系统将自动进入世界模型生成流程。
当我上传《黑神话:悟空》中的小雷音寺场景图片,灵光迅速生成了以下与游戏界面类似的 " 世界 "。画面中引入了手游摇杆操控,据称这是灵光针对动端操作习惯一个创新点。如下图所示,通过遥感操纵,我能以悟空的第一视角向前。

灵光 App 生成的 " 世界 " 部分体验截图
可以看到,复杂建筑结构被保留还原,门洞内部的景深感明显,不存在 " 穿模 " 情况;右侧视角环顾四周时,场景过渡平滑,延迟在 1 秒钟左右;不过从清晰度上来说,该功能还有提升空间。
紧接着,我上传了一张《塞尔达传说:旷野之息》海拉鲁平原的截图,只见生成的开阔大场景的地面连续性较好,向山下望去可见陡峭的岩石群,无接缝、无孔洞;阳光之下,高饱和绿色与蓝天之间的颜色过渡自然,地面上的阴影方向也与图片中的光源方向保持一致。

灵光 App 生成的 " 世界 " 部分体验截图
再看看《超级马里奥:奥德赛》都市国街道场景生成情况,路侧的近景路灯、中景行人行道、远景高楼显得比较有层次,没有明显的粘连;角色沿街道直线行走时,两侧建筑保持平行,透视正确;但地上的斑马线出现了一些扭曲,小摩托 " 自动驾驶 " 后消失,略显不足;随着游览速度加快,图像的清晰度有些打折扣,马里奥的身形已不太清楚。

灵光 App 生成的 " 世界 " 部分体验截图
最后我又拿一张恐龙灭绝主题的 CG 艺术图来尝试,只见陨石坠落、火山远景都刻画得富有动态,但陨石悬浮时间有些久;远处陨石、浓烟边界清晰,没有被简化为单一色块;恐龙在走动中及重叠时形态没有严重畸变,整体表现没有大的视觉 Bug。
输入给灵光 App 的图片
灵光 App 生成的 " 世界 " 部分体验截图
世界模型的移动端部署面临算力需求大、延迟控制难、终端性能参差不齐等业界公认难题。实测看到,灵光 " 体验世界模型 " 功能在响应速度上表现突出。灵光官方报道提到,团队采用了高效、低延迟的流式传输技术,实现了百毫秒级响应延迟,从触发指令到开始探索仅需秒级。
灵光 App 负责人蔡伟谈道:" 体验世界模型功能是灵光在探索智能边界的又一实践。此前灵光推出的‘闪应用’功能可实现自然语言 30 秒生应用,也是把原本专业开发者的 Coding 能力给到普通用户。"
结语:世界模型升温,端侧场景是下一关
从阿里、腾讯、李飞飞团队等密集发布世界模型新作,到灵光 App 率先将世界模型搬上手机,世界模型赛道正快速升温。
端侧响应速度与生成效果已有明显进步,正如蔡伟所言,灵光希望不断探索智能边界,把好的 AI 体验给到所有人。接下来,比拼的不仅是技术,落地后的应用场景挖掘也至关重要。