在大多数人眼中,《我的世界》(Minecraft)只是一款自由度极高的沙盒游戏。
而在香港科技大学(广州)与腾讯联合团队的眼中,它却是一座可以演练通用人工智能的 " 数字练兵场 "。
为了用 " 小数据办大事 ",研究团队提出VistaWise 框架,首次将 " 跨模态知识图谱 + 轻量化视觉微调 " 系统性引入开放世界智能体。
VistaWise:图谱 " 外挂 ",四两拨千斤
随着大模型在游戏、数字孪生、线上运营等场景的落地,腾讯发现:要让 AI 在复杂开放世界中自主决策,传统做法需要千万级标注样本与数百张高端显卡,训练成本动辄百万。
在此背景下,港科大(广州)团队提出 "视觉专家微调 + 外挂知识库" 的极简路线:
1、仅采集471 张游戏画面,用一张24G 显存的消费级显卡即可完成视觉专家模型微调,完整框架可直接部署在笔记本电脑上;
2、将文本攻略、百科知识构建成轻量化知识图谱,实时注入大模型,显著降低幻觉;
3、设计 " 检索式图池化 " 机制,让大模型在毫秒级时间内精准锁定任务所需信息。
首次将开放世界的文本攻略与实时视觉感知融合成 " 跨模态知识图谱 "。图谱仅保留实体名称与关系,剔除冗余描述,单张 1080p 画面即可在 20 ms 内完成动态更新。
视觉增强的轻量化检测
仅使用 471 张截图微调 YOLOv10-L,实现多类游戏实体的像素级定位;引入 " 经验阈值 " 距离估计,用像素宽高代替深度估计网络,节省算力的同时减少推理延迟。
推理增强的检索式池化
设计 Path-Searching+Entity-Matching 双阶段池化,先锁定 " 玩家→目标 " 全局路径,再按任务提示与视觉属性局部裁剪以去除冗余信息,减少 30% 推理 tokens。
控制增强的桌面级技能库
基于 PyAutoGUI 封装多个原子动作函数,支持键鼠混合输入,让大模型直接生成带参调用,摆脱 MineFlayer 等 API 束缚,实现 " 零仿真 " 真机操作。
VistaWise 的决策闭环可抽象为 " 感知 - 检索 - 推理 - 执行 " 四步:
检索:将感知结果实时写入知识图谱,触发双阶段池化,得到任务相关的子图;
推理:GPT-4o 基于任务描述、子图、记忆栈与技能库,生成 " 下一步动作 + 参数 " 的自然语言指令;
执行:指令映射为 PyAutoGUI 调用,驱动 Minecraft 客户端完成点击、拖拽、合成等操作,并实时刷新环境与记忆。
整套系统仅依赖单张 24 GB GPU 完成训练,推理阶段完全在本地配备 8 GB 显卡的笔记本电脑上闭环运行。
小数据撬动大模型,性能与成本双破纪录
实验结果表明,VistaWise 训练数据量可缩减 5 个数量级(471 vs 160M 帧),GPU 显存需求下降 87.5%(24 GB vs 192 GB)。
不仅如此,与使用多模态大模型 ( MLLM ) 进行视觉感知相比,VistaWise 使用轻量化视觉检测和检索式池化可减少冗余信息,在实现了更高性能的同时降低了 30.7% 的 tokens 使用,而性能并未出现明显下降。
王浩,通讯作者,香港科技大学(广州),人工智能学域助理教授、博士生导师。
2023 年博士毕业于新加坡南洋理工大学,曾在 TikTok、地平线等公司科研工作。主要研究兴趣为大模型生成式智能体和三维重建。
发表 TPAMI、IJCV、CVPR、NeurIPS 等领域顶级会议期刊论文 50 余篇。主持国家自然科学基金青年项目,参与国家科技部国家重点研发计划项目,获 2023 年 SMP-IDATA 晨星青年基金、2024 年腾讯犀牛鸟专题项目。
论文链接:https://arxiv.org/abs/2508.18722
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见