关于ZAKER 合作
雷锋网 2小时前

9.9 万起,零次方推出“全模态”数据方案

在具身智能研发中,往往普遍存在以下数据问题:数据模态缺失、数据采集流程繁琐、任务数据管理繁杂、模型训练推理部署门槛高等难题。诸多瓶颈成为具身智能模型从实验室走向规模化应用的 " 拦路虎 "。零次方深耕具身智能领域,以自身模型开发经历为基础,深悉行业痛点,推出 " 全模态 " 具身数据全链路解决方案,突破数据瓶颈,加速模型训练开发,涵盖:" 全模态 " 数据采集设备、数据采集与管理平台、模型训练与模型推理工具链,旨在彻底解决上述痛点问题。

解决方案如上图所示

面向未来 3-5 年具身数据需求设计

技术路线上:当前具身智能模型的发展仍处于发展期,各研究团队的技术路线逐渐向更丰富的模态探索:

视觉 - 关节融合方案(如 ACT、Diffusion Policy、DP3 等):通过联合嵌入视觉信息与机器人本体感知,利用本体数据补偿视觉观测歧义性,提升动作泛化能力,但因缺乏力学反馈,在物理交互密集型任务中适应性不足。

语义 - 视觉 - 关节融合方案(如 Pi0、GROOT 等):引入语义信息(如语言指令 / 场景描述)增强环境与长序列任务的理解,结合视觉与关节状态实现多模态决策,提升复杂任务泛化性。

视觉 - 关节 - 力联合建模(如 RDP 等)引入力 / 触觉反馈构建物理表征,提升泛精密操作的鲁棒性;

更为齐全的模态架构正成为新趋势,通过跨模态对齐实现环境 - 物理 - 语义的协同推理。

在此背景下,零次方的全模态数据架构具备双重核心优势:

1. 维度兼容性:全模态数据高维数据可自然降维生成任意子模态数据集(如剥离力触觉获得纯视觉 - 关节数据),兼容现存所有算法范式的训练需求;

2. 价值持续性:预设传感器冗余通道,集成工具标注对齐多模态数据流,为正在演进的 VLA、跨模态对齐、物理因果推理、世界模型等等未来 3-5 年可能涌现的具身模型提供燃料。

这种前瞻性设计能兼容当下技术生态、支撑长期算法进化的 " 高维数据基座 "。此外,零次方的 " 全模态 " 数采人形机器人 ZERITH-H1,完美兼顾零次方的全模态数据架构设计,实现全模态数据采集与落地。

" 全模态 " 数采人形机器人 ZERITH-H1

" 拟人 " 身体架构," 超人 " 活动范围:ZERITH-H1 的上肢结构、自由度设计全部参考人类的身体,并在此基础上大幅增加关节的活动范围,使得其具备超越成年男性的灵活操作空间。

ZERITH-H1 基础参数介绍

高维度 " 全模态 " 传感器设计:为应对具身智能模型训练普遍存在的 " 数据模态缺失 " 问题,零次方机器人在 Zerith-H1 设计阶段即整合了各种模态的传感器,可实现对二维视觉信息、三维空间信息、关节信息、力触觉信息、声音信息的 " 完整 " 模态信息采集。

集成触觉感知,抓取豆腐等易碎物

特别的是,针对于力触觉感知部分,ZERITH-H1 搭载了触觉夹爪,集成了高分辨率视触觉传感器,实现对抓取力触觉的精准感知。零次方在视触觉传感器方面技术积累深厚,源于清华 AI&Robot 实验室。实验室曾提出过超越人类触觉感知水平的超光谱视触觉传感方案,相关视触觉成果多次获 ICRA、IROS Best Paper Finalists、多次在 T-RO、Soft Robotics、T-MECH 上发表相关研究。

低延迟、高动态响应的遥操系统:为了进一步满足实时同步操作的需求,零次方将机器人与采集者通讯延迟无限推进至零延迟,实现 " 孪生式 " 映射同步感知;同时整体设备连续运行时间超过 4 小时,满足长时间不间断的数据采集需求。

VR 遥操演示

VR APP 快速构建物理世界与虚拟世界交互渠道:基于主流 vr 设备自研 ZERITH-VR APP,实现遥操作设备与机器人本体、具身数据管理平台超低数据传输延时。同时通过 " 一键式 " 设备连接、" 引导式 " 数据采集工作流,帮助用户快速掌握复杂任务数据采集能力,确保数据收集质量、提升数据采集效率。

ZERITH-VR APP 界面

具身数据采集管理平台:将采集的多元化数据,转为即用型训练燃料

针对数据采集任务多样、采集流程繁杂、数据管理及可视化等需求,零次方自研具身数据管理平台用于数据全流程管理,依托自身开发模型的经历,通过数万次的数据采集与测试,不断测试数据管理平台易用性,现正式对外推出具有:对具身任务数据分类、清洗、标注、检索等模块化高易用性的具身数据采集管理平台。

具身数据采集流程

集成高效训练与部署工具链:让训练与场景落地更迅捷、更简易化

同时,为让用户可快速、便捷式将数据集应用于模型训练,零次方数据平台设计兼容主流开源算法框架的标准化接口(如 ACT、Diffusion Policy、DP3 等);数据接口兼容对基座模型(Pi0、GROOT、ZERITH-V0 等)的后训练(LORA、Full tuning、RL 等),提供符合许可证要求的快速训练接入能力。

在模型训练过程,零次方深度集成 AI 训练工具 Swanlab,实现对模型训练的全过程记录、实时监控、数据可视化与批量实验分析,帮助用户科学调参、管理历史训练实验数据,高效迭代自己的具身智能模型。

训练过程可视化监控与记录

在模型推理上,机器人最高可选 500TOPS 算力主机,集成易用部署的框架,优化推理效果,实现丝滑动作执行,真实可见的在场景中的落地效果。

雷峰网雷峰网

相关标签