谷歌 DeepMind 推出两款基于 Gemini 2.0 的机器人 AI 模型 Gemini Robotics 和 Gemini Robotics-ER,让 Gemini 模型进入物理世界。Gemini Robotics 的优势包括
1)通用性:能处理全新任务,在综合泛化能力基准测试中表现比当前最先进的视觉 - 语言 - 动作模型高出两倍多,可适应新物体、指令和环境,无需针对具体场景专门训练。
2)交互性:基于 Gemini 2.0,语言理解能力良好,能响应日常会话式语言指令,支持多种语言交流,可实时监测环境变化并调整行动。
3)灵巧性:具备强大的精细动作控制能力,能处理复杂多步骤任务,如折纸、整理物品等。
Gemini Robotics 的训练方式基于 Gemini 2.0 构建,增加物理动作作为新输出模态。通过模拟环境中的合成数据学习物理规则,利用远程操作收集人类引导机器人在现实世界执行动作的数据,还探索分析视频素材等其他数据获取方式。Gemini Robotics-ER专注增强空间理解能力,提升 Gemini 2.0 原有的指向和 3D 检测等能力,能直观理解抓取方式和运动轨迹,适应能力强,可控制不同类型机器人。
微博新知谷歌机器人机器人时代