谷歌 DeepMind 推出两款基于 Gemini 2.0 的机器人 AI 模型

谷歌 DeepMind 推出两款基于 Gemini 2.0 的机器人 AI 模型 Gemini Robotics 和 Gemini Robotics-ER，让 Gemini 模型进入物理世界。Gemini Robotics 的优势包括

1）通用性：能处理全新任务，在综合泛化能力基准测试中表现比当前最先进的视觉 - 语言 - 动作模型高出两倍多，可适应新物体、指令和环境，无需针对具体场景专门训练。

2）交互性：基于 Gemini 2.0，语言理解能力良好，能响应日常会话式语言指令，支持多种语言交流，可实时监测环境变化并调整行动。

3）灵巧性：具备强大的精细动作控制能力，能处理复杂多步骤任务，如折纸、整理物品等。

Gemini Robotics 的训练方式基于 Gemini 2.0 构建，增加物理动作作为新输出模态。通过模拟环境中的合成数据学习物理规则，利用远程操作收集人类引导机器人在现实世界执行动作的数据，还探索分析视频素材等其他数据获取方式。Gemini Robotics-ER专注增强空间理解能力，提升 Gemini 2.0 原有的指向和 3D 检测等能力，能直观理解抓取方式和运动轨迹，适应能力强，可控制不同类型机器人。

微博新知谷歌机器人机器人时代

玩酷网

谷歌 DeepMind 推出两款基于 Gemini 2.0 的机器人 AI 模型

热门分类