schaft谷歌人形机器人有何突破？

99ANYc3cd6 机器人 2025-12-03 19

“Schaff”并不是谷歌官方的正式名称，这个名字源于其首席科学家 Karsten Schmidt 的姓氏，通常被媒体、科技爱好者和内部员工用作非正式的昵称，这个昵称非常流行，以至于很多人直接用它来指代整个项目。

（图片来源网络，侵删）

这个项目的官方名称是 "Project Astra"，由谷歌 DeepMind 和谷歌研究院共同打造，Astra 在拉丁语中意为“星辰”或“武器”，寓意着其尖端的技术和探索未来的雄心。

下面我将从几个方面为你详细介绍这个项目：

核心技术：Gemini 模型的“眼睛”和“耳朵”

Project Astra 最核心的技术亮点在于，它将谷歌最强大的多模态大语言模型 Gemini 实时地“注入”到了机器人身上。

Gemini for AI Agents (Gemini Agent): 这不是简单地用 Gemini 去回答问题，而是让 Gemini 成为机器人的“大脑”，机器人通过摄像头和麦克风实时捕捉周围世界的视觉和音频信息，将它们流式传输到云端运行的大型 Gemini 模型中。
实时理解与交互： 基于这些实时数据，Gemini 模型能够理解复杂的指令、记住对话的上下文，并迅速做出反应，这赋予了机器人前所未有的“情境感知”能力，它能理解“把昨天你看到的那块电池拿给我”这种涉及时间、空间和物体记忆的复杂指令。
视觉-语言-动作的闭环： 这是人形机器人的终极目标之一，Astra 的系统实现了这个闭环：
- 看: 高清摄像头捕捉视觉流。
- 想: Gemini 模型实时分析视觉信息，理解场景和指令。
- 说/做: 通过语音输出回答，或通过机械臂和腿部执行动作。

2025 年 5 月的 Google I/O 大会上，Project Astra 展示了令人惊叹的实时交互能力，这些视频是其当前能力的最佳体现：

（图片来源网络，侵删）

场景： 用户和机器人在一个杂乱的办公桌前互动。
能力展示：
- 物体识别与记忆： 机器人能清晰地识别出桌子上的物品（眼镜、电池、玩具熊、苹果等），并能在后续对话中准确回忆起它们的位置和状态。
- 自然语言指令： 用户说“我找不到我的眼镜了”，机器人能迅速在摄像头画面中定位到眼镜，并说“你的眼镜在这里”。
- 物理交互： 用户让它“把那个电池拿给我”，机器人能够准确地识别电池，并用机械臂将其抓取并递给用户。
- 空间推理： 用户问“我的手机在哪里？”，机器人回答“在沙发上”，并准确地指向了沙发上的手机。
- 多轮对话： 整个过程流畅自然，像在和一个聪明的助手对话。

场景： 用户戴着眼镜（眼镜上带有摄像头和麦克风），在城市街道上行走，机器人实时接收第一视角的视频和音频流。
能力展示：
- 实时环境理解： 机器人通过用户的第一视角，实时理解周围的环境，如识别出公园、街道、自行车等。
- 主动提问： 当用户经过一个自行车时，机器人主动提问：“你认识这辆自行车吗？”
- 复杂指令执行： 用户说“我需要一块电池”，机器人立即从刚才在办公室看到的场景中调取记忆，并回答：“好的，我们回去找找你之前看到的那块电池。”
- 自然语言导航： 用户说“我们回家吧”，机器人能够理解并规划路线。

谷歌并没有只专注于一个机器人形态,而是展示了多种硬件平台，表明其软件和算法具有通用性。

原型机器人： 在 I/O 大会上展示的桌面机器人，其硬件看起来是基于现有机器人平台（如 Unitree 的机器人）进行改造的，配备了高分辨率摄像头、麦克风阵列和灵巧的机械臂。
眼镜原型： 那个能提供第一视角的智能眼镜是硬件创新的关键，它让机器人能够解放自己的“身体”，跟随用户移动，获得更自然的交互视角。
软件与硬件解耦： 谷歌的策略似乎是先打磨核心的 AI 大脑（Gemini Agent），然后将其适配到不同的物理载体上，这种灵活性是其未来商业化的关键。

对比特斯拉 Optimus：
- 特斯拉： 更强调“本体”的突破，追求极致的仿生设计和制造成本控制，其优势在于大规模生产制造能力，但目前主要展示的是基础的运动能力（如行走、抓取物体）。
- 谷歌： 更强调“大脑”的突破，追求高水平的智能和交互能力，其优势在于世界顶级的 AI 模型（Gemini）和软件算法，目前展示的交互能力远超其他竞品，但硬件更多是“原型”性质。
- 简单说： 特斯拉在比“肌肉”，谷歌在比“大脑”。
对比 Figure AI：
- Figure AI： 与 OpenAI 合作，专注于在特定场景（如工厂）的实用性，动作非常流畅，商业化路径清晰。
- 谷歌： 展示的场景更通用、更生活化，追求的是“通用人工智能”在人形机器人上的体现，技术愿景更宏大。