schaft谷歌人形机器人有何突破?

99ANYc3cd6 机器人 8

“Schaff”并不是谷歌官方的正式名称,这个名字源于其首席科学家 Karsten Schmidt 的姓氏,通常被媒体、科技爱好者和内部员工用作非正式的昵称,这个昵称非常流行,以至于很多人直接用它来指代整个项目。

schaft谷歌人形机器人有何突破?-第1张图片-广州国自机器人
(图片来源网络,侵删)

这个项目的官方名称是 "Project Astra",由谷歌 DeepMind 和谷歌研究院共同打造,Astra 在拉丁语中意为“星辰”或“武器”,寓意着其尖端的技术和探索未来的雄心。

下面我将从几个方面为你详细介绍这个项目:


核心技术:Gemini 模型的“眼睛”和“耳朵”

Project Astra 最核心的技术亮点在于,它将谷歌最强大的多模态大语言模型 Gemini 实时地“注入”到了机器人身上。

  • Gemini for AI Agents (Gemini Agent): 这不是简单地用 Gemini 去回答问题,而是让 Gemini 成为机器人的“大脑”,机器人通过摄像头和麦克风实时捕捉周围世界的视觉和音频信息,将它们流式传输到云端运行的大型 Gemini 模型中。
  • 实时理解与交互: 基于这些实时数据,Gemini 模型能够理解复杂的指令、记住对话的上下文,并迅速做出反应,这赋予了机器人前所未有的“情境感知”能力,它能理解“把昨天你看到的那块电池拿给我”这种涉及时间、空间和物体记忆的复杂指令。
  • 视觉-语言-动作的闭环: 这是人形机器人的终极目标之一,Astra 的系统实现了这个闭环:
    • 看: 高清摄像头捕捉视觉流。
    • 想: Gemini 模型实时分析视觉信息,理解场景和指令。
    • 说/做: 通过语音输出回答,或通过机械臂和腿部执行动作。

关键演示:惊艳了世界

2025 年 5 月的 Google I/O 大会上,Project Astra 展示了令人惊叹的实时交互能力,这些视频是其当前能力的最佳体现:

schaft谷歌人形机器人有何突破?-第2张图片-广州国自机器人
(图片来源网络,侵删)

桌面办公场景

  • 场景: 用户和机器人在一个杂乱的办公桌前互动。
  • 能力展示:
    • 物体识别与记忆: 机器人能清晰地识别出桌子上的物品(眼镜、电池、玩具熊、苹果等),并能在后续对话中准确回忆起它们的位置和状态。
    • 自然语言指令: 用户说“我找不到我的眼镜了”,机器人能迅速在摄像头画面中定位到眼镜,并说“你的眼镜在这里”。
    • 物理交互: 用户让它“把那个电池拿给我”,机器人能够准确地识别电池,并用机械臂将其抓取并递给用户。
    • 空间推理: 用户问“我的手机在哪里?”,机器人回答“在沙发上”,并准确地指向了沙发上的手机。
    • 多轮对话: 整个过程流畅自然,像在和一个聪明的助手对话。

移动跟随场景

  • 场景: 用户戴着眼镜(眼镜上带有摄像头和麦克风),在城市街道上行走,机器人实时接收第一视角的视频和音频流。
  • 能力展示:
    • 实时环境理解: 机器人通过用户的第一视角,实时理解周围的环境,如识别出公园、街道、自行车等。
    • 主动提问: 当用户经过一个自行车时,机器人主动提问:“你认识这辆自行车吗?”
    • 复杂指令执行: 用户说“我需要一块电池”,机器人立即从刚才在办公室看到的场景中调取记忆,并回答:“好的,我们回去找找你之前看到的那块电池。”
    • 自然语言导航: 用户说“我们回家吧”,机器人能够理解并规划路线。

硬件平台:灵活的“身体”

谷歌并没有只专注于一个机器人形态,而是展示了多种硬件平台,表明其软件和算法具有通用性。

  • 原型机器人: 在 I/O 大会上展示的桌面机器人,其硬件看起来是基于现有机器人平台(如 Unitree 的机器人)进行改造的,配备了高分辨率摄像头、麦克风阵列和灵巧的机械臂。
  • 眼镜原型: 那个能提供第一视角的智能眼镜是硬件创新的关键,它让机器人能够解放自己的“身体”,跟随用户移动,获得更自然的交互视角。
  • 软件与硬件解耦: 谷歌的策略似乎是先打磨核心的 AI 大脑(Gemini Agent),然后将其适配到不同的物理载体上,这种灵活性是其未来商业化的关键。

与其他公司的对比

  • 对比特斯拉 Optimus:

    • 特斯拉: 更强调“本体”的突破,追求极致的仿生设计和制造成本控制,其优势在于大规模生产制造能力,但目前主要展示的是基础的运动能力(如行走、抓取物体)。
    • 谷歌: 更强调“大脑”的突破,追求高水平的智能和交互能力,其优势在于世界顶级的 AI 模型(Gemini)和软件算法,目前展示的交互能力远超其他竞品,但硬件更多是“原型”性质。
    • 简单说: 特斯拉在比“肌肉”,谷歌在比“大脑”。
  • 对比 Figure AI:

    • Figure AI: 与 OpenAI 合作,专注于在特定场景(如工厂)的实用性,动作非常流畅,商业化路径清晰。
    • 谷歌: 展示的场景更通用、更生活化,追求的是“通用人工智能”在人形机器人上的体现,技术愿景更宏大。

挑战与未来

尽管演示非常成功,Project Astra 仍面临巨大挑战:

schaft谷歌人形机器人有何突破?-第3张图片-广州国自机器人
(图片来源网络,侵删)
  1. 延迟问题: 演示中,视频和音频经过了剪辑,实际云端处理必然存在延迟,如何将延迟降到最低,实现真正的实时交互,是工程上的巨大难题。
  2. 成本与算力: 运行大型 Gemini 模型需要巨大的计算资源,成本高昂,如何将其高效地部署到机器人本地的边缘计算设备上,是一个关键瓶颈。
  3. 硬件可靠性: 机械臂、腿部的耐用性、精度和安全性,以及电池续航,都是大规模应用前必须解决的问题。
  4. 伦理与安全: 当机器人进入人类生活,如何确保其行为安全、保护用户隐私、避免滥用,都是必须严肃对待的伦理问题。

Project Astra (Schaff) 是当前人形机器人领域最引人注目的项目之一,它并非简单地堆砌硬件,而是将谷歌最顶尖的 AI 软件能力(Gemini)与机器人硬件相结合,致力于打造一个真正智能、自然、能理解并适应人类世界的机器人。

它的核心价值在于“实时情境感知”“自然语言交互”,这让它不仅仅是一个执行命令的工具,更像一个能够理解意图、进行对话的智能伙伴,虽然距离大规模商业化还有很长的路要走,但它无疑为未来人形机器人的发展方向树立了一个新的标杆。

标签: schaft谷歌人形机器人突破性进展 schaft谷歌人形机器人技术突破 schaft谷歌机器人最新突破

抱歉,评论功能暂时关闭!