“图里测试”并不是谷歌官方正式发布的、有明确名称和规则的“测试”,它更像是一个由谷歌研究院在2025年提出的、引发广泛讨论的“思想实验”或“研究框架”,旨在探讨和推动人工智能在图像理解和生成方面的能力,特别是其“思维链”(Chain-of-Thought, CoT)能力。

这个概念的核心论文是 《Thinking, Fast and Slow with an Image》,灵感来源于诺贝尔经济学奖得主丹尼尔·卡尼曼的同名著作《思考,快与慢》。
核心思想:AI的“快思考”与“慢思考”
卡尼曼在书中提出,人类的思维有两种模式:
- 快思考:直觉、快速、不费力,但容易出错,比如看到一个图片立刻说出“这是一只猫”。
- 慢思考:逻辑、缓慢、需要努力,但更严谨、更准确,比如你需要仔细分析图片中猫的品种、姿态、背景等。
谷歌的研究人员将这个框架应用到AI上,提出了“图里测试”的核心:一个真正的、强大的视觉AI模型,不仅能像“快思考”一样快速识别图像,更能像“慢思考”一样,对图像进行多步、复杂、有逻辑的推理和解释。
“图里测试”的两种形式
这个测试主要包含两个方面,分别对应AI的“慢思考”和“快思考”能力。

“慢思考”测试:视觉思维链
这是“图里测试”最核心、最引人注目的部分,它要求AI模型不仅能给出答案,还能展示出得到这个答案的“思考过程”。
测试方法: 向AI模型展示一张复杂的图片,并提出一个需要多步推理才能回答的问题,模型不仅要给出最终答案,还要像写解题步骤一样,列出它的推理过程。
经典示例:
图片描述: 一张厨房的照片,灶台上放着一个平底锅,锅里有一个煎蛋,平底锅的把手指向右边,旁边有一个水槽,水槽里有一些碗。
(图片来源网络,侵删)问题: 如果我从门口走进来,要去拿平底锅,我应该先向左转还是先向右转?
一个简单的“快思考”AI可能会回答: “向右转。” (因为它看到了锅把朝右)
一个通过“图里测试”的“慢思考”AI会这样回答(并展示其推理过程):
- 分析目标: 目标是拿到平底锅。
- 定位物体: 在图片中找到平底锅,发现它的把手朝向右边。
- 推断位置关系: 为了拿到锅,我需要站在锅的把手一侧,也就是锅的右侧。
- 规划路径: 从门口(假设在图片下方)到锅的右侧,最直接的路径是先向右走,绕过桌子或障碍物。
- 得出结论: 我应该先向右转。
这个“思考过程”就是视觉思维链,它证明了AI不是在简单地匹配关键词,而是在真正地理解空间关系、逻辑规划和因果关系。
“快思考”测试:视觉识别与生成
这是AI目前比较成熟的能力,但“图里测试”也强调了其重要性。
- 识别: 快速、准确地识别图像中的物体、场景、人物等。“图里测试”要求AI能识别出图片中不仅有“猫”,还有“一只暹罗猫”。
- 生成: 根据文本描述(Prompt)生成逼真的图像,这是谷歌 Imagen 模型的核心能力,你输入“一只宇航员在月球上骑马”,模型能生成一张符合描述的图片。
“快思考”是基础,而“慢思考”是更高阶的追求,两者结合,才构成了一个强大的视觉AI。
谷歌的相关技术与模型
谷歌提出“图里测试”这个框架,是为了展示和激励其自身在AI领域的进展,相关的核心技术包括:
- PaLM 2 (Pathways Language Model 2): 谷歌强大的语言模型,为“思维链”能力提供了基础。
- Imagen: 谷歌的文生图模型,其特点是“可控性”和“高保真度”,与OpenAI的DALL-E 3不同,Imagen更强调对文本指令的精确理解和执行,这为生成符合复杂逻辑的图像打下了基础。
- Gemini (formerly Bard): 谷歌最新的多模态大模型,其设计目标就是原生地理解和处理文本、代码、图像、音频等多种信息。Gemini是谷歌目前最接近“图里测试”理念的产物,因为它被设计为能够进行多模态的“思维链”推理,你可以给它一张图片和一段文字,让它分析两者之间的关系并进行推理。
意义与挑战
意义:
- 推动AI向更深层理解迈进: 从“识别”到“推理”,是AI发展的关键一步。“图里测试”为这个方向设立了清晰的目标。
- 提升AI的可靠性与安全性: 一个能进行慢思考、展示推理过程的AI,更容易被人类理解和信任,也更容易发现其潜在的偏见或错误。
- 拓展AI的应用边界: 具备复杂推理能力的AI可以在自动驾驶(理解交通场景意图)、医疗影像分析(综合多种信息进行诊断)、机器人交互(规划复杂任务)等领域发挥巨大作用。
挑战:
- 数据与算力: 训练能够进行多模态、长链推理的模型需要海量的高质量数据和巨大的计算资源。
- 评估标准: 如何客观、量化地评估一个AI的“思考质量”?这是一个开放的研究难题。
- 幻觉问题: AI在推理过程中可能会“编造”出看似合理但实际上不存在的信息(即“幻觉”),如何控制幻觉是其面临的一大挑战。
- 可解释性: 即使AI展示了推理过程,我们也需要确保这个过程的每一步都是正确和可追溯的。
谷歌的“图里测试”不是一个像“图灵测试”那样有固定答案的考试,而是一个前沿的研究蓝图和哲学理念。 它的核心思想是,未来的视觉AI不应只是一个“快思考”的识别器,而应是一个兼具“快思考”和“慢思考”能力的“视觉推理家”。
它强调,一个真正的AI智能体,需要能够:
- 快速识别。
- 深入推理图像中的复杂关系和逻辑。
- 清晰展示其得到结论的思维过程。
这个测试由谷歌提出,并通过其 Imagen 和 Gemini 等模型进行实践,旨在引领整个行业朝着更通用、更可靠、更接近人类认知方式的人工智能方向发展。
标签: 谷歌AI图测效果评测 谷歌AI图测好用吗 谷歌AI图测真实体验
