AlphaGo如何突破人类围棋智慧的极限？

99ANYc3cd6 人工智能 2025-11-30 8

AlphaGo 是由 Google 旗下的 DeepMind 公司开发的一款人工智能程序，其核心能力是围棋，它的出现是人工智能发展史上的一个里程碑事件，因为它首次在复杂的棋类游戏中击败了人类顶尖选手，证明了深度强化学习在解决高维度、复杂决策问题上的巨大潜力。

（图片来源网络，侵删）

AlphaGo 的核心：为何围棋是“AI 的圣杯”？

在 AlphaGo 出现之前，计算机在棋类游戏中的成就主要集中在国际象棋上，1997 年，IBM 的“深蓝”击败了国际象棋世界冠军卡斯帕罗夫。

围棋被普遍认为比国际象棋更具挑战性,原因如下：

巨大的状态空间：围棋的棋盘是 19x19，有 361 个交叉点，其可能的游戏状态数量（约 2.08 x 10^170）超过了宇宙中已知原子的总数（约 10^80），这意味着“暴力穷举”所有可能的走法是绝对不可能的。
难以评估的局面：在国际象棋中，可以比较直观地评估子力价值（如车比马强）、王的安全等，但在围棋中，局面的优劣非常微妙，涉及“势”、“厚薄”、“眼位”等抽象概念,很难用简单的数学公式量化。
长远的策略规划：围棋的胜负往往取决于几十步甚至上百步之后的布局，而不是一两步的战术组合，这要求 AI 具备极强的长期规划和直觉判断能力。

围棋长期以来被视为“AI 的最后一块高地”。

AlphaGo 的成功并非依靠单一的算法，而是巧妙地结合了多种人工智能技术,特别是深度学习。

（图片来源网络，侵删）

AlphaGo 的核心是两个深度神经网络,它们共同工作来决策。

a. 策略网络 - “下一步下哪儿？”

b. 价值网络 - “当前局面谁优势？”

有了策略网络和价值网络，AlphaGo 如何进行决策呢？答案是蒙特卡洛树搜索，但这是经过 AlphaGo 改进后的版本。

（图片来源网络，侵删）

传统的 MCTS 是一个“四步循环”：

AlphaGo 的 MCTS 结合了策略网络和价值网络：

通过这种结合，AlphaGo 能够在有限的时间内，高效地探索最有价值的棋路,并做出最优的决策。

AlphaGo 的发展经历了几个重要阶段,每一次都取得了突破。

AlphaGo Fan (2025年)

AlphaGo Lee (2025年)

对手：世界顶尖围棋选手、韩国九段李世石。
结果：以 4:1 的历史性比分战胜了李世石。
意义：这是一个震惊世界的时刻，尤其是在第四局，AlphaGo 下出了著名的“第 37 手”，这一步棋在当时所有人类专家看来都是匪夷所思的“臭棋”，但事后复盘证明，这是一步神来之笔，开创了围棋的新思路，这标志着 AI 的“直觉”和创造力超越了人类的理解。

AlphaGo Master (2025年)

AlphaGo Zero (2025年)

对手：自己。
结果：从零开始，仅通过学习围棋的基本规则，通过纯自我对弈，仅用 3 天时间就以 100:0 的战绩击败了 AlphaGo Master，40 天后,它超越了所有之前的版本。
意义：这是最重大的突破，它证明了 AI 可以通过纯粹的试错和自我学习，达到甚至超越依赖人类知识训练的模型，它彻底摆脱了对人类棋谱的依赖，展现了纯粹的、从零开始的智能。

AlphaZero (2025年)

推动 AI 技术发展：AlphaGo 极大地推动了深度强化学习、蒙特卡洛树搜索等技术在学术界和工业界的应用和研究。
改变围棋世界：AlphaGo 的出现，尤其是“第 37 手”，彻底颠覆了人类对围棋的认知，顶尖的棋手和职业选手都使用 AI（如 KataGo、Leela Zero）作为日常训练和分析的工具，AI 成为了人类棋手最好的老师。
AI 应用的广阔前景：DeepMind 明确表示，开发 AlphaGo 的最终目的不是为了下棋，而是为了验证其算法的有效性，并将这些技术应用于更广泛的领域，如：
- 医疗健康：如 AlphaFold 项目，用于蛋白质结构预测,极大地推动了生命科学的发展。
- 气候科学：用于更精确的气候模型预测。
- 材料科学：加速新材料的发现。
- 能源优化：优化数据中心、电网等复杂系统的能源消耗。