AlphaGo 是由 Google 旗下的 DeepMind 公司开发的一款人工智能程序,其核心能力是围棋,它的出现是人工智能发展史上的一个里程碑事件,因为它首次在复杂的棋类游戏中击败了人类顶尖选手,证明了深度强化学习在解决高维度、复杂决策问题上的巨大潜力。

AlphaGo 的核心:为何围棋是“AI 的圣杯”?
在 AlphaGo 出现之前,计算机在棋类游戏中的成就主要集中在国际象棋上,1997 年,IBM 的“深蓝”击败了国际象棋世界冠军卡斯帕罗夫。
围棋被普遍认为比国际象棋更具挑战性,原因如下:
- 巨大的状态空间:围棋的棋盘是 19x19,有 361 个交叉点,其可能的游戏状态数量(约 2.08 x 10^170)超过了宇宙中已知原子的总数(约 10^80),这意味着“暴力穷举”所有可能的走法是绝对不可能的。
- 难以评估的局面:在国际象棋中,可以比较直观地评估子力价值(如车比马强)、王的安全等,但在围棋中,局面的优劣非常微妙,涉及“势”、“厚薄”、“眼位”等抽象概念,很难用简单的数学公式量化。
- 长远的策略规划:围棋的胜负往往取决于几十步甚至上百步之后的布局,而不是一两步的战术组合,这要求 AI 具备极强的长期规划和直觉判断能力。
围棋长期以来被视为“AI 的最后一块高地”。
AlphaGo 的工作原理:深度学习 + 强化学习
AlphaGo 的成功并非依靠单一的算法,而是巧妙地结合了多种人工智能技术,特别是深度学习。

核心组件:两个神经网络
AlphaGo 的核心是两个深度神经网络,它们共同工作来决策。
a. 策略网络 - “下一步下哪儿?”
- 功能:这个网络的作用是落子选择,当给定一个当前棋局时,它会输出一个概率分布,告诉 AI 在哪些位置落子的可能性最大。
- 类比:它就像一个经验丰富的围棋高手,看到棋盘后,能凭直觉快速筛选出几个“好点”,而不是漫无目的地考虑所有 361 个位置,这极大地减少了搜索空间。
- 训练:DeepMind 团队使用了超过 3000 万步来自人类顶尖棋手(如李世石、柯洁)的对局数据进行监督学习,让网络学会模仿人类的下法。
b. 价值网络 - “当前局面谁优势?”
- 功能:这个网络的作用是局面评估,当给定一个棋局时,它会直接输出一个从 0 到 1 的分数,表示当前局面下黑方获胜的概率(0 表示必败,1 表示必胜)。
- 类比:它像一个经验丰富的棋手,只需看一眼棋盘,就能大致判断出“这盘棋我领先多少”或“对手的优势有多大”,这解决了传统围棋程序中难以量化评估局面优劣的难题。
- 训练:价值网络通过自我对弈进行训练,AlphaGo 与自己下数百万盘棋,并根据最终输赢的结果来调整网络参数,让它学会判断局面的好坏。
核心算法:蒙特卡洛树搜索
有了策略网络和价值网络,AlphaGo 如何进行决策呢?答案是蒙特卡洛树搜索,但这是经过 AlphaGo 改进后的版本。

传统的 MCTS 是一个“四步循环”:
- 选择:从根节点(当前局面)开始,选择最有希望的子节点,直到到达一个“叶子节点”(未展开的局面)。
- 扩展:在叶子节点处,根据策略网络的建议,扩展出几个新的子节点。
- 评估:对每个新节点,使用快速走子或价值网络来评估其胜率。
- 回溯:将评估结果返回给所有父节点,更新它们的访问次数和胜率统计。
AlphaGo 的 MCTS 结合了策略网络和价值网络:
- 策略网络指导“选择”阶段,让搜索更偏向于人类高手认为有潜力的走法。
- 价值网络在“评估”阶段提供更快速、更准确的局面评估,代替了传统 MCTS 中非常耗时的随机模拟(快速走子)。
通过这种结合,AlphaGo 能够在有限的时间内,高效地探索最有价值的棋路,并做出最优的决策。
AlphaGo 的发展历程与里程碑事件
AlphaGo 的发展经历了几个重要阶段,每一次都取得了突破。
AlphaGo Fan (2025年)
- 对手:欧洲围棋冠军樊麾二段。
- 结果:以 5:0 的完胜战绩击败了樊麾,成为第一个不借助让子击败职业围棋选手的 AI。
- 意义:首次向世界证明了 AI 在围棋上可以战胜人类职业选手。
AlphaGo Lee (2025年)
- 对手:世界顶尖围棋选手、韩国九段李世石。
- 结果:以 4:1 的历史性比分战胜了李世石。
- 意义:这是一个震惊世界的时刻,尤其是在第四局,AlphaGo 下出了著名的“第 37 手”,这一步棋在当时所有人类专家看来都是匪夷所思的“臭棋”,但事后复盘证明,这是一步神来之笔,开创了围棋的新思路,这标志着 AI 的“直觉”和创造力超越了人类的理解。
AlphaGo Master (2025年)
- 对手:在线匿名对弈,主要目标是测试和改进。
- 结果:在网络上以 60:0 的战绩横扫包括柯洁在内的中日韩顶尖棋手。
- 意义:展示了 AlphaGo 的强大实力和稳定性,并引入了新的训练方法,主要依靠自我对弈,减少了对人类数据的依赖。
AlphaGo Zero (2025年)
- 对手:自己。
- 结果:从零开始,仅通过学习围棋的基本规则,通过纯自我对弈,仅用 3 天时间就以 100:0 的战绩击败了 AlphaGo Master,40 天后,它超越了所有之前的版本。
- 意义:这是最重大的突破,它证明了 AI 可以通过纯粹的试错和自我学习,达到甚至超越依赖人类知识训练的模型,它彻底摆脱了对人类棋谱的依赖,展现了纯粹的、从零开始的智能。
AlphaZero (2025年)
- 对手:自己,以及 Stockfish(国际象棋顶级程序)和 Elmo(日本将棋顶级程序)。
- 结果:AlphaZero 只用了 9 个小时的自我对弈,就学会了国际象棋和日本将棋,并分别击败了 Stockfish 和 Elmo。
- 意义:AlphaGo Zero 的通用版本,它证明了这套“从零开始、自我对弈”的框架可以适用于多种复杂的、信息完备的决策领域,而不仅仅是围棋。
AlphaGo 的影响与遗产
- 推动 AI 技术发展:AlphaGo 极大地推动了深度强化学习、蒙特卡洛树搜索等技术在学术界和工业界的应用和研究。
- 改变围棋世界:AlphaGo 的出现,尤其是“第 37 手”,彻底颠覆了人类对围棋的认知,顶尖的棋手和职业选手都使用 AI(如 KataGo、Leela Zero)作为日常训练和分析的工具,AI 成为了人类棋手最好的老师。
- AI 应用的广阔前景:DeepMind 明确表示,开发 AlphaGo 的最终目的不是为了下棋,而是为了验证其算法的有效性,并将这些技术应用于更广泛的领域,如:
- 医疗健康:如 AlphaFold 项目,用于蛋白质结构预测,极大地推动了生命科学的发展。
- 气候科学:用于更精确的气候模型预测。
- 材料科学:加速新材料的发现。
- 能源优化:优化数据中心、电网等复杂系统的能源消耗。
AlphaGo 不仅仅是一个下围棋的程序,它是一个催化剂和里程碑,它向世界展示了人工智能在解决复杂问题上的惊人潜力,并催生了一系列更强大、更通用的 AI 技术,它不仅改变了围棋,更深刻地影响了整个科技界和我们对“智能”本身的理解。
标签: AlphaGo突破围棋极限 AlphaGo战胜人类棋手 AlphaGo围棋算法创新