AlphaGo机器人为何能征服围棋？

99ANYc3cd6 机器人 2025-12-03 20

核心问题：为什么是围棋？

在AlphaGo出现之前,计算机在下棋方面已经取得了巨大成功，比如IBM的“深蓝”（Deep Blue）在1997年就击败了国际象棋世界冠军卡斯帕罗夫。

（图片来源网络，侵删）

围棋被普遍认为是“人工智能的最后一块高地”，原因如下：

巨大的状态空间：围棋的棋盘是19x19，有361个交叉点，可能的棋局数量据估计约为 08 x 10^170，这个数字比已知宇宙中的原子总数（约10^80）还要多得多，相比之下，国际象棋的可能棋局数大约是10^47，这意味着“暴力穷举”（Brute-force）的计算方法在围棋上完全行不通。
难以量化的“价值”：在国际象棋中，可以给棋子赋予明确的分值（如皇后9分，车5分等），局面好坏可以通过计算子力优势和位置优势来评估，但在围棋中，一块棋的“价值”是模糊的，它依赖于整体的“势”、眼位、厚薄、潜力等抽象概念，如何让计算机理解这些微妙的“棋感”，是最大的挑战。
长远的战略规划：围棋一盘棋可能持续数百手，每一步的影响可能在几十步之后才能显现，这要求AI具备极强的长期战略规划和因果推理能力，而不仅仅是短期的战术计算。

一个程序如果能战胜人类顶尖的围棋高手,就意味着它在模式识别、策略规划、直觉判断和学习能力上达到了前所未有的高度。

AlphaGo的革命性技术：它如何做到的？

AlphaGo的成功并非依靠单一的算法,而是多种先进AI技术的巧妙结合，其核心是两种深度神经网络与蒙特卡洛树搜索的结合。

两大核心神经网络：

策略网络
（图片来源网络，侵删）
- 作用：“直觉”或“大局观”，这个网络通过学习海量的人类棋谱（比如李世石、柯洁等顶尖棋手的对局），学会了在某个局面下，人类高手最有可能下在哪些位置。
- 工作方式：当AlphaGo看到棋盘上的一个局面时，策略网络会快速输出一个概率分布，告诉它“根据我的经验，下一步下在这里的概率最高”，这就像一个经验丰富的棋手，看到棋盘后能瞬间凭感觉圈出几个好点，大大缩小了搜索范围。
价值网络
- 作用：“判断”或“官子计算”，这个网络通过自我对弈进行训练，学会了评估一个棋局的最终胜率，它不看具体怎么下，而是直接“看”完整个局面后，给出一个胜率预测（“当前局面黑棋有70%的胜率”）。
- 工作方式：这相当于一个“裁判”，能对任意一个复杂的局面给出一个快速而准确的胜负判断，这让AlphaGo在搜索时，可以更高效地判断哪个分支更有可能通向胜利，而不需要把每条路都走到底。

搜索算法：蒙特卡洛树搜索

MCTS是AlphaGo的“决策引擎”，它不是盲目地搜索所有可能性，而是结合了两个网络进行智能搜索：

选择：从根节点（当前局面）开始，根据一个公式（结合了“探索”和“利用”）选择最有希望的路径向下走，这个“希望”的判断部分依赖于策略网络提供的先验概率。
扩展：当搜索到达一个未完全探索的节点时，使用策略网络来扩展这个节点，生成下一步可能的走法。
模拟：从扩展出的节点开始，快速进行随机对局（或由价值网络引导）直到终局，得到一个胜负结果。
回溯：将模拟的结果（胜负信息）沿着搜索路径反向传播，更新路径上所有节点的统计数据（比如访问次数和胜率）。

通过成千上万次这样的“选择-扩展-模拟-回溯”，MCTS最终会选择出被访问次数最多、胜率最高的那一步棋。

总结一下：AlphaGo就像一个“有经验的棋手”（策略网络）加上一个“精准的裁判”（价值网络），再由一个“聪明的决策者”（MCTS）将它们结合起来，在庞大的可能性中找到最优解。

（图片来源网络，侵删）

里程碑式的对战与历史意义

AlphaGo的发展经历了几个关键阶段,每一场对战都震惊了世界。

第一阶段：击败欧洲冠军樊麾（2025年10月）

结果：AlphaGo以5:0的比分完胜欧洲围棋冠军樊麾二段。
意义：这是历史上第一次，一个围棋AI在正式比赛中击败了职业人类棋手，尽管樊麾并非世界顶尖，但这一结果已经向世界宣告：围棋AI的时代即将来临。

第二阶段：击败世界冠军李世石（2025年3月，人机大战“AlphaGo vs Lee Sedol”）

这是整个故事的高潮,一场举世瞩目的对决。

背景：赛前，几乎所有顶尖棋手和专家都认为李世石（当时世界排名第一）将以4:1或至少3:1获胜。
赛果：AlphaGo 4:1 李世石。
关键棋局：尤其是第四局，李世石下出了著名的“神之一手”（第78手），这步棋超出了所有人的预料，甚至被认为是AI无法应对的“手筋”，AlphaGo冷静应对，最终逆转取胜，这一战让全世界亲眼目睹了AI超越人类想象力的创造力。
历史意义：
- 宣告了AI在围棋领域的绝对胜利，打破了“围棋是AI不可逾越的障碍”的神话。
- 震撼了全球，引发了关于人工智能、人类未来、创造力本质的广泛讨论。
- 推动了AI技术的普及和投资，全球科技巨头纷纷加大对AI领域的投入。

第三阶段：击败世界第一柯洁（2025年5月，乌镇峰会）

背景：此时的AlphaGo已经升级为Master版本（不使用人类棋谱，完全通过自我对弈学习），在网络匿名对战中以60:0的悬殊战绩横扫中日韩顶尖高手，其中包括柯洁。
赛果：AlphaGo 3:0 柋洁。
特点：这次对战，AlphaGo下出了许多前所未见、甚至违背人类千年定式的“新手”，展示了其超凡的棋感和创造力，柯洁在赛后流下了眼泪，坦言“AlphaGo太完美，我看不到任何胜利的希望”。
历史意义：标志着第一代AlphaGo的完美谢幕，也证明了纯粹自我学习AI的强大潜力。

第四阶段：公开“绝艺”，推动围棋发展

举措：在击败柯洁后，DeepMind宣布停止AlphaGo的比赛，并将其核心算法通过论文形式公开，同时还开源了AlphaGo Zero和AlphaZero的代码。
意义：这展现了科技公司的社会责任感，AlphaGo的“大脑”被开源后，极大地推动了全球AI研究的发展，催生了无数新的应用，AlphaGo与柯洁的对局棋谱成为了全世界棋手学习的宝贵资料，极大地推动了围棋理论的发展，人类棋手的水平也因此在与AI的“师徒关系”中得到了前所未有的提升。

AlphaGo的影响与遗产

对围棋的影响：
- 理论革命：AI带来了全新的围棋理念，三三点”的流行、对“厚势”价值的重新评估、对“效率”的极致追求等，人类棋手彻底告别了过去的“定式”思维，进入了一个“AI时代”的围棋。
- 教学工具：AI成为最强大的复盘和教学工具，棋手可以随时与AI对弈，分析每一步的优劣。
对人工智能的影响：
- 技术突破：证明了深度强化学习在解决复杂决策问题上的巨大潜力，其核心思想（如价值网络和策略网络的结合）被广泛应用于其他领域。
- 应用拓展：AlphaGo的技术被成功迁移到蛋白质结构预测（AlphaFold2）、材料科学、药物研发、气候变化建模等众多科学领域，解决了困扰人类多年的重大难题，其社会价值远超棋盘本身。
对哲学和人类认知的影响：
- 重新定义“智能”：AlphaGo展示了“直觉”和“创造力”并非人类独有，AI也可以通过数据驱动的方式获得这些能力。
- 人机关系：它不再是“人 vs 机器”的对立，而是开启了“人 + 机器”的协作新范式，人类与AI可以成为伙伴，共同探索未知的领域。

AlphaGo与围棋的故事，是一个关于挑战、突破与融合的传奇。 它不仅是一个程序战胜了游戏，更是人工智能发展史上的一个分水岭，它告诉我们，曾经被认为是人类智慧最后堡垒的领域，也可能被技术所攻克，更重要的是，它揭示了AI的终极价值不在于取代人类，而在于作为强大的工具，扩展人类认知的边界，与人类携手解决更宏大的挑战，AlphaGo的“遗产”，至今仍在深刻地影响着我们生活的方方面面。

标签： AlphaGo围棋AI核心技术 AlphaGo战胜人类棋手原因 AlphaGo机器人算法原理

本文地址： https://gzrobot.org.cn/post/1337.html