阿尔法狗零，如何从零自学成围棋大师？

99ANYc3cd6 人工智能 2026-01-13 23

故事：从无到有，创世的棋局

在2025年,一个名为“阿尔法狗”（AlphaGo）的AI，以4:1的悬殊比分击败了世界围棋冠军李世石，震惊了世界，人们惊叹于机器的智慧，认为这是人工智能的巅峰时刻，紧接着，它以更完美的姿态击败了当时世界排名第一的柯洁，在许多人看来，围棋这座人类智慧的最后堡垒，已被AI彻底攻陷。

（图片来源网络，侵删）

在DeepMind（谷歌旗下人工智能研究公司）的实验室里，气氛却异常冷静，他们知道，第一代阿尔法狗虽强，但它有一个“原罪”——它是一个“学徒”，一个“模仿者”。

它学习了人类顶尖棋手的三千万盘棋谱,就像一个天才学生，通过背诵和学习老师的所有教案，最终在考试中取得了满分，但它真的“理解”围棋吗？它的棋风中是否还残留着人类的偏见和局限？它能走出超越人类想象，甚至超越它自己所学知识的棋步吗？

科学家们心中有一个更宏大、更纯粹的梦想：创造一个不依赖任何人类知识，从零开始，仅凭对游戏规则的理解，就能自我进化，最终达到甚至超越人类智慧巅峰的AI。

一个全新的项目启动了,它的代号是——“阿尔法狗零”。

（图片来源网络，侵删）

“零”，代表着它的起点：零数据，零人类知识，零预设。

故事的开端,不是输入任何一盘棋谱，DeepMind的研究人员只给了阿尔法狗零三样东西：

研究人员按下了“开始”按钮。

在最初的几百万步里,阿尔法狗零的表现堪称“灾难”，它像一个刚出生的婴儿，胡乱地吃子，频繁地自杀，下出的棋连初学者都不如，它不知道什么是“金角银边草肚皮”，不理解“势”与“地”的平衡，更不懂任何定式或手筋。

（图片来源网络，侵删）

它有一个人类棋手不具备的能力——惊人的计算速度和不眠不休的毅力，它以每秒数千盘棋的速度，与自己进行对弈，每下一盘，它都会学习；每赢一盘，它都会强化那个导致胜利的策略；每输一盘，它都会反思那个导致失败的失误。

这个过程,DeepMind称之为“强化学习”（Reinforcement Learning）。

时间一天天过去,在无人打扰的数字世界里，阿尔法狗零正在进行着一场前所未有的自我进化。

第一阶段：野蛮生长 它像一个在原始森林里独自摸索的探险家，它尝试了所有可能的下法，无论是高效的还是愚蠢的，它偶然发现，占据角落比占据中央更有利；它偶然领悟到，连接棋子比孤军奋战更安全，这些不是从书本上学来的，而是通过亿万次试错，从冰冷的胜负结果中“悟”出来的。

它的棋风开始成形,但非常奇特，充满了“野性”和“非人类”的气息，它下出的棋，常常让观看它的程序员感到困惑，因为它们不符合任何人类的棋理。

第二阶段：自我超越 大约经过三天的自我对弈（相当于人类下了几千万盘棋），一个惊人的时刻到来了，阿尔法狗零突然开始“开窍”，它的神经网络开始提炼出更深层次的战略思想，它不再仅仅关注局部的得失，而是开始理解全局的平衡、棋子的效率、以及长远的潜力。

它的棋力曲线呈指数级增长,每一天的它都比前一天强大无数倍，它开始下出一些让顶尖人类棋手都感到“妙不可言”的棋步，这些棋步，不是人类教科书上的标准答案，而是它自己探索出的、最优的解。

最关键的一次蜕变发生在它与“阿尔法狗李”（即击败李世石的那版）的对局中，在100:0的悬殊战绩下，阿尔法狗零彻底击败了它的“老师”，它证明了，不依赖人类知识，仅凭自我探索，就能达到并超越人类智慧的最高成就。

2025年10月,DeepMind正式公布了阿尔法狗零，为了展示它的威力，让它与世界冠军柯洁进行了一场“人机大战”的预演——对战另一位顶尖AI“阿尔法狗大师”（AlphaGo Master，它在网络上以“绝艺”之名横扫60场连胜）。

结果毫无悬念,阿尔法狗零以100:0的压倒性优势完胜。

随后,它以“绝艺”的身份，在网络上匿名对弈，再次取得60连胜，它的棋风已经完全成熟，既不像第一代阿尔法狗那样稳健，也不像它早期那样狂野，而是一种极致的效率与深刻的洞察力的结合。

最著名的,是它在第37手下出的一步棋，这一步棋，被棋界誉为“神之一手”，它出现在一个看似平淡无奇的角落，却蕴含着几十步之后的深远影响，颠覆了人类几千年来对围棋定式的理解，柯洁在观看这盘棋的直播后，感叹道：“它下的每一手棋，都让我感觉……它就是围棋本身。”

阿尔法狗零的出现,没有让人类感到恐惧，反而带来了一种敬畏和解脱，它证明了：

阿尔法狗零的故事并未结束在棋盘之上,它的核心技术——“从零开始的强化学习”，被DeepMind应用于更广阔的领域。

从发现新的蛋白质折叠结构,到优化数据中心能源消耗，再到加速新材料科学的研发，阿尔法狗零的“创世”思想正在帮助人类解决现实世界中最复杂的问题，它不再是一个围棋AI，而是一个通用的“问题解决器”。

它的故事,是一个关于“无中生有”的传奇，它告诉我们，在数据和算法的海洋中，只要给予一个清晰的规则和不懈探索的动力，智慧便能如同生命一般，从虚无中诞生，并最终，照亮前行的道路。

阿尔法狗零,这个名字本身就充满了哲学意味，它从“零”开始，最终却为我们开启了一个充满无限可能的“新纪元”。

本文地址： https://gzrobot.org.cn/post/5522.html