Libratus 是由卡内基梅隆大学的 Tuomas Sandholm 教授和他的学生 Noam Brown(现就职于 Meta AI)开发的一款人工智能程序,它在 2025 年 1 月与四名世界顶级扑克玩家进行了一场为期 20 天的“人机大战”,并以绝对优势获胜,被认为是人工智能发展史上的一个重要突破。

下面我将从几个方面为你全面解析 Libratus:
核心成就:碾压人类顶尖玩家
- 对手:四位职业扑克玩家,包括 Jason Les, Dong Kim, Daniel McAulay 和 Chino Rheem,他们都是经验丰富、战绩斐然的顶尖高手。
- 比赛形式:无限注德州扑克,比赛形式为“6-max”(6人桌),这比常见的2人 Heads-Up 比赛复杂得多,因为玩家需要考虑更多对手的策略和动态。
- 赛果:在经过 120,000 手牌的较量后,Libratus 以 1,776,000 美元的巨额筹码领先人类方,这不仅仅是小胜,而是压倒性的胜利。
- 历史意义:这场比赛的胜利比之前 AlphaGo 击败李世石更具某种象征意义,围棋是“信息完全公开”的博弈(双方都能看到棋盘上所有棋子),而扑克是“信息不完全”的博弈(玩家不知道对手的底牌),还涉及“虚张声势”(Bluffing)和“心理战”,Libratus 的胜利标志着 AI 在处理不确定性、隐藏信息和策略性欺骗方面达到了新的高度。
核心技术:为什么 Libratus 如此强大?
Libratus 的强大之处在于其独特的算法架构,它解决了传统博弈论 AI 在复杂扑克游戏中面临的“计算爆炸”问题,其核心技术可以概括为以下几点:
a. 算法基础:纳什均衡
- 概念:纳什均衡是一种博弈论中的策略组合,即在给定其他参与者策略的情况下,没有任何一个参与者可以通过单方面改变策略来获得更好的收益,在扑克这种“零和博弈”(一方的收益等于另一方的损失)中,如果双方都采用纳什均衡策略,那么长期来看,谁也无法获得优势。
- Libratus 的目标:Libratus 的目标不是去“计算”出完整的纳什均衡策略(这在扑克这种复杂游戏中是不可能的),而是“逼近”一个有效的纳什均衡策略,使其在面对任何人类对手时都能保持不败,甚至盈利。
b. 关键创新:解耦与抽象
这是 Libratus 最核心的突破,传统的 AI 在每个决策点都需要重新计算整个博弈树,计算量巨大,Libratus 巧妙地将决策过程分解。
-
策略解耦
(图片来源网络,侵删)- 传统方法:在每一个行动点(翻牌后下注 10 美元),AI 都需要计算从该点开始到游戏结束的所有可能性。
- Libratus 方法:它将策略分为两个阶段:
- 策略计算:在比赛开始前或长时间休息期间,Libratus 在强大的超级计算机上预先计算出一个强大的“基础策略”,这个策略覆盖了几乎所有可能的公共牌组合和自己的手牌范围。
- 策略执行:在比赛中,当轮到 AI 行动时,它只需调用这个预计算好的策略,并根据当前局面(公共牌、底池大小等)快速做出决策,而无需进行实时、复杂的全局计算,这极大地提高了决策速度。
-
- 博弈论抽象
- 问题:真实的扑克游戏中,可能的下注金额是无限的(比如你可以下注 1 美元、1.01 美元、1.02 美元...),这导致博弈树变得无限庞大,无法计算。
- Libratus 方法:它将无限的下注金额“抽象”或“映射”到一个有限的下注选项集合中,它可能会将所有下注金额归类为“小注”、“中注”、“大注”等几个级别。
- 好处:这使得在抽象后的、规模更小的博弈树上计算纳什均衡成为可能。
- 挑战:抽象后的策略如何应用到真实的、无限的下注游戏中?Libratus 的解决方案是使用“策略修复”(Strategy Repair)。
c. 核心技术:策略修复
这是 Libratus 最具革命性的部分,解决了抽象化带来的信息损失问题。
- 工作原理:
- 在比赛期间,当 Libratus 需要做出一个在抽象化模型中没有对应选项的真实决策时(一个非标准的下注额),它会分析对手的历史行动。
- 它会识别出对手在哪些具体的、非抽象化的下注点上表现出了“弱点”(即偏离了最优策略)。
- Libratus 会微调自己的策略,在这些特定的、真实的下注点上“惩罚”对手,它会在这些点上采用一种新的、经过优化的策略,专门针对对手暴露出的漏洞进行剥削。
- 这个过程是实时的,意味着 Libratus 在比赛中不断学习和进化,变得越来越“懂”它的对手。
策略修复就像一个动态的“漏洞修补器”,让 Libratus 不仅能使用一个通用的、强大的基础策略,还能在比赛中针对性地攻击对手的特定弱点。
与其他 AI 的对比
| 特性 | Libratus (2025) | Cepheus (2025) | Pluribus (2025) |
|---|---|---|---|
| 开发者 | CMU (Sandholm & Brown) | Alberta (Bowman et al.) | Facebook AI (Brown & Sandholm) |
| 比赛形式 | 6人桌,无限注德州扑克 | 2人桌,限注德州扑克 | 6人桌,无限注德州扑克 |
| 核心算法 | 策略解耦 + 博弈论抽象 + 策略修复 | 纳什均衡计算 + 极限博弈树搜索 | 自我对弈 + 蒙特卡洛树搜索 + 新的“子游戏解算”技术 |
| 关键创新 | 策略修复,实时剥削对手漏洞 | 首个在2人限注扑克中达到“接近”纳什均衡的AI | 首个在多人扑克中击败人类顶尖玩家的AI,且无需超级计算机 |
| 计算资源 | 需要强大的超级计算机 | 需要强大的超级计算机 | 只需普通的商业服务器(与Libratus相比) |
| 意义 | 突破了信息不完全博弈的障碍,证明了AI在复杂策略游戏中的强大 | 解决了2人限注扑克的长期博弈问题 | 证明了AI可以在更复杂的多玩家环境中自主学习并取胜,效率更高 |
意义与影响
- AI 领域:Libratus 证明了 AI 在处理不确定性、不完全信息和复杂策略互动方面的巨大潜力,其“解耦+抽象+修复”的思想对其他领域(如网络安全、军事策略、商业谈判)都有启发意义。
- 扑克界:彻底改变了职业扑克玩家对游戏的认知,玩家们开始更多地利用 AI 工具进行训练,学习更优的“GTO”(Game Theory Optimal,博弈论最优)策略,而不是仅仅依赖经验和读人。
- 技术转化:Libratus 的技术被 Tuomas Sandholm 教授创立的公司 Strategy Robot 商业化,应用于国防安全领域,帮助制定更优的防御和资源分配策略。
Libratus 不仅仅是一个会打扑克的机器人,它是一个复杂的、能够进行策略性思考、学习和自我修正的 AI 系统。 它的成功并非依赖于计算能力的堆砌,而是源于其精妙的算法设计,特别是策略解耦和策略修复,使其能够在浩如烟海的扑克可能性中,高效地逼近最优策略,并实时发现并利用对手的漏洞,它标志着人工智能从“感知智能”向更深层次的“认知智能”迈出的重要一步。

标签: Libratus扑克机器人战胜人类 AI扑克机器人Libratus技术原理 Libratus扑克AI决策优势