博弈论让人工智能变身“赌神”

文章正文
发布时间:2024-10-28 14:36

  2014年4月12日,西班牙的网球明星纳达尔在摩纳哥蒙特卡洛赌场与世界头号扑克女选手瓦·塞尔布斯特对局,图为纳达尔。(新华社/西霸)

  新华网北京2月2日电(记者彭茜)历经20多天的鏖战,4名顶尖德扑选手有些落寞:终于还是输了。这一次,击败他们的“赌神”是美国卡内基-梅隆大学开发的人工智能“Libratus”。

  每天近11小时的比赛后,人类选手仍不顾疲惫讨论第二天的策略,但人工智能似乎能猜透他们的心思。每当他们欣喜若狂地发现人工智能的策略漏洞,这一漏洞在下一天就会被填补。

  美国匹兹堡的一家赌场这次成为“人机大战”的最新战场,“Libratus”在那里与4名人类选手共玩了12万手一对一不限注的德扑。比赛从1月11日持续到30日,结束时,人工智能领先人类选手共约177万美元的筹码。

  今年早些时候,加拿大艾伯塔大学和捷克两所高校的研究人员开发的人工智能“DeepStack”已首次在一对一无限注德扑中击败人类职业玩家。

  过去20多年,国际象棋、中国象棋、拼字游戏、围棋……人们心情复杂地见证了人工智能步步攻陷人类智慧的堡垒。不过,又是下棋又是打牌,难道人工智能就只会玩耍吗?

  其实,正如益智游戏有利于儿童成长,棋牌类游戏是帮助人工智能“开发智力”的手段而不是目标。不同的游戏对人工智能提出了不同的技术挑战。

  两度出手皆获胜的“阿尔法围棋”,是要培养人工智能基于复杂信息的决策能力。一盘围棋游戏约有10的170次方个决策点,是所有棋类游戏中最多的,需要具有极大计算能力的人工智能,通过预测所有未来步骤的胜率来决策。

  围棋是一种“完美信息”博弈,信息完全公开,玩家可以看到棋盘上的棋子,并预测落子可能性。而德扑玩家手中的底牌是其他玩家看不到的,因此是“不完美信息”博弈,要求更复杂的推理能力,对人工智能更具挑战。

  此外,要想玩好德扑,人工智能还得懂点心理学。德扑中有一经典策略——诈唬,即在手握弱牌时依然虚张声势地加注,以吓退对手。对手是不是在诈唬?自己要何时诈唬还不被识破?这些都为编写人工智能程序提供了挑战。

  德扑“人机大战”中也有人工智能不堪回首的历史,卡内基-梅隆大学开发的一个较早版本的人工智能“Claudico”在2015年的比赛中输给人类选手。那么,此次卷土重来的“Libratus”靠什么成功“复仇”?

  其实,“Libratus”的名字隐含了它胜利的秘诀,这个拉丁文词语的含义是“均衡”,代表着程序所用到的均衡博弈。奥斯卡获奖影片《美丽心灵》的主人公原型约翰·纳什在20世纪50年代提出“纳什均衡”理论,又称为非合作博弈均衡,保证使得同一时间内每个参与者的策略是对其他参与人策略的最优反应。

  德扑是“不完美信息”博弈,无法像下围棋一般计算所有下一步的可能性来决策,研究人员便改进人工智能的算法,让其应用均衡博弈,通过平衡风险与收益来决定下一步,以达到纳什均衡定义中的完美状态。此外,研究人员还升级了人工智能的计算能力。

  而机器学习技术依然是人工智能在近年来进步神速的关键。开发者说,他们并未教“Libratus”如何打扑克,只是告诉它扑克的规则,让它通过几万亿次的自我对战寻找到获胜策略。在比赛日的每个晚上,开发者还会将其与匹兹堡的超级计算机联网改进算法,这也是它总能在人类对手制衡自己之前抢先一步的原因。

  除了在牌桌上赢得风生水起,掌握博弈论的人工智能在现实生活中也大有用武之地,如金融交易、拍卖、政治和商业谈判、军事或网络安全策略以及规划医疗方案等。以后,凡是需要基于“不完美信息”作出战略决策时,人工智能都可能给出最优解。

  (新华社客户端报道)

+1

首页
评论
分享
Top