Join Best Online Poker Site. Enjoy Real Money online Poker Bonuses

WPT Global H5

打了一辈子德州,居然输给了新手AI!(中篇) 打了一辈子德州,居然输给了新手AI!(上篇):https://www.moshike.com/a/347.html 完美信息博弈类游戏 对于围棋

打了一辈子德州,居然输给了新手AI!(上篇):https://www.moshike.com/a/347.html

完美信息博弈类游戏

对于围棋游戏来说,是一场零和完美信息博弈,这是指在任何时刻,双方玩家都知道前面游戏的全部状态(完美信息),并且在有限步数之后游戏的结果非胜即负(零和)。

知道了游戏的有限状态,计算机就可以通过暴力枚举的方法来计算后面所有可能的下法,形成一颗巨大的搜索树,这颗搜索树可以列举出在当前状态下所有可能的下法,每个子搜索树都能独立求解,计算机就可以根据计算的结果安排对应的策略,从而达到最终的胜利。

举个栗子,比如,小明是一个普通中国家庭长大的小孩,在他的一生中,面临着很多个选择,如何才能在未来走向人生巅峰呢?如果可以列举出他未来所有的可能性,把每一步的选择拆解成“子未来”,那么就可以计算出成功胜算最大的选择了。(例子可能不够恰当,理解意思就好,嘻嘻)

小明同学的人生探险

所以,假设我们有无限大的计算资源,就可以将一局游戏的博弈拆解成一个一个的子博弈(列举出所有的可能性),从而计算出胜算最大的打法,就可以打赢比赛了。但是,以棋类游戏中比较简单的西洋棋来说,它的分支因子大概是40左右,这表示预测之后20步的动作需要计算40的20次方(这是多大,就算是1GHz的处理器,也要计算3486528500050735年),请注意,这还是比较简单的西洋棋。

所以,科学家们利用一些剪枝、搜索等算法以缩减计算范围,从而在有限的游戏时间内找出最佳策略。

不完美信息博弈类游戏

终于讲到了今天的主角,口袋德州。口袋德州(德州扑克)就是很典型的不完美信息博弈类游戏,它的策略设置中存在隐藏的信息。这类模型也有大量的应用场景,比如谈判、拍卖等等。不完美信息博弈不能如完美信息博弈那样通过分解而进行求解,因为一个子博弈的最佳策略可能依赖于其它尚未得到的子博弈的策略和输出。换句话说,我们无法通过预测到对方下注的多少从而猜测到对方手里的牌是什么,因为也许对方的牌并不好,但他通过下注欺骗你,让你选择弃牌。

所以,这件事对于没心机的计算机是相当困难的,对手第一手就all in了,但是他的牌到底好不好呢?

因此,当我看到AI在德州上也打败了人类,还些许有些小激动,maybe未来,机器人也可以具有女人的第六感了。那AI到底是如何打败人类的呢?论文中提及和很多很难理解(其实自己也看不太懂,逃)的算法,为了方便理解德州怎么玩,我们以一个简单的博弈模型来举例,试图理解聪明的AI。

我们来设计一个简单的游戏。

游戏玩家有A和B两人。A可以抛一次硬币,正反面都只有自己才可以看到,抛完后他有两个选择:①sell,卖掉硬币;②play,和B玩游戏。

if : A选择了sell:

if : 硬币落在正面,A卖掉后得到五毛钱;

else:硬币落在反面,A卖掉后输掉五毛钱。

if : A选择了play:

游戏继续,接下来由B来猜硬币是落在正面还是反面:

if : B猜对了,A赔一元,B赚一元;

else:B猜错了,A赚一元,B赔一元。

打了一辈子,居然输给了新手AI!(下篇):https://www.moshike.com/a/354.html

FAQ

吃瓜什么梗?

2016年,有人将“不发言只围观”的普通网民称为“吃瓜群众”,用来表示一种不关己事、不发表意见仅围观的状态。 2016年12月14日,入选语言文字规范类刊物《咬文嚼字》杂志社发布的“2016年十大流行语”。

黑料网是什么?

黑料网- 今日黑料独家爆料正能量黑料网是一家专注于独家爆料的新闻网站,每天为大家带来最新鲜、独家的黑料消息。 正能量是黑料网的独特标签,不仅会揭发一些黑暗的现象,更会积极传递正能量,引导社会风气的向好的方向发展。 作为一家优秀的媒体,黑料网立足于提供真实的新闻信息,为公众揭露一些不为人知的**。

什么是胡瓜?

黄瓜(学名:Cucumis sativus)也称胡瓜、青瓜、刺瓜、瓜仔哖,属葫芦科黄瓜属植物。 广泛分布于中国各地,是中国夏季主要蔬菜,且为温室产品之一。

吃瓜是怎么来的?

该词源于2016年网络热词“不明真相的吃瓜群众”(或简写为“吃瓜群众”),更早则来自百度贴吧中“前排出售瓜子”、“吃瓜子看戏”等用语,而“不明真相”是网民用来反讽中国官方话语中常见的“少数别有用心”、“不明真相的群众”等固定短语。

瓜州在今什么省?

瓜州,在今甘肅省境內設立的一個州。

🎮 最新文章 🎨 🎗️ 熱門文章 😚
🎯 推薦文章 🎁

什么时候不该持续下注 什么时候不该持续下注 在无限德州扑克中,持续下注(continuation bet,简称cbet)是翻前用加注取得主动权的牌手频繁选择的行动。 持

公众号svg互动_96微信编辑器 微信SVG互动样式,选择后可以在微信编辑器内进行SVG交互式图文制作,操作简单,无需代码。 应用原创注意:只能是正方形图片 应用原创应用原创应用

KK在A高翻牌面被check-raise KK在A高翻牌面被check-raise 牌局背景及过程 这手牌来自一个盲注2/5美元的无限德州扑克常规局。桌上玩家筹码量如图。翻前,一名牌手在

玩德州扑克最容易上头的原因 玩德州扑克最容易上头的原因 每个人都会在牌桌经历上头,不管是纯小白或经验老道的职牌,无一可以幸免。 有些人的“燃点”比较高,更能忍受失利带来的不

线上德扑锦标赛取胜的五个建议 微低额买入的德扑锦标赛,通常因为场数多,开赛时间灵活,投入小,回报率高等特点吸引着大量的扑克玩家,不论是职业的还是业余的。 真人德扑圈一般都有

河牌圈的打法策略 河牌圈的打法策略 当你打较深筹码的无限德州扑克时,不管是锦标赛还是常规桌,有时你需要在河牌圈做决定。因为德州扑克的下注尺度通常是相对底池大小而

单挑桌上的神弃牌 单挑桌上的神弃牌 这是在一个决赛桌单挑桌上发生的牌局。 对战双方:Jason Mercier VS Max Altergott。 过程 当时的盲注为50,000/100,00

拿到垃圾牌,诈唬是唯一的出路 拿到垃圾牌,诈唬是唯一的出路 有时,当你进入河牌圈时,手里拿着范围内最差的牌,这时诈唬是你唯一的出路。 你要判断,在河牌用范围内最差的牌诈唬是不

线下6人桌的打法 线下6人桌的打法 本文作者Patrick ‘pleno1′ Leonard是一名英国职业德州扑克牌手,同时也是一名德州扑克教练。他的总盈利积分榜是

3-bet底池测试 3-bet底池测试 你作为一名3-bet底池的防守者有多出色?以下是一个与3-bet底池有关的测试,请花些时间仔细思考,因为这十道题比较难。我

你有这几个德州扑克坏习惯吗? 你有这几个德州扑克坏习惯吗?所有德州扑克牌手都或多或少有些坏习惯。有些坏习惯是轻微的,对他们在牌桌上的表现只有小小影响,而有些坏习惯可能导致玩家的扑克成绩显著波动。

所有德州扑克牌手都或多或少有些坏习惯。有些坏习惯是轻微的,对他们在牌桌上的表现只有小小影响,而有些坏习惯可能导致玩家的扑克成绩显著波动。 下面