如何模拟预测世界杯
https://mp.weixin.qq.com/s?__biz=MzIwMTMzMDI5Mw==&mid=2650234844&idx=1&sn=b1ac792fb385e0ec9f1f2cc98e61ccb7&chksm=8eec64c6b99bedd0cea77fd19c1af8bff6bbe6eee7d7aedcdbb841ce6028aeb47cea09e365da&mpshare=1&scene=1&srcid=0613LqSiLi5KeqbxQDq0hs2S&pass_ticket=dls1QA%2FQrOwWnnTvjjwhBW8IWT1oY55n0RDNABqyLSL3yGvY3%2Bq5EPkprEwP6TBh#rd
世界杯开赛在即,各位球迷都在预测心目中的冠军球队,专业的博彩公司也在预测比赛结果的概率,他们开出了各种各样的赔率。
赔率和概率是怎么换算的呢?
比如赛马会给出的欧洲球队夺冠的赔率是1.43,意思是如果下注100元,猜中的话,可以获得143元。如果是公平的赌局,赔率的倒数就是该事件发生的概率。这里欧洲球队夺冠的概率是1/1.43= 69.9%,但是公平的赌局实际上不存在的,博彩公司不是慈善机构,它需要赚钱从中抽水,就是所谓的返还率,比如这里它的返还率是87.5%,这时隐含概率是87.5%/1.43 = 61.2%,转换公式就是:
概率=返还率/欧式赔率
如何预测比赛结果呢? 足球比赛是一个比进球数的游戏,每个球队都有“进攻强度”和“防守强度”,把主队的“进攻强度”乘以客队的“防守强度”再乘以主场的平均进球数,就是主队的期望进球数。相应的客队的期望进球数就等于主队的“防守强度”乘以客队的“进攻强度”再乘以客场平均进球数。 进攻强度就是该队的历史平均进球数和所有球队历史平均进球数的比率。防守强度也是类似的比率关系。但是世界杯这项赛事一般只有一个主队,在这一点上比比别的联赛简单一点,但是它的难点在于它的历史数据很难得到,都是四年前的数据,已经过时,没有太多的参考意义。而如果用预选赛的数据,由于预选赛的水平参差不齐,数据需要做大量的调整。比如澳大利亚预选赛的场均进球可能可以和巴西一较高下,但是由于它的预选赛对手都是亚洲球队,实力和南美球队不可以同日而语。 如果历史数据的方法行不通,还可以通过多参数模型的回归分析得到。 有了两只球队的期望进球数之后,可以通过泊松分布得到每一个比分的概率。
泊松分布是什么?
泊松分布由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson,1781-1840)在1838年时发表。 那啥是个柏松分布?简单来说就是假设我们知道某一个事件的平均发生次数,并且假设事件与事件之间发生是相互独立的,那么我们就可以计算出这些不确定事件的发生概率分布。 泊松分布被运用到很多小概率事件上,比如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数等。同理,在足球场上的进球从某种程度上来说就是小概率事件,所以我们可以把定义中提到的事件换成进球。 怎么计算呢,我也懒得去研究,因为通过EXCEL里的公式=POISSON.DIST(x,mean,cumulative),可以很方便的得到,比如主队期望进球数是1.8,那么它进两球的概率是=POISSON.DIST(2,1.8,FALSE),约等于27%。如果客队期望进球是0.5,它进一球的概率是=POISSON.DIST(1,0.5,FALSE) ,约等于30%,所以比分是2:1的概率就是8.1% = 27%乘以30%
我们的思路是什么呢? 由于我们既没32支球队的历史进球数据,又没功夫去收集现在球员状态、身体、阵型、战术等信息。属于一穷二白三懒的状态,但是又好奇,想要高大上地预测比赛结果,怎么办呢?我们思路是从各大博彩网站,收集一些比分的赔率信息,然后转换为该比分的概率,从比分的概率倒推每支球队的期望进球数,有了期望进球数,根据泊松分布就知道了所有比分的概率,然后通过时下最流行的蒙特卡罗模拟,就可以得到平均的比赛结果和出线概率。
说干就干,来点干货。 以世界杯A组为例,来测试一下刚才的模拟方式是否可行。
总共六场比赛,从bwin、williamhill等网站拿到各场比赛的赔率信息,倒算概率,然后不断试错找到各场比赛的期望进球数,求得各个比分的概率及累积概率。
接着使用蒙特卡洛模拟,打算模拟10000次,所以准备了10000乘以6组随机数,为了直观地展示,把他们都列了出来:
把每个随机数对照前面求得的累积分布概率,找出相应的的比赛比分,当然是有10000行数据的。
每一行都代表一次模拟结果,可以按照国际足联的规则计算小组积分、净胜球、进球数等。
可惜的是无法模拟红黄牌的情况,所以实际计算出线结果的时候,是取消了第7条规则,如果出现同分同净胜球同进球,且胜负相互循环的情况,就直接通过抽签决定名次了
最后统计小组出线的次数,比如埃及小组首名出线概率约为11.58%,小组二名出现概率25.68%,总的出现概率是37%,这与博彩公司给出的赔率2.55 (概率36.9%=0.94/2.55)是一致的。 当然还可以发现其他一些有意思的数据,比如俄罗斯的场均小组赛进球是1.39,沙特0.65,埃及1.04,乌拉圭1.84。俄罗斯赔率计算的出现概率要高于模拟的结果,意味着有很多玩家投注了俄罗斯出线,所以博彩公司调低了相应的赔率。
最后思考。 处理这些数据的过程,花最多时间的部分居然是查找数据输入赔率,如果能写一个网络爬虫程序,从这些网站自动抓取赔率数据,可以实时得到数据的话,就能够比较各个博彩公司的概率差异,甚至有可能发现套利的价值。当然由于返还率的存在,实际上套利可能性是很低的。
评分完成:已经给本帖加上 30 银元!
|