欧冠冠军今年花落谁家……为什么PageRank算法适用于足球?

欧冠冠军今年花落谁家……为什么PageRank算法适用于足球?

日期:2023/02/28 07:13作者:佚名人气:

导读:能够打入四强的欧冠球队显然都不好对付,究竟谁能夺冠,冠军大家也都给出了自己的今年猜测:有人觉得上届冠军皇马实力强劲,有望卫冕;有人认为马竞在过去三年两进决赛之后,花落怎么也该打破魔咒获得冠军了;尤文近几年表现出的什Pk算实力也是有目共睹,今年更是法适完胜巴萨;当然还有摩纳哥,虽然看起来似乎比不了以上三家,用于但黑马总是足球令人忌惮的,谁知道会不会爆一个大冷门呢?预测本赛季欧冠...

编辑推荐

结合 Google 著名的欧冠 PageRank 算法,精确预测谁将赢得今年的冠军冠军联赛……

1、为什么PageRank算法适合足球?

截至发稿,今年本赛季欧冠1/4决赛刚刚结束:

别想太多,花落上图只是什Pk算按字母排序

如上图,前四分别是法适皇马、马竞、用于尤文图斯和摩纳哥。

能够打进半决赛的球队,显然是很难对付的。 对于谁将夺冠,大家都给出了自己的猜测:有人认为上届冠军皇马实力强劲,有望卫冕; 进入总决赛后,就是打破魔咒夺冠的时候了; 尤文图斯近年发威,今年更是力压巴萨; 人都怕了,谁知道会不会闹出什么大事来?

菠菜公司:其实我还是比较看好尤文的……

你可能会想,看看这四支球队的联赛成绩,就能知道谁更厉害了。 但它不必那么简单。 欧洲冠军联赛通常被认为代表了最高水平的足球比赛。 参赛球队都是欧洲各大联赛的前几名。 强强对话,恐怕不能简单地以联赛成绩来判断谁会占上风。 键盘侠界一直有一个概念(也许是迷信):联赛靠虐(对弱队尽量拿分,毕竟大家都是3分),欧冠靠虐关于死亡辅助(面对强队,即使不一定占据绝对优势,也不容易被打败)。 而且,由于打法、喜好甚至专注力的不同,每支球队擅长应对不同的对手。 因此,有的球队被誉为盗富济贫的能手,有的球队则遭到嘲笑。 是窝...

我本来是拒绝这种说法的,直到2013-14赛季的结果颠覆了我的观念。 13/14赛季的欧冠冠军是皇家马德里。 他们击败了许多强大的对手,进入了决赛。 ,皇马的表现实在是不太好,最终只排在第三位,而西甲冠军是——马竞。

这可能是一个比较典型的例子。 马竞赢得了一个赛季的长跑,却在最后时刻倒在了皇马脚下。 我一定很难过。 那么,马竞真的是传说中的虐国高手,皇马就擅长克强敌吗?

于是我想到了大名鼎鼎的网页排名算法——PageRank,Google用来识别网页重要性的一种方法。 例如,我搜索关键字“La Liga”。 当然,世界上有成千上万个带有这两个词的网页。 Google 应该首先向我推荐哪一个? PageRank算法的思路是,假设我们要评估网页A的重要性,那么我们需要看有多少网页(n)引用了网页A; 一般来说,n越大,这n个网页的重要性越高,则A越重要,也就是说网页A的重要性是由所有引用它的网页的重要性共同决定的。 由于网页数量较多,经过几次迭代链接我们可以得到一组收敛分数,即所有网页的PageRank值。

这个原则似乎适用于足球比赛。 我们可以认为,一支球队的实力是由所有输给它的球队的实力来决定的。 被别的队伍输给它一次,就等于给它加了血。 通过递归算法得到球队的实力(PageRank),即所有输给它的球队的重要性。

简单地说,团队:

1.不仅是赢的越多,越厉害——这是各大联赛的评分标准

2.而且你赢的队伍越多你就越好——这就是综合实力

上个赛季欧冠冠亚军是谁,这就是团队的PageRank算法的理论基础。

2.以13/14赛季为实验对象

既然刚刚提到了西甲13/14赛季的怪现象,我们不妨用这个赛季来计算PageRank。 由于条件有限,我用R实现了这套流程。 事实上,底层语言可能更方便。

由于数据时代(或博彩业),如今查找游戏信息要容易得多。 如果您对斯洛文尼亚的一些三级联赛不感兴趣,您应该可以在网上找到它。 我的数据源是它可以提供过去19年22个欧洲联赛的成绩,包括半场成绩、全场成绩、角球、点球等(你应该知道它服务于哪个行业)。

部分代码,难度不大

简单说一下思路:

1. 处理源数据。

从那个网站得到的比赛数据很复杂,我只保留了球队的名字和双方的进球数。 同时,我认为一个赛季的表现并不具有说服力:欧冠从实力提升到突破,往往需要几个赛季的时间,很多球队都在其中一个环节倒下。 因此,我选择了2010/11到2013/14四个赛季的数据。 理想情况下,在这四个赛季中上个赛季欧冠冠亚军是谁,皇马和马竞都有一位执教三年的主教练,能够保证球队发展的连续性。 关于主客场,我选择忽略可能存在的差异。

数据经过简单处理后变成“A队-B队-A队进球数-B队进球数”的格式,每场比赛记录一次。

2. 将数据转化为有向图。

在网页的PageRank算法中,如果网页A引用了网页B,则可以认为存在A->B的关系; 更形象地说,“A将其重要性的一部分贡献给B”。 我觉得从图片的角度来思考PageRank是非常简单有效的。 也就是说如果A队输给B队,可以认为存在A->B的关系,A给B加血。

这样,我们就可以画出一个有向图:

对不起丑

3.计算PageRank

西甲每个赛季有20支球队参赛,但前后四个赛季,共有26支球队参加过比赛。 计算出的 PageRank 值如下:

我很困惑为什么我的R没有严格按照降序排列……但很明显,巴萨和皇马是4年时间里西甲的两大豪门,而马竞还差得很远。 其实那几个赛季,马竞确实处于上升期,但估计还没有晋级成为老油条,所以在关键的决赛中,负于皇马也很正常。

这本来是一张互动图,可惜无法显示。请关注左下角的西超双雄

我不想让它变得太复杂,但它可能会导致某些部分失去应有的复杂性。 但是,足球比赛中有很多东西是无法量化的。 在这里我只是提出一种可能的思路,希望对大家有所帮助。

另外,在我漫长的计算过程中,我发现单季的PageRank排名与实际排名相差很小。 经过几个赛季的试验,冠军的位置没有改变。 ——所以,联盟不能光靠虐。

3.预测本赛季欧冠

如上所述,今年的欧冠四强分别是皇马、马竞、尤文和摩纳哥。 不过,坦白说,摩纳哥真的很尴尬。 要知道去年并没有进入欧冠小组赛……同样,part 2中的大量联赛数据也不能在尤文图斯身上重复。

我考虑过要不要把欧洲五大联赛的数据混在一起,但是要知道每个联赛的中下游球队根本没有机会碰面,只有联赛的上游才可能一年碰面两次,这样的巨大的数据差异很难得出客观的结果。 事情发展到这一步,我的想法是利用近四年欧冠联赛(2013/14-2016/17季淘汰赛)的数据,尽可能保证参赛节点的稳定性。

偷懒,我觉得可以试试皇马、马竞和尤文图斯的直战数据。 虽然绝对数量少得可怜,但他们三个人四个赛季一共出场10次(不算今年没来得及见面),这个数字在欧洲球队中是非常可观的。 结果如下:

注:以90分钟结果为准

嗯……三支球队差距不大,但是皇马确实稍微好一些。 不过,这似乎有些敷衍了事,那我们就用2013-14赛季开始至今的欧冠全数据来试试吧。 过程我就不细说了,结果如下(还是排序不对,郁闷):

黑马摩纳哥在这个算法上当然处于劣势,更不用说了。 直接给出答案:皇马>马竞>尤文图斯。

我认为单独尝试淘汰赛的结果也是一个好主意。 参赛队伍减少至29支:

(如图,选中皇马时,会高亮显示为他贡献过经验的球队)

看看最大的圈子,皇马、拜仁、马竞、巴萨、尤文图斯……西甲这几年确实不错。 具体的PageRank得分如下:

我们关注的三支球队的顺序依然是皇马>马竞>尤文图斯。 如此看来,皇马这支淘汰赛的小能手,夺冠希望还是很大的。

然而,与任何算法一样,该算法也有缺陷。 比如……咳咳,请抬头看看德甲另外两支球队。 沃尔夫斯堡的分数比多特蒙德还要高,但谁会认为前者比后者更有竞争力呢? 回过头来看,其实是因为球队这几年只参加过一次欧冠淘汰赛,而且还阴差阳错击败过一次皇马……所以比分一下子上升了。

因此,请以娱乐为主,理解算法精神为辅。 毕竟,如果算法可以给出比赛结果,那为什么还要踢足球呢? 足球的魅力在于它的不确定性。

其实PageRank和足球(口)(口)(水)(水)和(对话)(话题)之间有太多的潜在(挑战)太多了,比如:梅西和C罗,谁是小王子谁虐菜,谁是硬仗宗师? 英超真的如他们所说的那样,联赛内部的竞争过于激烈,导致欧战无力? 为什么阿森纳在欧冠积分榜上能挤进前十,在淘汰赛中却连塞维利亚都比不上? ……感觉马上就要收到The Sun的offer了,先办签证吧。

尖端:

在研究过程中,对我帮助最大的R包是:igraph、dplyr和visNetwork。 最后一个简直就是画交互图的神器。

关于我们

我们是毕马威的专业数据挖掘团队。 在微信公众号(kpmgbigdata),每周六晚8点准时推送一篇原创文章。 文章由具有丰富项目经验的博士、资深顾问精心编写,内容也是理论应用、经验结合实际业务等干货。 欢迎大家关注我们的微信公众号,关注原创数据挖掘精品文章。 如果您想联系我们,您也可以直接在公众号发送您想说的话与我们交流。

休闲
上一篇:可升可降!中国足协印发职业联赛裁判人员升降级实施细则
下一篇:占全省超2成!国家科学技术奖揭晓,天河迎来“大丰收”