无障碍说明

这个模型抓取36年数据准确率超70% 预测韦少MVP

韦少or哈登,MVP之争一直是这个赛季最热门的话题。漫长的等待即将结束,在明天颁奖典礼揭晓终极悬念之前,腾讯前方媒体人傅予用大数据和机器学习(Machine Learning, ML),建立了一个模型,用过去36年数据来预测今年的MVP。

这个模型抓取36年数据准确率超70% 预测韦少获MVP

哈登vs韦少,谁是MVP?

36年的MVP投票数据,并不只是枯燥的数字,它的背后刻着联盟的历史,写着无数个故事,如果你想知道这些故事是什么,想知道MVP投票究竟看重什么,想了解用来预测的模型和测试结果,请跟腾讯体育一起一探究竟。

MVP投票史:联盟权力的变迁

如果说总冠军是联盟最高的团队荣誉,那么MVP则是联盟最高的个人荣誉。

MVP的得主往往是那个年代里联盟最有统治力的球员,至少也是联盟的招牌球员之一,不像总决赛MVP那么变化多端。

如果我们再进一步,不仅仅关注MVP得主这个奖项,而是细看每年的MVP投票率,我们能获得更多的信息,能帮助我们更了解一个时代,看清NBA整个联盟的变迁。

最直观的便是下面这幅图,近36年各位置球员MVP得票所占比例。

这个模型抓取36年数据准确率超70% 预测韦少MVP

各位置球员MVP得票所占比例(控卫:蓝色、分卫:成色、小前锋:红色、大前锋:浅蓝色、中锋:绿色)

比较有代表性的是1993-94赛季乔丹第一次退役,得分后卫在MVP总票数所在百分比,从92年的接近百分之六十,跌倒94年几乎为零,虽然那从80年代后期到93年得分后卫(图中橙色)这个位置上的球员所占比例很大,但是几乎是靠乔丹一己之力撑起来的,当然德雷克斯勒也做出了一定贡献,但那个年代,不是得分后卫的年代,是中锋的年代。

我们都知道90年代的四大中锋:大梦,鲨鱼,尤因和罗宾逊。如果不是乔丹——他们本该是那个年代联盟的代表,看看中锋这个位置在MVP投票所占比率吧,在乔丹退役的两年中,四大中锋连续两年占据了MVP前五的四个座席,因为他们的贡献,中锋这个位置在94,95两年的投票分别占82%和69%。

从图中(绿色)我们可以看出,打那个“中锋荣光”的时代过后,中锋的地位不断下滑,21世界初奥尼尔只身扛起了大旗,再到后来霍华德苟延馋喘,再到最近两年MVP投票鸭蛋,中锋的统治力一去不回。

这个模型抓取36年数据准确率超70% 预测韦少获MVP

库里蝉联MVP

尽管詹姆斯6年内拿过4次MVP,一度撑起小前锋时代,但你必须承认现在是小球的时代。2015年库里险胜哈登拿下了自己第一个MVP(后文),当时的争议一直延续到了这个赛季,接着他打出了最没有争议的一个赛季,带领勇士拿到历史第一的73胜,成为第一个全票当选的MVP。

他成为了历史上最好的射手,他是三分线外的奥尼尔,他的技巧和科尔的体系相互交融,把篮球这项运动带到了另一个方向,虽然他不是,也不会是攻防两端最有统治力的球员,但他向全世界证明,哪怕身体天赋平平,也可以称为联盟最有影响力的球员。

MVP投票:专家投票看什么?

关于今年MVP评选,我听到最多的一句话,就是为什么哈登前年要和库里比战绩,今年战绩占优却要跟韦少比数据呢?如果哈登没有当选MVP,联盟是不是双重标准呢?

MVP的评选到底有没有标准?到底是不是多重标准?有标准的话到底看重什么呢?是战绩还是数据?是看得分还是看助攻?是进攻还是防守?是看普通数据还是看高阶数据?

MVP的投票方式从1980-1981赛季开始,由之前的球员投票更改为媒体投票,NBA官方会给有影响力的媒体寄出选票,分1—5档,分别记10、7、5、3、1票,每票选择五名球员,最终统计总票数。

即使专业的篮球从业人员,也很难把所有球队的比赛照顾到,所以他们和普通球迷一样,在观察球员比赛的同时,需要技术统计来帮助他们分析球员表现。

从而他们的投票行为就会变得有迹可循,我们同样可以根据历史的投票结果和数据统计来分析专家们都注重些什么。

因为在1980年以前有很多数据没有统计,无法拿来比较分析,再往前NBA的规则都和现在大不相同(比如没有三分线),再加上媒体投票是从1980年开始实行的,媒体和球员投票在行为上存在偏差,所以我放弃了1980年之前的数据。

我用一个数据爬虫收集到了我需要的技术统计,从1980-81赛季到2015-16赛季整整35年的历史数据,包括基本的球员信息、位置、得分助攻篮板等,加上球队战绩以及各类高阶数据,将所有数据以单位年份为组放在一个统计表里。

那么专家是看数据,还是看战绩呢?!

别急,我们不能这么一刀切,选择也没有这么简单。

这个模型抓取36年数据准确率超70% 预测韦少获MVP

这里举例:场均得分与MVP得票数的关系,比较零散

如果单独把得票关系和单项数据平铺开来,从图中我们可以看出,线性关系并不明显,得分/效率值/胜率的确跟得票率有正相关关系,但是数据非常零散,一是由于得票率是由多个因素共同决定,二是得票过低(低于1%)会产生干扰,三是得票率同样和同年竞争对手有相关关系,同样的数据和巅峰乔丹竞争拿到的票数和同纳什竞争肯定大不相同。

为了消除第三点的干扰,我对原始数据按赛季进行了标准化,并进行了排名。我们单独把MVP的数据拿出来分析:

这个模型抓取36年数据准确率超70% 预测韦少获MVP

战绩对MVP的影响

这个模型抓取36年数据准确率超70% 预测韦少获MVP

得分对MVP的影响

这个模型抓取36年数据准确率超70% 预测韦少获MVP

助攻对MVP的影响

这个模型抓取36年数据准确率超70% 预测韦少获MVP

球员效率值对MVP的影响

经过统计之后,36个赛季中,有20个MVP其球队战绩是排在当赛季联盟第一的,8个排在第二,有10个人是得分王,只有3人是助攻王,有18人球员效率值排在当季联盟第一。我们可以看出这四组数据中影响最大的是球队战绩,其次是球员效率值,得分,最后是助攻。那助攻是不是就不重要了呢?

当然不是,如果两名球员其他数据打得难解难分,助攻可能就站出来起了决定性因素。

这样是不是更直观了?如果更近一步的话,我们可以把各项数据和MVP投票的分布情况做成表格,类似:

这个模型抓取36年数据准确率超70% 预测韦少获MVP

效率值排名和MVP得票的分布表

这样我们可以得到分布概率的情况,比如通过上面的分析,可以得出47.37%当赛季的PER值冠军拿到了最后的MVP。

每一项数据统计都能和MVP的投票情况做一个这样的分布频率表,这些数据可以包括球员的出场次数,出场时间,场均得分/助攻/篮板,命中率,以及诸如球员效率值(PER),胜利贡献值(Win Share)等等分析人员用来衡量球员用的高阶数据。这些数据间有些互相联系,有些毫无瓜葛,有些影响大,有些影响小,有些影响是线性,有些影响则非线性,有些显而易见,有些藏得很深。

这么复杂的话,我们要怎么才能用这些数据来预测球员的MVP排名呢?

机器学习:让数据自己来选择

机器学习听起来简单说,就是选一组数据给计算机,让它去自动分析获得规律,然后利用规律去对未知的数据进行预测。

针对MVP预测这个问题,就是我对这几十年球员的数据进行筛选,然后告诉他们这些球员最终都拿到了多少投票,让计算机去算这些球员的数据和MVP投票有什么关系。

经过一系列筛选比较之后,我选择了“随机森林”来做我机器学习的算法。

要说随机森林,就不得不说决策树,在这我也不会展开讲算法,用相关内容讲个故事,大概描述下这个机器学习算法的思想。

你是一棵树,姓决名策,叫决策树。你是一个NBA球迷,你想要判断这个赛季MVP是谁,你拿着数据统计表开始研究。

首先你看了看场均得分,这人场均有没有五十分?

“有”。

“好了就他了”

没有的话你继续看,有没有三十分啊,有的话我再看看助攻数,助攻不错的话,我再看看这人的命中率。

“什么,没有三十分,助攻才5个,命中率还只有38%,想当MVP?”

“你做梦!”

通过层层决策,决策树你选择了球员A。

结果球员B拿了MVP,你想,凭啥他拿MVP,噢,他球队赢了八十场。

下次你就记得了赢八十场的全队都是MVP。

三十年下来,你有时候选择了错误的人,有时候错过正确的人,最终你选择了正确的人——就跟你找女朋友一样。

你叫树,你家叫森林,你一千个表兄弟姐妹们都叫树,他们有些喜欢篮球,有些对篮球完全没兴趣,这天你把他们叫过来,把前36年的数据给他们,让他们去选。

他们就瞎选啊,有些看球员长得帅,有些看球员发型炫,有些看着胜率选,有些拿着得分选。但他们记得自己是怎么选的。

然后你告诉他们这36年都谁谁谁拿了MVP,排名多少,拿了多少票。

他们按照自己的选择方式,根据离谱程度不断地调整,然后到选下一个MVP这天了,你把他们叫过来,把候选人的数据给他们,然后让他们投票来决定结果。

这就是随机森林算法通俗的思想,我把从80-81赛季到15-16赛季36年的数据拿出,每次用其他35年训练,得到了这36年预测的结果:

这个模型抓取36年数据准确率超70% 预测韦少获MVP

随机森林算法预测的MVP结果与实际结果对比

这个模型预测准了过去36次MVP评选中的26次,MVP得主预测准确率达到了72%,已经高出权威篮球数据网站NBA Reference给出预测模型的67%,其中预测与显示不符的除了1982年之外偏差都不大,基本都在实际排名都在2、3名左右,可以说表现非常出色。

基于这个模型,我们对今年热门球员的数据进行分析,得出的MVP榜前三名依次是韦少、哈登和莱昂纳,这三人正好就是最终的三名候选人。

这个模型抓取36年数据准确率超70% 预测韦少获MVP

大数据预测韦少获得今年MVP

哈登虽然打出了MVP级别的一个赛季,但是韦少打出的是历史级别的表现,场均三双,拿到历史最多的单赛季三双次数,不仅如此,他在高阶数据上更是大杀特杀——他30.64的PER值排在联盟历史的第16位,而哈登的27.32仅仅排在历史的81位;韦少在BPM和VORP(NBA Reference用来衡量球员综合表现的数值)都排在了联盟历史第一,哈登在高阶数据唯一胜过韦少的,是跟胜场挂钩的胜利贡献值, 但他这项数据,紧紧排名历史114,还不如他两年前

要说47胜的韦少如果拿了MVP,是不是联盟历史上战绩最差的?不是,摩西·马龙当年以46胜的战绩从巅峰大鸟手中抢到了MVP,他的个人数据,还不如韦少恐怖。

所以,如果哈登被韦少抢走MVP,他并不冤枉。

争议?历史上比比皆是

今年MVP竞争虽然异常火爆,但纵观NBA历史,哈登和韦少之争远算不上最激烈的。不管是美国福克斯体育,还是Bleacher Report,都曾撰文分析NBA MVP投票史上的冤案,“巧合”的是,他们给出的年份,恰恰和这个预测模型偏差的年份出奇吻合

我们一一来看:

2011年:预测MVP勒布朗·詹姆斯,实际排名3,评分0.738; 实际MVP:德里克·罗斯,预测排名2,评分0.45

双方数据: 勒布朗在热火的第一年,场均拿下26.7分,7个助攻,7.5个篮板,PER值27.3排在当年联盟第一,帮助热火拿到58胜。罗斯25分,7.7个助攻,PER值仅仅23.5,把公牛带到联盟第一的62胜。两人各项数字都非常接近,战绩上罗斯稍占上风,个人数据上勒布朗更加优秀,最终得票率低到第三一部分原因是他的“决定”给自己带来了一定负面影响。

2006年:预测MVP 科比·布莱恩特,实际排名4,MVP评分0.727;实际MVP:纳什,预测排名6,评分0.277。

那年科比场均拿到35.4分拿到得分王,贡献了无数次得分表演(包括81分),不仅如此,他还在统治了防守端,那年他不仅仅是一阵,还同时获得了最佳防守一阵的荣誉,PER值高达28,排在联盟第三。而那年的纳什,场均拿到18.8分和10.5次助攻带领球队拿到54胜,排名联盟第4。他的PER值为23.3,排在联盟第16。这年预测MVP得票第二高的是诺维斯基,以0.652的评分排在科比之后,那年他场均拿到26.6分,球员效率值和胜利贡献值都排在联盟第一。

2005年:预测MVP 诺维茨基,实际排名3,MVP评分0.592。 实际MVP:纳什,预测排名 2,评分0.526

这是太阳纳什时代的第一年,他把前一年29胜的太阳带到了62胜,用跑轰创造了一个奇迹,但是当年的太阳内有小斯(26+9)马里昂(19+11),外有乔·约翰逊(17分)和昆汀·理查德森(15分),自己的数据除了助攻和命中之外毫不起眼,15.5分在所有MVP中排名倒数第三,倒数第一是69年子弹队的昂赛尔德,倒数第二是65年指环王比尔·拉塞尔,这两人都是当时联盟最好的防守球员,而纳什的防守一直为人诟病,而他的PER和胜利贡献值分别排在联盟19和15。那年诺维斯基帮助小牛拿到了58胜,胜利贡献值为15.6排在联盟第2。而实际上,那年跟纳什角逐最激烈的并不是德克,而是鲨鱼,他以27的PER值排在联盟第二,热火以59胜排在联盟第2。

2001年:预测MVP 奥尼尔,实际排名3,MVP评分0.63。实际MVP:艾弗森,预测排名 2, 评分0.526

巅峰的鲨鱼场均能拿到28.7分,12.7个篮板,外加2.8个盖帽,命中率达到了恐怖的57.2%,PER值也好,胜利贡献值也好,都排在联盟第一,更重要的是,他的出场次数达到了74场,甚至超过了AI的71场,艾弗森的两个高阶数据分别排到了联盟第9和第10,但他凭借一己之力,用183的个子把76人带到了56胜,位居联盟第3,他做到了前所未有的壮举,他给NBA带来的影响力是数据体现不出来的。但从数据出发,巅峰奥尼尔的统治力实在太恐怖,系统给出奥尼尔第一,艾弗森第二的排名,我个人觉得比较合理。

再往前发生的两次误判我上文提到过,就是97年和98年乔丹和马龙。系统预测97年乔丹MVP(0.89),马龙第二(0.811),98年马龙MVP(0.85),乔丹第二(0.66),实际上都反了过来。我们具体来看,97年乔丹场均29.6分,命中率为48.6%,带领公牛69胜。98年他场均28.7分, 命中下降到了46.5%,公牛胜场下降到了62胜。 而马龙在这两年数据并没有多大变化,爵士97年为64胜,98年62胜。这两年两人都非常接近,每人拿走一次MVP,但我更倾向于系统给出的乔丹97年,马龙98年。

在往下三次错判,仍然发生在乔丹身上分别是93年,90年和89年。

93年,乔丹的评分为0.663,实际MVP得主巴克利系统给出的评分是0.446。那年乔丹PER值联盟第一,胜利贡献值联盟第一,场均贡献32.6分荣膺得分王,并拿到抢断王,入选防守一阵,公牛的战绩为57胜25负。巴克利场均拿到25.6分12.2个篮板,PER和胜利贡献值都在联盟第四,帮助太阳拿到62胜。综合来我认可乔丹有比较小的优势。

90年和89年,这两年情况非常类似,乔丹评分分别为0.637,0.629,实际MVP得主魔术师0.604和0.436 。但我们来看看乔丹这个两赛季的数据: 场均33.6分/32.5(联盟第一),6.9/8个篮板,6.3/8个助攻外加2.8/2.9个抢断(联盟第一),PER为历史级别的31.2/31.1,和胜利贡献值一起排在联盟第一,两年都入选防守一阵。魔术师22+11/12.8,虽然这两年战绩有优势,但数据和攻防两端统治力都远逊那两年的乔丹,这两年也被媒体评为最有争议的MVP评选之二。究其原因?魔术师统治了几乎整个80年代,帮助湖人五夺总冠军,哪怕到了80年代末个人能力已经不如乔丹,他还是联盟第一人,而乔丹当时季后赛屡屡折戟,一直在季后赛没有太大作为,所以魔术师能获得比乔丹更多的选票也不足为奇了,这两次被生生夺走的MVP,为前文乔丹和魔术师在梦之队的对话埋下了伏笔。

最后一次,也是误差最大的一次,系统预测的MVP是魔术师约翰逊(0.50),而他实际仅仅排在了第八,MVP实际得主是当时还在火箭的摩西·马龙,系统预测他的排名为第三。魔术师当年仅仅18.6+9.6,我认为系统给出了错误的判断,他当时甚至不是队里最有价值的球员,他的队友贾巴尔。马龙当年打出了及其恐怖的个人数据,他场均拿下31分。贡献14.7个篮板,PER和胜利贡献值都在联盟排第一,唯一影响他的是当时火箭队仅仅拿下46胜36负的战绩,排在联盟第八。

结语:谜底即将揭晓

韦少能不能问鼎MVP,数据模型的结果是否正确,我们颁奖典礼见分晓。

腾讯体育将于明日早上8:30视频直播NBA首届颁奖典礼,欢迎大家观看视频直播(傅予/文)。

点击进入视频直播间

版权声明:本文系腾讯体育独家稿件,未经授权,不得转载,否则将追究法律责任。

这个模型抓取36年数据准确率超70% 预测韦少获MVP

正文已结束,您可以按alt+4进行评论
责任编辑:tmacyuan
收藏本文

相关搜索

热门搜索