皇家马德里吧 关注:4,351,614贴子:75,106,968

谁的作用大?渣团西甲联赛数据分析第二季!已加入权重建模-申精

只看楼主收藏回复

赛季要过完了,只凭借印象,大伙都在说达尼洛是坑,贝尔效率高,巴斯克斯超级替补,哈梅斯虐菜防守软,还原后的数据究竟如何,各个球员参与球赛后对比赛结果的总体趋势影响是什么?我们来看看应用本赛季西甲数据做的统计分析吧
前言:自己是学理工的,突然想用纯理性的思维去分析下球员对球队的影响。所以收集了渣团本赛季至今所有联赛的进球及球员出场做模糊性的分析,类似于阿尔法狗的判断,是基于统计概率的,各位有兴趣可以继续看。另外,只有深爱皇马的球迷才会费劲来建模、搜集数据、计算、分析,请各位尊重我对皇马的热爱,有问题可以随意提出,我会随时根据大家的建议对某个球员或者数据进行计算,甚至更科学的引入建模的数据。不过最好不要撕逼和乱喷,这个帖子是个理论贴,不是引战贴。上一版我做了不带强弱队权重的数据分析,第一季的链接在这里,各位可以看看http://tieba.baidu.com/p/4536973245?pid=89342609657&cid=0#89342609657。第二季分析已经引入了加权建模,更加科学合理了
第一步:建模
我的思路是,抛弃杂质数据,直扑比赛结果。抢断、角球、跑动距离、控球率、射门次数等等等等,都是过程数据,过程数据维度众多,然而所有的过程数据,都是为比赛结果服务的,最终导向了比赛的进球以及失球。所以,我只用进球和失球来衡量某个阵容、队员对球队的贡献。无论球队的进球是谁进的,谁助攻的,无论失球是哪个后卫或者中场的锅,只看当时场上奔跑的10个人都有谁(卡西利亚出场较少且发挥也可以未纳入差异统计)。通过统计15-16西甲赛季至5月8日打巴伦西亚的比赛,精确计算每一个队员的上场时间,以及该队员在场时期新增的进球及失球。每一场比赛基本都被切成了4个阶段,首发阶段、第一替补上场、第二替补上场、第三替补上场四个阶段分别统计时间、阵容以及得失球。

第二步:加权
每场比赛对阵的队伍不同,对阵马竞的进球难度和对阵莱万特的肯定有所差异,而两套防线同样时长内各被巴萨和赫塔菲打入1个球的话,就认为被赫塔菲打入一球的防线相对更菜一些。有了这个思路,那么就要制定计算方法了。我的方法是统计本赛季西甲所有队伍的得/失球,再和联赛平均值相比计算进球权重和失球权重。例如隔壁赛季至今进球109,失球29,而西甲联赛平均进失球为50.55,那么我们可以看出来,隔壁攻击力强于西甲平均水平,防守能力高于西甲平均水平。对隔壁进球后加权的系数是50.55/29=1.74,也就是说进隔壁的球比进西甲平均水平难,进一个相当于进西甲平均水平球队1.74个;对隔壁失球后计算的加权系数是50.55/109=0.46。失球防守难度系数比较难理解,例如对隔壁失球后计算的加权系数是0.46,也就是说虽然有一个防守阵容对巴萨丢了1个球,但实际他的防守能力是对西甲平均球队丢0.46个球。由于欧冠球队不在西甲体系中,所以本次为了加权,舍弃了欧冠的数据,本次只统计西甲联赛。

第三步:计算统计
将建模后每名球员参与的所有比赛的在场时产生的比分加权后做西格玛累加,统计出每一名球员本赛季至今的上场时间,以及在场上时期球队的加权后进球及失球,再除以总时间*90分钟,计算场均加权数据。得出以下数据
1、出场时间:可以看出总裁真心是劳模,第二劳模克罗斯,伊斯科本赛季西甲联赛时间甚至比贝尔还长

2、场均进球数据:代表了各位队员在场上时候加权后的进球数,衡量每一名球员对进攻端的贡献。不用质疑C罗处在队内中游。因为C罗参与了基本全部西甲比赛,所以肯定会处在统计学的中游水平,将来对球员单体分析才会有明显差异。这个以后再说。需要注意的是有进攻属性的球员,巴斯克斯、卡瓦哈尔、本泽马数据都高于队内平均水平,说明有这几个队员参赛时,皇马的进攻打的会比较好。

3.场均失球数据
这个数据衡量了球员对防守端的贡献。失球从低向高依次排名,可以看到有大傻、巴斯克斯、伊斯科、魔笛的时候,场均失球加权后较少。这也与一般我们的概念一致,这几个队员都属于拼抢积极的队员。需要特别指出的后4名上场时间超过1000分钟的球员(小沙皇样本过小不予统计),场均失球均大于1,包括哈梅斯、佩佩、达尼洛、克罗斯,除去大师,基本与人们印象一样。对于哈梅斯,印象中防守就比较弱,这次加权后的统计印证了这一点,他的各项指标均处于队内下游位置。

至于佩大师的防守数据,可能有人会质疑这种统计的科学性。虽然我很认可佩大师的防守,然而确实数据如此,各位可以看一下佩佩失球的场次,上场时间都不多,从来没有打满90分钟就有失球。所以影响了数据,而且达尼洛在旁边和佩佩同时在场很多,怀疑达尼洛和佩佩会很坑。后续我将计算后防天团各种组合。

4、场均净胜球
这个数据代表了球队胜利的可能性。可以发现,大傻、巴斯克斯、卡塞米罗、本泽马、贝尔名列前茅,有他们就有净胜球的保障,而哈梅斯的数据在出场1000+时长的队员中垫底。

5、虐菜指数
这个数据比较有意思了。因为我上一季没有做强弱队的权重,计算了一次不加权的场均进球、失球。这次加权后发现数据排名确实变化较大。很多球员在的场次进球虽然多,然而进的都是防守弱的队,对阵强队无良好表现。如何体现这个感觉?我引入了虐菜指数。虐菜指数=未加权的场均进球/加权后的场均进球,同时做了一个排名。可以看到皇马全队基本都大于1,所以渣团确实是打防守弱的队进球比率更高,这也是正常的,估计隔壁也一样。看看C罗的指数处在队内中下游就知道了,C罗并没有虐菜,贝尔相对来讲打弱队进球比率更高。此外,上场时长超过1000分钟队员,虐菜指数最高的,还是哈梅斯。这就说明相对其他人来讲,哈梅斯在打弱队时更适宜上场,全队数据会更好,大概因为防守强度低的原因吧。

基本的统计信息到此结束。后续将上每一个球员上场和不上场,全队的数据对比。比这种平面化的统计更具备说服力,敬请关注!


IP属地:河北1楼2016-05-10 20:58回复


    IP属地:广东来自iPhone客户端2楼2016-05-10 21:02
    收起回复


      IP属地:天津来自Android客户端4楼2016-05-10 21:06
      收起回复
        @不想填用户名ok


        IP属地:河北来自iPhone客户端5楼2016-05-10 21:08
        回复
          技术贴要支持


          IP属地:四川6楼2016-05-10 21:10
          回复


            IP属地:广东来自iPhone客户端7楼2016-05-10 21:15
            回复
              骤然响起


              10楼2016-05-10 21:17
              回复


                IP属地:贵州来自Android客户端11楼2016-05-10 21:18
                回复
                  数学建模啊


                  IP属地:山东来自Android客户端12楼2016-05-10 21:26
                  回复
                    现在水个贴都要会算计


                    来自iPhone客户端13楼2016-05-10 21:30
                    收起回复
                      数据可能是一种评判标准。但你看了球了就知道谁踢的好,谁踢的不好


                      IP属地:江苏来自iPhone客户端14楼2016-05-10 21:33
                      收起回复
                        看不懂,加权什么意思


                        IP属地:江苏来自Android客户端16楼2016-05-10 21:52
                        收起回复
                          我觉得应该剔除净胜5球及以上的比赛,从理论上说,净胜5球以上往往都有偶然因素存在,而且对统计结果影响比较大。我印象最深的是皇马的一场比赛,没记错是卡塞米罗在齐达内手下的第一场比赛,克罗斯轮休还是受伤,7比1大胜,但那场比赛皇马踢的不好,佩佩一个头球领先,之后c罗一个任意球,一个超级远射。像这种比赛,对统计结果影响大,但却是偶然因素比较大,我觉得应该考虑剔除。


                          IP属地:陕西18楼2016-05-10 21:58
                          收起回复
                            数据贴!


                            来自Android客户端19楼2016-05-10 22:04
                            回复


                              来自iPhone客户端20楼2016-05-10 22:05
                              回复