欢迎来到图者知识网!

足球大数据启示录:数据统计与数据分析并肩前行

文艺体育 时间:2023-08-30

【www.tuzhexing.com--文艺体育】

足球大数据启示录:数据统计与数据分析并肩前行

当今社会,言必称大数据分析,足球也开始凑这个热闹,不过足球领域的数据统计工作基础薄弱,还很难称得上是“大数据”,分析工作更是处于萌芽阶段,因此,足球运动的数据统计分析势必要走一条统计与分析相结合的新型发展道路,才可以避免类似棒球领域曲折而动人的“点球成金”。

足球大数据启示录:数据统计与数据分析并肩前行

技术统计数据到底对于体育运动有什么作用呢?这真的是一个见仁见智的问题。比如在棒球运动中,就有一种观点认为如果没有五花八门的个人技术统计(box score)的话,棒球的分析会变得更加科学有效。持有这种观点的人们认为目前的统计数据不见得就是反映棒球比赛进程的重要数据,而仅仅是那些方便进行统计的数据。

这并不是说要不要进行去利用数据来解读比赛,而是说到底是利用旧有的个人技术统计信息,还是新的统计指标来指导棒球运动。原有的个人技术统计已经存在了足够长的时间,以至于那些伪球迷也能看明白是啥意思,因此要让人们都转到新的统计指标下面来还是有一定操作难度的。

而对于像足球这种流畅性特别高的运动项目来说,让工作人员人工在球场旁边统计各个数据有点超现实。因此,足球领域的数据统计仅仅在近十年来逐步开展起来,目前类似于Opta和Prozone 这种从事足球数据统计的新型公司已经开始系统化的进行比赛收据搜集,并通过把这些数据转卖给一些俱乐部和媒体获得收益。目前很多类似天空体育、ESPN 等媒体都通过分析Opta的统计数据来进行战术复盘等。

足球大数据启示录:数据统计与数据分析并肩前行

而很多足球界崇尚数据的人士可能会认为应该像目前那些类似棒球、篮球等数据统计分析异常发达的运动看齐,将这些数据统计直接进化成类似“点球成金”中的那些合成指标。这可能有点操之过急了,要始终铭记,足球的数据统计公司现在做的事情,一百年前就已经在棒球运动中完成了。

现在足球仅仅处于有了原始数据收集机制的阶段,接下来要考虑的就是如何使用已有的数据对比赛进行分析。而足球与棒球等一开始就与数据相伴而生的运动相比有其相对独特的情境,那就是数据的统计工作与分析工作是在近些年来同时起步的,不存在历史遗留问题。

左手统计

为了对足球的数据统计工作发展方向有所启示,让我们先来讨论一下文章最初的那个问题:如果没有类似box score 这种个人技术统计数据的话,棒球分析是否会更科学合理呢。

足球大数据启示录:数据统计与数据分析并肩前行

目前足球圈内已经有一批类似Squawka、WhoScored和StatsZone等(以上网站的数据均来自Opta)试图将比赛的统计数据信息更好的呈现给球迷的网站。除此之外,这些网站还会针对比赛给出球队和个人的统计数据。这是不是看起来像是足球版的box score?借助于热点图和传球路线图等图形化的方式可以让你对比赛的大概进程和各个球员在比赛中的表现有一个大概的印象。

然而这些内容没有进入更深一层的所谓分析比赛的阶段。打个比方说特里的场均抢断数很高对球队有多重要呢?也就是说,这些仅仅是最原始的统计数据,没有被进行有针对性的解读,从而导致的结果就是,我们虽然有了数据,但是不能确定哪些数据是最重要的。

这下你应该明白在棒球领域刚引入数据分析理念时候的情景了,他们的出发点就是如果你不清楚这些技术统计的真正用处,那么就没必要使用那些毫无意义的数据了。采用数据来评判球员或球队的表现,而不去进行证明,这无疑是一个危险的境况。但是,这并不是说我们就不能利用这些数据。

足球大数据启示录:数据统计与数据分析并肩前行

反对使用box score(个人技术统计数据)也预示着反对使用这些数据做描述性的应用。试想一下,如何不用技术统计数据来说一下纽约洋基队到底有多棒。也就是说,尽管box score中的一些数据已经不能再用来分析和预测球员和球队的表现,但是仍然是很好的描述球队表现的工具。

大概在十年前,估计没人知道哈维的场均传球数和成功率等数据,但是如果没有这些数据作为铺垫,那么我们很难清晰地感受到哈维究竟有多牛,或者说他的状态是否下降了。

即便是就算在球场边人工统计得到的数据,也会让球迷们明白球场上到底发生了什么。没有这些原始的数据,很难想象下一步的分析工作如何展开。而这种基本的数据统计工作几乎存在于每一项美国体育运动中,而在美国几乎不上台面的足球则才刚刚开始。

右手分析

足球行家们当然不希望仅仅使用这些原始的统计数据来装装门面,他们更想从里面能够找到更多有用的信息来指导球队赢得比赛。这方面的足球分析虽然才刚刚起步,不过也有了一些可喜的成果出来。

足球大数据启示录:数据统计与数据分析并肩前行

被James Grayson 从冰球分析领域引入到足球世界的TSR(Total Shots Ratio,总射门率)算是足球高阶统计指标的先声了,这个统计指标的核心想法非常简单,就是假定较强一方总是能够比对手有更多的射门。

该统计指标的厉害之处是因为它的自相关性超好,而且跟球队的战绩相关性也很好。也就是说,一支球队以往的TSR 能够很好的预测该队未来的TSR指标;同时也可以很好的预测球队的进球数和比赛结果。

TSR 这个指标具有很好的领先性,这就意味着在每个赛季的开始阶段进行整个赛季的排名结果预测的时候会很好用,但是在涉及到实际进行球队的运作管理时,这个指标就没有什么指导意义了。

足球大数据启示录:数据统计与数据分析并肩前行

而且,由于冰球比赛中可以任意换人,一场比赛会有很多射门机会,这样可以很容易具体到针对某名球员进行比赛统计数据的分析。换做在足球领域,这就行不通了,因为一场比赛射门寥寥无几,而且最多只能换三名球员,因此该指标也无法评价球员的表现。

近来比较大热的一个高阶指标就是所谓的ExG(Expected Goals,期望进球数)了。根据James Grayson 给出的实证分析结果显示,该指标与TSR 在预测球队战绩方面差距不大,而且更加诱人的是ExG 还可以对具体球员的表现进行评估。也就是说,可以基于某名前锋的过往进球数和射门次数来预测他将来的表现。

如此细分射门类型倒是有点像棒球分析中的AVG(平均击打率)从BABIP(安打率)中脱离出来一样。实证分析表明,类似于棒球手们的场内安打率基本保持不变一样,足球运动员的ExG 数据也相当的平稳。

最后,还是要提及的一点是,这些初期的尝试只能说是足球数据分析的星星之火。

合二为一

目前大多数的指标构建和分析都与射门这一统计数据相关,不过这也不是绝对的。有一些ExG 模型中就考虑了威胁球这种统计数据。更宽泛的是,StatsBomb 网站的创始人Ted Knutson 开发了一个名叫球员雷达的分析系统来更全面的刻画球员统计数据,包括校准比赛时间、防守方半场控球率等合成指标。

虽然这些数据的综合效用仍然不得而知,但是很大程度上,最繁重的分析工作还没有涉及到目前我们已经掌握的大量数据集。这有以下几方面的因素。

首先,目前其他行业的数据分析师只投入了少量时间涉足足球数据分析领域,当你真的有精力来进行大规模分析的时候,你会发现数据远远无法满足需求。这就导致了无法复制棒球领域的成功经验。

足球大数据启示录:数据统计与数据分析并肩前行

其次,足球比赛中那些有着决定意义的数据可能还没有被我们捕捉到,而现在的一些技术统计可能仅仅只有描述性的价值,并不能用来进行预测分析。因此,需要识别出哪些数据是上述的“无用数据”。

最后,数据分析的终极目标还是为了科学解读足球场上发生的事情,这需要借助数据统计的力量。而我们从棒球领域得到的最大收获就是,同样的统计数据可能会得到截然不同的结果,必须要小心翼翼。

而鉴于足球领域的数据统计工作刚刚展开,可能大家认为每一种统计数据都很重要,这是不对的。我们不需要像棒球一样绕那么多的弯路,我们需要通过数据统计和数据分析相互配合,来最终找到一条使得两者可以相互促进的发展方式。

本文来源:http://www.tuzhexing.com/peixun/1307537/

推荐内容