NBA体育决策和数据挖掘分析

原文连接  http://tecdat.cn/?p=1370

In the Internet age, data is the most valuable resource, big data to lead the traditional industries, gave birth to new vitality. Almost all industries are embracing large data, the sports industry is also closely related, data capture, storage and analysis of the continuous progress of technology is a positive impact on all aspects of the sports industry.

业务挑战编程

体育运用大数据主要体如今如下三个方面: 预测比赛结果和奖牌归属;更好地训练运动员 。数据和模型驱动体育决策让获胜和成功变得更有可能,体育统计(Sports Analytics)成为体育竞争的“杀手锏”。网络

具体服务机器学习

要在运动中有效地使用分析,咱们要知道如何处理数据、识别数据源、收集数据、组织和准备进行分析、从数据构建模型。学习

 从面向体育组织的咨询工做中,推进“数据科学即服务”。最终,实施咱们的想法和模式。测试

数据源准备大数据

随着网络的发展,数据来源丰富,有文本数据以及数字数据。经过爬虫技术抓取网络并利用应用程序编程接口(API),能够从公共数据源中获取不少信息。lua

构造spa

想要更好地了解在这些场景中大数据是如何进行预测性分析的,咱们须要考虑在预测比赛时所需处理的数据性质。3d

首先肯定关键指标,可用数据包括国别、赛事、成绩、运动员姓名、年龄、过往表现记录、赛场温度、观众出席率、昼夜等。blog

划分训练集和测试集

肯定指标后,把数据分红两个子数据集,即训练数据集和测试数据集。

数据洞察

球员薪酬状况

职业运动队在劳动力市场上相互竞争,而明星球员的劳动力供不该求。薪资上限是保持竞争平衡所必需的,工资也帮助球队限制球员的支出。

美国最专业的运动员有薪资上限。NFL队的2016年薪金上限为5328万美圆,平均工资约为270万美圆。NBA球队在16赛季的薪金上限为7000万美圆,球队的薪金上限以服务年限。例如,拥有十年经验的勒布朗·詹姆斯,最高工资为2300万美圆。安东尼·戴维斯的平均工资为2900万美圆,是NBA球员中最高的 。2016年MLB的年薪最低为505,700美圆。底特律老虎队Miguel Cabrera(MLR)的MLB年薪最高为3100万美圆。

下图显示了2016年8月MLB,NBA和NFL的球员薪酬状况。

【大数据部落】NBA体育决策和数据挖掘分析

【大数据部落】NBA体育决策和数据挖掘分析

【大数据部落】NBA体育决策和数据挖掘分析

【大数据部落】NBA体育决策和数据挖掘分析

NFL球员的平均工资约为170万美圆,中位数为63万美圆。 NBA球员的平均工资约为510万美圆,中位数为280万美圆。 MLB玩家的平均工资约为410万美圆,中位数为110万美圆。同时能够看到明星球员的薪资远高于普通球员,拉高了平均水平。

团队支出和胜率的关系

【大数据部落】NBA体育决策和数据挖掘分析

从2016赛季初的团队支出和在常规赛中胜率的关系图中,咱们能够看到团队支出对是否能赢得比赛有直接影响。

出席观众和日期的关系

【大数据部落】NBA体育决策和数据挖掘分析

从中咱们能够发现日期和出席状况的关系,从而找到用于预测和评估出席率的模型。

球队实力表现

根据15年到16年NBA常规赛的20项指标进行综合分析,咱们对 NBA参赛球队进行排序,评出最具实力的球队。

【大数据部落】NBA体育决策和数据挖掘分析

建模

预测观众出席人数——线性模型

【大数据部落】NBA体育决策和数据挖掘分析

估计获胜几率——蒙特卡罗模拟

当咱们发现胜率符合经验分布的时候,使用蒙特卡罗模拟方法来估计某个队伍的获胜几率。

【大数据部落】NBA体育决策和数据挖掘分析

预测结果

【大数据部落】NBA体育决策和数据挖掘分析

能够看出,预测值的趋势已经基本与真实趋势保持一致。

模拟结果

经过对比赛日双方球队的表现模拟,咱们获得下面的获胜几率热图,从ROC曲线的表现来看,模拟效果理想。

【大数据部落】NBA体育决策和数据挖掘分析

【大数据部落】NBA体育决策和数据挖掘分析

展望

除了以上列举的一些方法, 已经在尝试更复杂的体育统计模型,如深度学习(Long Short-Term Memory网络、卷积神经网络(CNN))等;同时须要考虑到模型的可解释性、可落地性和可扩展性、避免“黑箱”预测;还在尝试采用混合的机器学习模型,好比GLM+SVR,GAM+ NNET等。

用数据驱动体育决策,这种看待体育的独特视角让咱们能更好地察觉趋势、选取角度,同时帮助体育爱好者更深刻地理解他们喜好的运动队。

相关文章
相关标签/搜索