您现在的位置是:首页 > 头条新闻 >

球队中的大数据:能否提高预测的准确性

2013-07-02 14:13:56作者:来源:

摘要是否能够运用数据更准确地预测未来不确定性的结果?绝对可以,但是只有那些有准备的企业才能抵御惯常模式的诱惑,并学会辨别相关性与真正因果关系之间的差异。...

  2011年夏天,曼城队助理教练大卫·普拉特决定利用数据分析来解决球队在表现方面遇到的一个棘手难题。普拉特发现,尽管球队阵中拥有多名高大强壮的球员,但他们的角球得分情况却不尽如人意。

  在征求了俱乐部内部数据分析师的意见后,该队增加了对内旋角球(球转向守门员方向,而非转向外侧)的使用。战术转变产生了惊人的效果。在整个赛季中,曼城队依靠角球打入15个进球,成为英超角球得分效率最高的球队。其中三分之二的进球采用的是内旋角球。

  这一实践为数据驱动型决策提供了强有力的支撑。但是,还有一个附加因素需要考虑:主教练曼奇尼最初对数据的实际价值持怀疑态度。事实上,早在两年前,曼奇尼曾就球队角球的使用情况咨询过俱乐部的数据分析师。分析师回应,他依靠直觉偏爱采用的战术--外旋角球(球飞向远离守门员的方向)从数据统计上看并不理想。

  曼奇尼选择相信自己的直觉而非数据分析的导向性建议。因为直觉告诉他,球旋向远离门将的方向减小了门将触球的几率,同时增加了进攻队员冲顶时争到头球的几率。但当曼奇尼发现两种变数存在某种联系的时候,直觉却模糊了他对两者关联程度的判断能力。换句话说,外旋角球和进球数可能存在着某种关联,但数据表明,内旋角球和进球数存在着更为直接的因果关系。

  这一案例研究为我们改善商业决策带来哪些启示?一家美国零售商最近发现,两种不同变数之间存在着某种有趣的联系。当天气变冷,肉桂葡式蛋挞的销量上升500%--并非所有的葡式蛋挞,只是肉桂这一个品种。面对这种零星数据,零售商要做出决择。每当预测天气即将转冷时,应该储备多少肉桂葡式蛋挞?还有一家零售商发现,羊奶干酪打折似乎能促进红酒的销售。希望减小红酒库存的时候,是不是应考虑羊奶干酪打折这种方法?

  这两个问题的答案取决于大数据分析的核心问题:弄清相关性与因果关系之间的区别。人类善于发现事物的相关性--这是进化的特征--但是却在发掘直接相关事物的关系时显得有些笨拙。将相关性误解为因果关系所做出的决策是危险的。将自己的事业作为赌注压在某种相关因素上面,可能会遭受惨败,因为你所期待看到的影响可能并不会发生。

  最近的一项研究显示,某国的巧克力销量与诺贝尔奖的人均比例之间呈现明显的相关性。各国是不是都该鼓励公民增加巧克力的消费来提高获得诺贝尔奖的人数呢?

  为有效利用大数据,相关性分析应仅作为一个出发点去考虑。如果两个变量存在关联,我们该如何应对?当然,政府在推行“巧克力替代教育”的政策之前,应当首先考虑一下其他因素。比方说,看看那些获得诺贝尔奖人数较多的国家相对教育水平和研究预算,与巧克力消费相比,这两个变量与获诺奖的因果关系显然更大。

  同样,那些葡式蛋挞和羊奶干酪的零售商们在拥有十足把握以前,需要对他们的假设进行验证。比如说,在确定因果关系存在以前,考察一些商店肉桂葡式蛋挞的“库存积压”情况;或者采取打折销售羊奶干酪的方式,看看红酒销量是否真的增加。

  事物之间可能存在着一些简单的因果关系,但公司需要清楚每种因果关系都可能产生意想不到的结果。肉桂葡式蛋挞销量的增加是否意味着其他产品销量的减少?红酒销量的增加是否也意味着啤酒销量的减少或者牛排销量的增加?影响现代供应链的因素很多,而且还在不断增加:天气、社交媒体、特价商品、食品安全新闻等,都会影响消费者的行为,以及零售商应该购置多大规模的存货。这基本上就是一个混沌系统,完全准确地预测将来要发生的事情是不可能的。但模型越完善,预测就越准确,预测越准确,行动结果就越理想。

  数据分析就像一幅印象派油画。当你退后观察,并把各个部分视作一个整体时,这幅画的意境才开始浮现。近距离观察是无法理解其中内涵的。条件随着时间变化而不断改变,变量本身的变化也会对最终结果产生影响,这是数据研究人员所面临的的最大难题。虽然人们可以找到天气和葡式蛋挞之间的联系,但要研究对其他产品产生的连锁反应,或者说要弄清楚葡式蛋挞所引发的反作用程度,还需要一种复杂的算法。

  这可以帮助我们解释为什么曼城队的新角球战术不太可能会长久取得良好的结果。实施从外旋角球到内旋角球的简单战术转变多开点内旋球,少开点外旋球,这一简单的战术转变,忽略了每场比赛中每次出现破门机会时某些独特变数。

  久而久之,其他球队对曼城队的新战术会越来越熟悉,这意味着他们的防线将会更好应对这一战术。此外,相对于其他的威胁,在化解内旋角球的威胁方面,将会配备更好的防守策略。例如,门将的优先站位、最接近角球区的防守球员的高度,是两个应当考虑的因素,此外还应考虑到风速以及各种行为要素的影响,比如防守密集程度与比赛进行时间之间的关系。

  是否能够运用数据更准确地预测未来不确定性的结果?绝对可以,但是只有那些有准备的企业才能抵御惯常模式的诱惑,并学会辨别相关性与真正因果关系之间的差异。

  本文作者:凯捷大数据与统计分析策略负责人史蒂夫·琼斯


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们