上周《从男篮世界杯惨败看中国篮球的数据分析》一文引起了一些广泛讨论,今天我们继续就这个题材,来看看美国人曾经遭遇过怎么样的阻力。
·延展阅读:从男篮世界杯惨败看中国篮球的数据分析 | 产业专栏
我总是说数据分析如何如何先进,如何能帮助球员和球队带来提高,说多了可能会让人觉得有点数据神教唯数据论的感觉。但其实我们应该都清楚中国篮球和国际先进水平之间的差距是全方位的,不仅仅是数据分析在篮球领域应用上的差距,也不可能只要重视数据分析就一定能解决所有问题,这样的灵丹妙药是不存在的。
我之所以会一直强调这个,一方面我认为确实可以从中获益,能用这套方法,花更少的时间以更高的效率更全面精准的了解比赛,球员和球队。另一方面,最近前雄鹿队分析顾问Seth Partnow写了一篇文章提到了一个观点我觉得能很好的诠释,那就是——我们不追求“完美”,只追求“更好”。
什么意思呢?有一些拒绝数据分析的人经常说“数据不能说明一切”。这里面隐含的逻辑往往就是,如果数据分析不能完美解答疑问,那它就没意义。这样的逻辑显然是错的,NBA一个赛季有1230场比赛,我们的CBA联赛赛程短但也有460场比赛,无论是谁都不可能凭肉眼分析并记忆大部分比赛,而篮球又恰恰是一项充满了偶然性的运动,不立足于大样本的统计结果无法得出接近事实的答案。数据确实不能说明一切,但传统方法更不能说明一切。所以当一些人以“数据不能说明一切”拒绝数据分析的方法和结论时,在我看来就像是坐着驴车的人批判一款城市代步车越野性能不行。从分析人员的角度讲,一个工具有缺陷是很正常的,不完美才是常态,我们只需要新工具能比现在有的更好,哪怕是好一点点也可以。从一开始我们就不要求数据分析解决一切问题。
我们一些在CBA一线工作,并且相信数据分析的基层人员有机会和火箭队的教练组成员Devan Blair交流时,讲了新的篮球理念和方法在国内职业篮球的第一线推广的困境。人家鼓励他,说“没关系啊,你现在在做的就是我们美国二十年做的事情”。他这么说的时候似乎在表达美国这方面已经获得了“革命”的成功。但实际上,即便是在美国,数据分析在职业比赛的应用层面依然是有困难的,Devan Blair在火箭这样数据科学家坐镇总经理位置的球队工作可能有着更好的环境,但在更多地方同样面临着保守派带来的阻力,Seth Partnow就戏称自己是篮球左派,在和右派的保守势力对抗。
数据分析在篮球上的发展上有一个很奇怪的现象,就是不论在美国还是中国,球队都落后于球迷。我这么说可能听起来很反常,职业球队怎么还不如业余球迷呢?但我可以举几个简单的例子。
·灰熊队的副总裁John Hollinger在进入NBA之前是通过自己在业余空闲时建立的篮球分析网站崭露头角的。
·前超音速,开拓者和步行者的分析顾问,现ESPN评论员Kevin Pelton在进入这个行业前,也是自己业余爱好做了一个针对超音速的分析网站才开始被注意到的。
·前开拓者和76人的副总裁Ben Falk同样是从自建篮球数据网站,才逐步进入开拓者管理层的。
·前雄鹿分析顾问Seth Partnow是在篮球数据博客NylonCalculus当兼职编辑才被发现,从而进入这个行业的。
·前马刺队战略副总裁,现美国国家队分析顾问Kirk Goldsberry是从一个业余爱好制作篮球数据图表的地理系博士走到现在这个岗位上来的。
·撰写了篮球数据分析领域的第一本重磅著作《Basketball in paper》的现奇才队助教Dean Oliver最早也是在自己的工程师工作之余,在网上发表一些篮球数据的文章,才逐渐成书出名进入NBA的。
这些业余爱好者正是现在NBA数据分析领域的先锋和骨干,整个NBA数据分析界正是由一群有着理工科背景的篮球爱好者建立的。直到现在,NBA官方每年还在举办Hackathon,吸引一大群爱好者和大学生参加,MIT每年都办运动分析峰会,投稿的也都从未接受过专业篮球训练的理工科研究者,而他们这些业余人士所做的反而是篮球分析领域的前沿学术成果,这些成果都在被业内所应用。即便是NBA球队已经普遍重视数据分析的现在,推特上业余爱好者的工作也在不断引起球队管理层人员的注意,他们的分析方法,思路是完全不逊色于球队全职人员的,其中有很多也像Seth Partnow这样重回公众视野的前球队工作人员。甚至由于球队内部的工作往往更需要应用于实际比赛,而缺乏探索性质,这些“野生数据专家”们的工作更有开拓性,更具前沿价值。
正因为这样的发展模式,导致了数据分析在篮球领域真正进入业内时遇到了阻力,因为表面上看来这是一场“外行领导内行”的革命。但实际上,这可能是竞技体育发展到一定高度后的必然。过去我们常说“文体不分家”,因为文艺和体育都是人民群众茶余饭后的消遣娱乐,属于精神需求,因此归为一类。而理工科是直接作用于生产力发展的,是关乎物质需求的,所以两家分的很远。但现代竞技体育高度发展后,成为了一个需要多学科专业知识支持的项目,训练,饮食,伤病管理,伤后康复,技战术打法无一不需要科学的力量。数据科学就和营养学,生物学,医学一样对竞技体育产生影响,不同的是,数据科学更深入的触及到了比赛本身,直接对于比赛进行指导,而不再是比赛之外的支援工作。
这样的深入接触对于传统学院派体育人士来说,就像是陌生人侵入了私人空间一样,自然会产生抵触情绪。在美国高中,认真学习门门课拿A+的好学生被称作Nerd(书呆子),而橄榄球队篮球队的运动明星则是学生中的焦点,当书呆子们开始在这些运动明星最擅长的领域告诉他们该怎么做时,对抗是不可避免地。巴克利就曾经说过:“数据分析不过是那些不会打篮球的书呆子们想参与进来才编出来的东西罢了”。包括科比,杜兰特等一些球星对数据分析也有很大的抵触情绪。认为那些不会打球的人没资格来指导自己怎么做。但他们那么说时往往忽略了竞技体育高度职业化之后必然带来的高度分工,“懂球”未必需要会打球,分析人员没有必要掌握实战比赛技巧。这就像工业化进程一样,技术越是先进,分工越是明确。越是落后,就越是一人身兼数职。无论上一代球星如何看待数据分析,职业体育的这种分工化趋势都无法改变,NBA球队近年来逐渐都开始建立独立的数据分析部门,新一代球员都越来越信任数据分析就是最好的证明。
在中国,虽然同样有着球迷领先于球队的情况,也有着数据分析理念和方法在一线篮球工作中推广阻力重重的困境,但原因却略有不同。国内的球迷往往是在关注NBA的过程中享受到了NBA强大的数据服务,普通球迷期盼CBA官方能提供像NBA那样的数据服务,而不满足于现状又有着理工科背景的球迷,能凭借美国“球迷领先于球队”的特殊情况和大量前从业人员在公开网络上的分享,了解到最先进的分析理念和方法。
而比起美国由于校园体育文化所导致的传统运动员教练员“不愿”接受,我们的运动员教练员更多的是“不能”接受新理念。由于数据分析在NBA的兴起,对NBA也抱有学习心态的CBA一线管理人员,教练员也对数据分析有着很大的热情,但真当一些数据分析的基本内容,比如百回合数据,放在他们面前时他们却又表达出了拒绝的态度,觉得“太复杂”,不如场均数据来的简单易懂。Kevin Pelton也曾公开抱怨过“高阶数据”(advanced stats)一词给数据分析思想的推广带来了不必要的阻力。因为许多所谓的高阶数据一点也不“高阶”,并不包含高深的数学知识,重要的只是它的思想方法,它的“框架”。
就比如百回合数据,百回合数据的计算实际上并不复杂,不涉及任何高等数学的内容,只需要中小学数学知识就能理解它的计算。篮球比赛本质上是一种回合制游戏,球权的必然转换决定了比赛双方一定是攻一次守一次形成一个回合。这就让比赛的最小单位成为了“回合”,而不是“场”。一场打了70个回合的比赛和一场90个回合的比赛,它们之间的数据是不能直接比较的。在这里,无论是“回合”的概念还是百回合数据的计算都不是最重要的,真正重要的实际是其中的“标准化”思想。所谓标准化思想其实就是讲不同度量的特征不能直接比较,必须进行标准化处理,使他们具备可比性。这也并不算是什么高深的理念,但我们往往到大学的理工科教育中才能有清楚的理解。
再比如真实命中率的计算,它只涉及到四则运算,但在它的计算中,会把每次罚球出手看作是0.44次运动战出手。在实际的比赛中,一次两分投篮犯规得到了两次罚球机会,每次发球是0.5次运动战出手,三分投篮犯规的罚球则是0.33次,打进加罚的罚球不占用投篮机会,所以实际比赛中的情况是很复杂的,但为什么我们就在这里选用0.44呢?这并不是数据分析者随便选定的数字,而是通过大量比赛的统计,发现大样本下各种出手造成的罚球综合下来大约是0.44。这个0.44在工科专业中就是所谓的“工程经验”。这种统计结果具体到应用中是否有误差呢?当然有,但只要经过统计就会发现,这个误差非常小,但不采用0.44,尝试具体的去统计每次罚球占用的投篮机会,又需要花费大量的时间精力。这种在误差可以接受的情况下,采用0.44而不是精准统计每次罚球占用的投篮机会的做法实际上也体现了工程应用中对“成本”的考量。如果不了解其中的思维方法,很容易就因为这个“莫名其妙”的0.44就陷入对这项数据的不信任,认为其增加了人为的干扰,反倒不能直观的反应现实了。
这些理工科的思维方式在篮球分析领域中的应用是普遍存在的,再加上数学工具和编程工具所需要的背景知识和技能,为我们从体育院校毕业的一线分析人员制造了不低的门槛,甚至国内顶级体育院校篮球专业的教授在对篮球数据的理解上都处在一知半解的状态。而目前职业球队的数据分析人员都是录像分析人员在兼任,球队也没有意愿开出一个对具备数据科学知识背景的人员来说有足够吸引力的待遇。一些国内的外部数据供应商虽然能够把美国数据服务公司的技术进行本地化,但在数据的分析呈现上又达不到球队实际应用的要求。种种因素导致了篮球数据分析在国内职业领域的荒漠化,球迷反倒走在了前面。
这种“外行比内行领先”的情况对于行业发展带来的天然阻力,美国分析人员已经有了充分的体会,Devan Blair在篮协为国内年轻分析人员做的培训课上就不断强调:“不要着急,要一点一点的赢取老派教练员的信任,要在方法上寻求突破,通过更清晰的可视化方法展现数据的科学性与优越性。”NBA在最初开始数据分析的发展时采用的方法是以兼职人员的形式雇佣这些“专业的外行”,安排队内的传统分析人员进行对接,称之为“协调员”。既能越过专业技术的壁垒,又能充分表达球队的需求,填补球迷视角探索性工作和球队视角的应用性工作的差异。在体育数据公司兴起后NBA球队则是既购买这些公司的外包服务,同时也安排已经具备技术背景的全职人员进行对接,最后才在近几年逐渐建立起完全独立的数据分析部门,而这些部门的人员曾经都是那些网络上的“外行”。这是一条清晰的发展路线,这条路NBA走了将近二十年,现在仍在努力化解其中的矛盾冲突。而我们的联赛呢?是不是像我们国家其他追赶发达国家的行业一样,能拥有“因为看过别人走过的路”而拥有的“后发优势”呢?
作者介绍:曹健恺(RC-1136),微博“篮圈即是原点”的运营者,对数据抓取和可视化呈现有很深的研究,为多家媒体网站提供有篮球理念支持,又易于解读的NBA图表,目前对CBA数据也有一定的涉猎。
延展阅读:
中国男篮遭遇11年来最痛心一败,我在现场所看到和听到的 | 观赛手记
声明:文中观点仅代表作者本人观点,不代表懒熊体育。