运用多维尺度标度法对NBA球员的聚类分析
陈博
摘 要
本文首先从2010-2011赛季NBA常规赛中得分榜前五十位球星中选取了收入最高的十位作为样本,然后选择了衡量球员防守和进攻能力的六个最主要的指标作为变量,运用Spss进行多维标度分析,得到了一个二维的空间分布图,发现在二维坐标平面上詹姆斯和霍华德远离其他球员。在运用得到的球员在二维平面上的坐标进行聚类分析,得到了与分布图一致的结论即詹姆斯和霍华德是真正的巨星。
再结合各球员的当赛季薪资分析,仍然可以发现的是詹姆斯和霍华德还是十分物美价廉的球员,而湖人队的两位球星加索尔和科比,有薪资过高的嫌疑。诺维斯基虽然数据不突出但带领球队获得最终总冠军,因此第二高薪也是当之无愧的。而其他球员应属是物有所值型的。
关键词:NBA 多维标度法 聚类分析 工资水平
第一章 绪论
第一节  选题背景及意义
NBA(全称National Basketball Association),直译为美国篮球大联盟,简称美职篮。NBA在其短短几十年的发展历史里面已经成为了全球最著名最成功的体育赛事之一。激烈精彩的赛事,光芒四射的球星,成功的商业推广,巨额的广告赞助和电视转播收入,吸引着全世界球迷的眼球。然而浮华背后其实是危机四伏,2005-2006赛季,共19支球队亏损,亏损金额为2.2亿美元;2006-2007赛季,共21支球队亏损,亏损金额为2.85亿美元;2007-2008赛季,共23支球队亏损,亏损金额为3.3亿美元;2008-2009赛季,共24支球队亏损,亏损金额为3.7亿美元;2009-2010赛季共23支球队亏损,亏损金额为3.4亿美元;而最近结束的11赛季预计亏损为3亿美元。整个NBA共有30支球队,从以上数据可以看到有70%-80%的球队连年巨额亏损,而球队亏损的一个最主要原因就是疲于支付球员们的巨额年薪。有资料显示2010-2011赛季,NBA所有球员的平均年薪是515万美元,在美国所有的职业体育联盟里是平均年薪最高的,而当赛季收入最高的科比布莱恩特更是达到了惊人的2480万美金。于是在新赛季前的劳资谈判中,资方提出了降薪的要求,而球员工会方面显然是不能答应自己的工资白白缩水的,于是劳资双方谈判始终无进展,进而导致夏季赛全部取消,常规赛到现在为止仍然不能开赛。
那么NBA的这些球星们是否值这么多钱呢?支持者认为球星们代表着这个世界上篮球运动的最高水平给球迷们带来无与伦比的享受,NBA球员每年至少要打82场常规赛,漫长的赛季和为此付出的刻苦训练以及随时可能毁掉整个生涯的伤病,球员其实是个高风险职业,因此他们配的上自己的高薪。各支球队更应考虑的不是降薪而是对NBA更好地推广和运营。而反对者则认为,球星们动辄过千万的年薪过高了,甚至拖累了整个联盟的发展。对于球员薪资是否过高这个问题,涉及的问题太复杂,本文并不直接评价球员是否有过高的薪资而是试图从球员的场上表现着手,运用在市场分析和心理学中常用的多位标度法对10名球员的常规赛数据进行分析,得到一个二维空间分布图和各个球员在每一维上的坐标,进而进行聚类分析,然后根据这10名球员的分类再结合其薪资水平进行具体分析。
第二节  文献综述
  搜索网上数据库发现,运用定量方法对于NBA的研究文献较少,而更是没有发现运用多维尺度标度法来研究NBA球员的相关文献,因此下面主要综述一下与本文内容较为接近的研究成果。
    熊凤枚(2010)对NBA球员的性价比做了聚类分析,先把球员分成了四类然后再结合球
员的薪酬水平进行分类,将球员分为了最有效率、效率较高、效率一般、低效率球员并对球队在与球员续约方面建议应注意挖掘超值球员排除低能球员。
    孟杰等人(2009)运用描述统计学的方法从得分、命中率失误等指标上将07-08赛季姚明的表现与斯塔德迈尔进行对比,得出了姚明应该减少受伤提高进攻能力的建议。
    袁立璜(2010)运用线性概率模型对影响NBA比赛胜负的因素做了分析,得出了NBA比赛胜负正的影响因素有后场篮板数,助攻次数,抢断次数等。负的影响因素主要是失误次数。
第二章 多维标度法简介
    詹姆斯nba总冠军多维标度法(multidimensional scaling MDS)是一种把高维降为低维,在低维空间展示距离数据结构的多元数据分析技术,简称MDS。多维标度法起源于心理测度学,用于理解人们判断的相似性。Torgerson拓展了Richardson及Klingberg等人在三、四十年代的研究,具有突破性地提出了多维标度法,后经Shepard和Kruskal等人进一步加以发展完善。多维标度法现在已经成为一种广泛运用于心理学、市场调查、社会学、物理学、政治科学
及生物学等领域的数据分析方法。多维标度法要解决的问题是:当n个对象中各对对象之间的相似性或距离给定时,确定这些对象在低维空间中的表示,并使其尽可能与原先的相似性或距离大体匹配,使得由降维所引起的任何变形达到最小。
    多维标度法按相似性(距离)数据测量尺度的不同可分为:度量MDS和非度量MDS。当利用原始相似性(距离)的实际数值为间隔尺度和比率尺度时成为度量MDS(metric MDS),当利用原始相似性(距离)的等级顺序即有序尺度而非实际数值时成为非度量MDS(nonmetric MDS)。
    多维标度法实现的逻辑框图如下所示:
确定研究的目的
识别评估样品的关键位数
对样品进行比较评估
对于模型拟合效果的判断可以参考拟合优度,越高说明拟合效果越好。一般认为当大于等于0.6时模型被认为是可以接受的。是拟合优良程度的度量,另一个指标压力指数(stress)则是拟合劣质程度的度量,一般认为stress>20%,则拟合效果较差;10%<stress<20%,则拟合效果一般;5%<stress<10%,则拟合效果较好,2.5%<stress<5%,则认为拟合效果非常好,stress<2.5%,则拟合效果完美。
第三章 实证分析
第一节 数据的选取
首先选取10-11赛季常规赛场均得分位于联盟前50位的球员,然后再从其中选出当赛季工资最高的10人进入样本。这样选取的样本首先保证了入样的球员是当赛季常规赛表现较好的,这50位球员可以说是NBA竞技水平的代表,这其中不乏只有两三个赛季的菜鸟球员,他们也在当赛季常规赛打出了出的数据,但是根据NBA的薪资规定,球员的合同年薪基本是每年递增趋势的,而且对于年轻球员来说新秀合同是有顶薪限制的,因此一些表现优异的年轻球员并未入样,比如得分榜上排名第一的杜兰特和第七的罗斯。之所以没有选择他们进入样本的原因时因为他们显然是属于超值球员,而且他们还太年轻,一个赛季的表
现也许并不能说明问题,而综合考虑得分与薪资水平选出的样本显然是各队理所当然的支柱也是联盟各个位置上的代表人物,本文的目的是分析超级球员并出其中的超级球星,而没有超级工资的年轻球星只能暂时算是潜力股。因此入样的球员分别是(按场均得分由高到底排列)勒布朗-詹姆斯,卡梅隆-安东尼,科比-布莱恩特,阿马尔-斯塔德迈尔,德克-诺维斯基,德怀特-霍华德,扎克-兰多夫,保罗-加索尔,克里斯-博什,乔-约翰逊。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。