运用多维尺度标度法对NBA球员的聚类分析.docx
《运用多维尺度标度法对NBA球员的聚类分析.docx》由会员分享,可在线阅读,更多相关《运用多维尺度标度法对NBA球员的聚类分析.docx(13页珍藏版)》请在冰点文库上搜索。
运用多维尺度标度法对NBA球员的聚类分析
运用多维尺度标度法对NBA球员的聚类分析
陈博
摘要
本文首先从2010-2011赛季NBA常规赛中得分榜前五十位球星中选取了收入最高的十位作为样本,然后选择了衡量球员防守和进攻能力的六个最主要的指标作为变量,运用Spss进行多维标度分析,得到了一个二维的空间分布图,发现在二维坐标平面上詹姆斯和霍华德远离其他球员。
在运用得到的球员在二维平面上的坐标进行聚类分析,得到了与分布图一致的结论即詹姆斯和霍华德是真正的巨星。
再结合各球员的当赛季薪资分析,仍然可以发现的是詹姆斯和霍华德还是十分物美价廉的球员,而湖人队的两位球星加索尔和科比,有薪资过高的嫌疑。
诺维斯基虽然数据不突出但带领球队获得最终总冠军,因此第二高薪也是当之无愧的。
而其他球员应属是物有所值型的。
关键词:
NBA多维标度法聚类分析工资水平
第一章绪论
第一节选题背景及意义
NBA(全称NationalBasketballAssociation),直译为美国篮球大联盟,简称美职篮。
NBA在其短短几十年的发展历史里面已经成为了全球最著名最成功的体育赛事之一。
激烈精彩的赛事,光芒四射的球星,成功的商业推广,巨额的广告赞助和电视转播收入,吸引着全世界球迷的眼球。
然而浮华背后其实是危机四伏,2005-2006赛季,共19支球队亏损,亏损金额为2.2亿美元;2006-2007赛季,共21支球队亏损,亏损金额为2.85亿美元;2007-2008赛季,共23支球队亏损,亏损金额为3.3亿美元;2008-2009赛季,共24支球队亏损,亏损金额为3.7亿美元;2009-2010赛季共23支球队亏损,亏损金额为3.4亿美元;而最近结束的11赛季预计亏损为3亿美元。
整个NBA共有30支球队,从以上数据可以看到有70%-80%的球队连年巨额亏损,而球队亏损的一个最主要原因就是疲于支付球员们的巨额年薪。
有资料显示2010-2011赛季,NBA所有球员的平均年薪是515万美元,在美国所有的职业体育联盟里是平均年薪最高的,而当赛季收入最高的科比布莱恩特更是达到了惊人的2480万美金。
于是在新赛季前的劳资谈判中,资方提出了降薪的要求,而球员工会方面显然是不能答应自己的工资白白缩水的,于是劳资双方谈判始终无进展,进而导致夏季赛全部取消,常规赛到现在为止仍然不能开赛。
那么NBA的这些球星们是否值这么多钱呢?
支持者认为球星们代表着这个世界上篮球运动的最高水平给球迷们带来无与伦比的享受,NBA球员每年至少要打82场常规赛,漫长的赛季和为此付出的刻苦训练以及随时可能毁掉整个生涯的伤病,球员其实是个高风险职业,因此他们配的上自己的高薪。
各支球队更应考虑的不是降薪而是对NBA更好地推广和运营。
而反对者则认为,球星们动辄过千万的年薪过高了,甚至拖累了整个联盟的发展。
对于球员薪资是否过高这个问题,涉及的问题太复杂,本文并不直接评价球员是否有过高的薪资而是试图从球员的场上表现着手,运用在市场分析和心理学中常用的多位标度法对10名球员的常规赛数据进行分析,得到一个二维空间分布图和各个球员在每一维上的坐标,进而进行聚类分析,然后根据这10名球员的分类再结合其薪资水平进行具体分析。
第二节文献综述
搜索网上数据库发现,运用定量方法对于NBA的研究文献较少,而更是没有发现运用多维尺度标度法来研究NBA球员的相关文献,因此下面主要综述一下与本文内容较为接近的研究成果。
熊凤枚(2010)对NBA球员的性价比做了聚类分析,先把球员分成了四类然后再结合球员的薪酬水平进行分类,将球员分为了最有效率、效率较高、效率一般、低效率球员并对球队在与球员续约方面建议应注意挖掘超值球员排除低能球员。
孟杰等人(2009)运用描述统计学的方法从得分、命中率失误等指标上将07-08赛季姚明的表现与斯塔德迈尔进行对比,得出了姚明应该减少受伤提高进攻能力的建议。
袁立璜(2010)运用线性概率模型对影响NBA比赛胜负的因素做了分析,得出了NBA比赛胜负正的影响因素有后场篮板数,助攻次数,抢断次数等。
负的影响因素主要是失误次数。
第二章多维标度法简介
多维标度法(multidimensionalscalingMDS)是一种把高维降为低维,在低维空间展示距离数据结构的多元数据分析技术,简称MDS。
多维标度法起源于心理测度学,用于理解人们判断的相似性。
Torgerson拓展了Richardson及Klingberg等人在三、四十年代的研究,具有突破性地提出了多维标度法,后经Shepard和Kruskal等人进一步加以发展完善。
多维标度法现在已经成为一种广泛运用于心理学、市场调查、社会学、物理学、政治科学及生物学等领域的数据分析方法。
多维标度法要解决的问题是:
当n个对象中各对对象之间的相似性或距离给定时,确定这些对象在低维空间中的表示,并使其尽可能与原先的相似性或距离大体匹配,使得由降维所引起的任何变形达到最小。
多维标度法按相似性(距离)数据测量尺度的不同可分为:
度量MDS和非度量MDS。
当利用原始相似性(距离)的实际数值为间隔尺度和比率尺度时成为度量MDS(metricMDS),当利用原始相似性(距离)的等级顺序即有序尺度而非实际数值时成为非度量MDS(nonmetricMDS)。
多维标度法实现的逻辑框图如下所示:
确定研究的目的
识别评估样品的关键位数
对样品进行比较评估
对于模型拟合效果的判断可以参考拟合优度
越高说明拟合效果越好。
一般认为当
大于等于0.6时模型被认为是可以接受的。
是拟合优良程度的度量,另一个指标压力指数(stress)则是拟合劣质程度的度量,一般认为stress>20%,则拟合效果较差;10%
第三章实证分析
第一节数据的选取
首先选取10-11赛季常规赛场均得分位于联盟前50位的球员,然后再从其中选出当赛季工资最高的10人进入样本。
这样选取的样本首先保证了入样的球员是当赛季常规赛表现较好的,这50位球员可以说是NBA竞技水平的代表,这其中不乏只有两三个赛季的菜鸟球员,他们也在当赛季常规赛打出了出色的数据,但是根据NBA的薪资规定,球员的合同年薪基本是每年递增趋势的,而且对于年轻球员来说新秀合同是有顶薪限制的,因此一些表现优异的年轻球员并未入样,比如得分榜上排名第一的杜兰特和第七的罗斯。
之所以没有选择他们进入样本的原因时因为他们显然是属于超值球员,而且他们还太年轻,一个赛季的表现也许并不能说明问题,而综合考虑得分与薪资水平选出的样本显然是各队理所当然的支柱也是联盟各个位置上的代表人物,本文的目的是分析超级球员并找出其中的超级球星,而没有超级工资的年轻球星只能暂时算是潜力股。
因此入样的球员分别是(按场均得分由高到底排列)勒布朗-詹姆斯,卡梅隆-安东尼,科比-布莱恩特,阿马尔-斯塔德迈尔,德克-诺维斯基,德怀特-霍华德,扎克-兰多夫,保罗-加索尔,克里斯-博什,乔-约翰逊。
选取样本球员之后,再来考虑衡量球员各种能力的指标的选择。
目前NBA每场能统计出的数据指标可谓是纷繁复杂,能从各个方面衡量一个球员在球场上的表现,而在此文中选取了六个最简单易得也是最为常用和最重要的六个指标,助攻、篮板、抢断、盖帽、命中率、罚球命中率(数据均为常规赛平均值),从各个方面衡量了一个球员的进攻和防守水平。
具体数值如下表1。
表110位球员数值表
球员
命中率
篮板
助攻
抢断
盖帽
得分
罚球命中率
11赛季工资
勒布朗-詹姆斯
0.51
7.50
7.00
1.60
0.60
26.70
0.76
1,602.00
卡梅隆-安东尼
0.46
7.30
2.90
0.90
0.60
25.60
0.84
1,852.00
科比-布莱恩特
0.45
5.10
4.70
1.20
0.10
25.30
0.83
2,524.00
阿马尔-斯塔德迈尔
0.50
8.20
2.60
0.90
1.90
25.30
0.79
1,822.00
德克-诺维斯基
0.52
7.00
2.60
0.50
0.60
23.00
0.89
1,909.00
德怀特-霍华德
0.59
14.10
1.40
1.40
2.40
22.90
0.60
1,810.00
扎克-兰多夫
0.50
12.20
2.20
0.80
0.30
20.10
0.76
1,636.00
保罗-加索尔
0.53
10.20
3.30
0.60
1.60
18.80
0.82
1,871.00
克里斯-博什
0.50
8.30
1.90
0.80
0.60
18.70
0.82
1,602.00
乔-约翰逊
0.44
4.00
4.70
0.70
0.10
18.20
0.80
1,804.00
注:
本文的所有数据均来自与,表中球员的年薪并未进入模型。
第二节多维尺度结果及其聚类分析
将数据导入spss后,使用菜单Analyze-Scale-MultidimensionalScaling(ALSCAL),进入多维标度法的对话框,将六个指标选入变量框,因为输入的是原始变量,样品间的距离阵要通过原始变量来计算,选择Createdistancesfromdata,并且点击Measure选择间隔尺度(interval),样本间的欧式距离,并且将变量标准化(transformvalues的standardize选项中的ZScores)距离矩阵(createdistancematrix)选择样品间(betweencases)。
点击Model,选项中测量水平(levelofmeasurement)选择间隔长度(interval),标度模型(scalingmodel)选择欧式距离、二维模型。
每个观察代表的样品如表2。
表2:
勒布朗-詹姆斯
VAR1
卡梅隆-安东尼
VAR2
科比-布莱恩特
VAR3
阿马尔-斯塔德迈尔
VAR4
德克-诺维斯基
VAR5
德怀特-霍华德
VAR6
扎克-兰多夫
VAR7
保罗-加索尔
VAR8
克里斯-博什
VAR9
乔-约翰逊
VAR10
提交软件运行后得到Young-stress指数为0.086,K-stress指数为0.091,RSQ为0.9594。
可见拟合效果较好。
得到多维尺度空间图1,和拟合效果图2。
图1多维空间尺度图
由于在维数中选择了二维,所以可以用二维平面比较直观地反映各个样品的位置。
由图可以清楚地看到詹姆斯和霍华德在二维坐标平面中远离其他八位球员,并且在第二维上詹姆斯位于最下方,在第一维上霍华德位于最左方。
结合这两个球员的数据可以发现,詹姆斯的得分、助攻数据都位于第一位,并且有很高的命中率;而霍华德的篮板、盖帽数据都位于第一位,抢断数据位于第二位。
由此可见第一维主要反映的是球员的防守能力,第二维主要反映的是球员的进攻能力,并且横轴和纵轴的负方向表示高的进攻能力和防守能力。
因此可以认为詹姆斯拥有最好的进攻能力,而霍华德拥有最强的防守能力。
另外科比的进攻能力可以排在第二位。
而保罗加索尔、扎克兰多夫和斯塔德迈尔都有很强的防守能力仅次于霍华德。
而霍华德的进攻能力其实也很强,但在十人中最低的罚球命中率影响了其在进攻上的更出色的发挥,因此霍华德有必要提高自己的罚球命中率。
另外在十人中场均得分第二维的安东尼并没有在图中过于突出,主要是因为除了得分数据外该球员的其他数据较差,因此可以认为该球员对球队的贡献较为单一更多的是作为进攻的终结者。
再结合球员的场上位置发现,内线球员更多的位于图的左方,表现出更强的防守能力,这也是与实际较为符合的,因为内线球员与外线球员相比篮板球上的优势较为明显。
而在衡量进攻能力的第二维上,外线球员相比有更好地表现,这也与目前NBA还是普遍靠超级峰位打天下的实际情况较为符合。
图2拟合效果图
上图是反映实际距离与拟合距离的散点图(此处采用的为欧式距离),由图来看,拟合的情况较好,样本点基本落在y=x直线附近。
本例中运用多维标度法得到了空间分布图,可以根据空间分布图进行聚类分析,但是若仅仅依照空间分布图进行聚类是十分不准确的。
在本例中使用的是2维的空间分布图还能够比较容易的进行粗略的分类,但若是对于3维及其以上的空间分布图仅凭直观就很难进行聚类分析了,并且不同的研究人员对同一个空间分布图也可能得出不同的主观印象进而影响分类,所以就需要根据样本在各维度上的坐标值来进行分类了。
下表(表3)显示了10个球员在2个维度上的坐标值。
表3:
球员
第一维
第二维
勒布朗-詹姆斯
0.21
-1.89
卡梅隆-安东尼
0.66
-0.19
科比-布莱恩特
1.13
-0.76
阿马尔-斯塔德迈尔
-0.46
-0.18
德克-诺维斯基
0.61
0.75
德怀特-霍华德
-2.88
-0.34
扎克-兰多夫
-0.43
0.63
保罗-加索尔
-0.44
0.86
克里斯-博什
0.10
0.72
乔-约翰逊
1.51
0.41
对上表的数据选择欧式距离进行相似性度量采用组间连接法,对这些球员进行系统聚类分析。
得到聚状树形图3。
图3聚状树形图
根据树状图将这10名球员分为三类是较为合适的,詹姆斯和霍华德各自为一类,其他所有球员为一类。
第四章结论
由最后的聚类分析结果可以看出,在所选取的10名NBA超级球星中,詹姆斯和霍华德是真正的superstar,显示出超出其他人的能力。
从数据上看詹姆斯的进攻能力超群防守能力出色,除了罚球命中率较低以外可以说是基本上没有弱点。
而霍华德则是具有超群的防守能力,并且也具有很强的进攻能力。
而综合来看其他八位球员可以说综合表现差距不大。
结合11赛季的薪资水平分析,詹姆斯的当赛季工资为1602万美元是10个人中最低的(与克里斯-博什相同),因此詹姆斯不仅具有豪华的各项数据而且还有与其他超级球星相比较低的工资水平,可以说詹姆斯绝对是11赛季最“物美价廉”的球员。
其带领的热队也取得了常规赛联盟第一战绩,成功闯入了总决赛,但最终惜败在了小牛队手下。
霍华德的工资为1810万美元在10人排名第五,中游的工资超强的防守表现对球队来说也绝对是划算的买卖,而且在当今NBA缺乏好的内线球员的大环境下,留住霍华德给予其更好的待遇是魔术队所必须做的。
所以这两位球员应该是全联盟所有球队渴求的,他们的表现完全配的上自己的工资。
而11赛季工资最高的科比,达到了惊人的2520万美元,但是并未表现出于其身价相符的联盟第一人的水平,各项数据表现差强人意。
而同队的保罗加索尔也有1871万美元的工资,但是其各项数据与同位置的霍华德相比明显有较大的差距。
并且拥有这两位球员的湖人队作为卫冕冠军,在季后赛首轮就遭淘汰,可见对于两位球员和球队来说这都不是一个成功的赛季,因此我们有理由怀疑湖人队为两位球星付出了过高的工资。
再看工资第二高的德克-诺维斯基,虽然各项数据也没有过人之处,但是其作为小牛队的核心球员最终率队获得了历史上第一个总冠军,并在总决赛中表现出色获得MVP,仔细分析诺维斯基可以发现他是属于数据并不是特别突出但是往往在关键时刻有出色发挥的球员也就是所谓的“大场面先生”因此认为他是配的上自己的高薪的,尽管其“价格不菲”,但一座总冠军奖杯足矣弥补一切。
球员的数据很重要但也不能反应场上的一切,对于球队来说最注重的还是球队的成绩,也许数据最好的球员并不是最适合某支球队的,因此本文仅从数据分析的角度给出NBA巨星之间的一个横向比较,结合工资水平对其当赛季的表现进行一定的评价。
但球星绝不是比赛的全部,NBA有句话说得好,“球星能带来胜利,团结的球队获得冠军”。
参考文献
[1]何晓群.多元统计分析[M],北京:
中国人民大学出版社2009
[2]杨继平郑建军.运用MDS对明清晋商组织管理结构的分析[J],心理与行为研究2006,4
[3]揭水平.多维标度法的聚类分析:
问题与解法[J],统计与决策2009,11
[4]孙枫林张大奇宣家骥.多维标度法MDS的改进及其在国际市场研究中的应用[J],管理工程学报1996,2
[5]燕霞.基于多维标度技术的中国地区社会经济发展分析[D],华南理工大学2010
[6]阳长征.多维标度法在企业战略决策中的应用[J],经营与管理2010,3
[7]钱争鸣.非计量多维模式法与多指标“心理距离”计量分析[J],数量经济技术经济研究1997,10