基于数据直观分析与聚类分析在0809赛季NBA休斯顿火箭队球员表现分析中的应用.docx

资源描述

基于数据直观分析与聚类分析在0809赛季NBA休斯顿火箭队球员表现分析中的应用.docx

《基于数据直观分析与聚类分析在0809赛季NBA休斯顿火箭队球员表现分析中的应用.docx》由会员分享，可在线阅读，更多相关《基于数据直观分析与聚类分析在0809赛季NBA休斯顿火箭队球员表现分析中的应用.docx（21页珍藏版）》请在冰点文库上搜索。

基于数据直观分析与聚类分析在0809赛季NBA休斯顿火箭队球员表现分析中的应用.docx

基于数据直观分析与聚类分析在0809赛季NBA休斯顿火箭队球员表现分析中的应用

基于数据直观分析与聚类分析在08-09赛季NBA休斯顿火箭队球员表现分析中的应用

摘要本文选取了NBA休斯顿火箭队08-09赛季16个球员的12项重要评价指标，运用数据直观分析中的调和曲线图先进行粗略分析，然后利用聚类分析（K-均值聚类法）和NBA效率准则，借助matlab软件，把这些球员分成主力球员、替补球员、板凳球员三类，结合实际情况证明了本方法对于球员表现分析的有效性和实用性。

关键词调和曲线图；聚类分析；matlab

1.引言

1949年由美国两大篮球组织BAA和NBL合并成为“全国篮球协会”简称“NBA”,经过60多年的发展历程,NBA成为世界篮球运动的顶级联赛,共拥有30支球队，球员近500名。

作为以盈利化为目的的体育组织，如何有效地分析各球员的表现，达到最佳的市场化、商业化运作就成为了当务之急。

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

它是一种重要的人类行为。

聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。

聚类分析的目标就是在相似的基础上收集数据来分类。

本文就利用了聚类分析中的K-均值聚类法，同时参照NBA效率准则，对一些NBA球员进行了评估和分类，分析所得的结果可以为球队老板和经理提供一些参考，同时也是球迷们对球员评价的一个依据

2.数据直观分析

2.1基本思想

数据分析是依据样本数据推断总体的概率分布特征的统计技术。

样本数据包含丰富的关于总体特征的信息，然而这些信息却分散在各个具体的数值之中，也就是说，原始数据不能主动揭示总体的特征。

因此，数据分析的一项基础性工作就是数据的浓缩，即对原始的数据进行“加工”，用特定的数学方法使原始数据中关于总体某一方面的信息集中起来，服务与人们对总体的认识。

高位数据的图形化直观分析目前尚无公认的成熟的方法，轮廓图和调和曲线图都是在计算机辅助下易于实现、在数据分类问题中较为有效的图形化方法。

2.2标准化处理

2.2.1基本思想

在数据分析之前，我们通常需要先将数据标准化（normalization），利用标准化后的数据进行数据分析。

数据标准化也就是统计数据的指数化。

数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。

数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。

数据无量纲化处理主要解决数据的可比性。

经过标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。

2.2.2z-score标准化

也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

（1-1）

　　（其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

）

这种方法基于原始数据的均值（mean）和标准差（standarddeviation）进行数据的标准化。

将A的原始值x使用z-score标准化到x'。

z-score标准化方法适用于属性A的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。

2.3调和曲线图

调和曲线图的思想和傅立叶变换十分相似，是根据三角变换方法将p维空间的点映射到二维平面上的曲线上。

假设

是p维数据的第r个观测值，即

（1-2）

则对应的调和曲线是

（1-3）

其中

调和曲线图主要应用与分析样本的聚类性质，当聚类统计量为样本数据之间的距离时，同类样本点的调和曲线扭结在一起，不同类样本点的调和曲线扭结成不同的束。

2.聚类分析

2.1聚类分析的概念

聚类分析又称群分析、点群分析，是定量研究分类问题的一种多元统计方法。

人类认识世界往往首先将被认识的对象进行分类，因此分类学便成为人类认识世界的基础科学。

在社会生活的众多领域中都存在着大量的分类问题。

以前人们主要靠经验和专业知识做定性分类处理，致使许多分类带有主观性和任意性，不能很好地揭示客观事物内在的本质差别与联系，特别是对于多因素、多指标的分类问题，定性分类更难以实现准确分类。

随着生产技术和科学的发展，人类的认识不断加深，分类越来越细，要求也越来越高，光凭经验和专业知识分类是不能取得令人满意的结果。

为了克服定性分类存在的不足，于是把数学方法引进分类学中，形成了数值分类学，后来随着多元分析的引进，聚类分析又逐渐从数值分类学中分离出来,形成一个相对独立的分支。

在多元统计分析中，聚类分析在许多领域中都得到了广泛的应用，取得了许多令人满意的成果。

聚类分析包括很多种方法，系统聚类法是最基本、最常用的一种，此外还有有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等，不同的方法适合解决不同类型的问题。

2.2K-均值聚类法

2.1.1基本思想

K-均值聚类法算法有很多的变种,基本的思想是不变的。

该算法的基本思想是:

给定一个包含n个数据对象的数据库,以及要生成的簇的数目K,随机选取K个对象作为初始的K个聚类中心,然后计算剩余各个样本到每一个聚类中心的距离,把该样本归到离它最近的那个聚类中心所在的类,对调整后的新类使用平均值的方法计算新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束且聚类平均误差准则函数E已经收敛。

本算法在每次迭代中都要考察每个样本的分类是否正确,若不正确,就要调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。

如果在一次迭代算法中,所有的样本被正确分类,则聚类中心也不会再有任何变化。

在算法迭代的过程中E的值在不断减小,最终收敛至一个固定的值,该准则也是衡量算法是否正确的依据之一。

2.1.2K-均值聚类法的计算步骤

1.选取聚类个数K;

2.从数据集中选定个向量作为初始聚类中心:

C1,C2,…,Ck。

聚类中心的向量值可以任意设定,例如可用开始k样本点作为初始聚类中心,但是它的选取会影响到聚类的结果;

3.逐个将需分类的样本xi（i=1,2,…,n）,按欧氏距离分配给某一个聚类中心Cj（0

（2-1）

4.计算各个聚类中心的新的向量值Cj=[Cj1,Cj2,…,Cjp]T,其中p是数据属性的个数:

（2-2）

式中Nj是第j个聚类域Sj中所包含的样本个数。

这一步要分别计算K个聚类中的样本均值向量,K均值算法由此得名.

5.如果聚类中心不再变化,就终止,否则转步骤3。

以上的迭代算法可以采用下面的目标函数进行迭代:

（2-3）

其中J=1,2,…,K,Sj是中心为Cj的聚类域。

3.NBA效率准则公式

NBA对于球员有一个综合判断指数：

效率准则（也称之为单位效率准则），这个效率指数的最基本思路是将一名球员球场表现的折算成为一个可以进行比较的数字，保障了不同位置的球员都可以在一个通过换算后的同一起跑线上进行比较。

计算这个效率准则的公式为：

[（得分+篮板+助攻+抢断+封盖）-（出手次数-命中次数）-（罚球次数-罚球命中次数）-失误次数]/球员上场比赛的场次。

这个依据的得出，可以综合判断球员良性表现，并且参照球员的球场不良表现，接着根据球员出场的次数来得出单场平均的效率表现。

这个数据尽管存在一定的偏袒进攻性，却是现在官方使用的最常用的效率指数，也是相对来说比较客观的一项比较基准。

所以本文以该公式作为对球员评价的重要工具。

4.NBA休斯顿火箭队08-09赛季各球员表现分析

4.1指标选取

根据NBA效率准则公式，为了表现数据的普遍性，本文选取了08-09赛季成绩中等的休斯顿火箭队，共统计了全体16名球员的12项重要指标。

数据表格如下：

休斯顿火箭队08-09赛季球员各项指标的统计数据（表1）：

得分

篮板

助攻

抢断

封盖

出手次数

命中次数

罚球次数

罚中次数

失误次数

场次

上场时间

阿尔斯通

552

144

258

522

193

109

1591

阿泰斯特

1181

359

229

105

1037

416

262

196

140

2452

巴蒂尔

436

285

137

354

145

2031

巴里

208

172

857

布鲁克斯

894

157

238

783

316

172

149

125

1998

多西

海德

106

101

322

海耶斯

250

113

858

库克

兰德里

638

343

418

240

193

157

1467

洛瑞

214

162

608

麦迪

545

154

175

485

188

156

125

1181

穆托姆博

斯科拉

1044

720

123

799

424

258

196

123

2488

韦弗

610

113

512

229

117

1225

姚明

1514

761

137

150

1032

566

440

381

234

2589

资料来源：

《中国统计年鉴2008》，中国统计出版社。

4.2数据直观分析

4.2.1标准化处理

利用z-score标准化将表1中数据处理如下（本部分matlab编码见附录1.1）

表2

0.1042

-0.3280

1.7879

0.8145

-0.4119

0.3229

0.0479

-0.0615

-0.0661

0.3190

-0.0298

0.3945

-0.1472

0.2786

0.3848

0.4931

0.8680

-0.1511

-0.2308

-0.3977

-0.3615

-0.3210

0.7399

1.3545

-0.6414

-0.5432

-0.2993

-0.3637

-0.5208

-0.6648

-0.6664

-0.7739

-0.7046

-0.3210

0.4100

0.8851

0.8454

-0.2721

1.556

0.4217

-0.3846

1.0596

0.7622

0.4427

0.5343

0.9111

-0.3211

0.2634

-1.0879

-0.9433

-1.1922

-1.2206

-0.6025

-1.1446

-1.0671

-0.9340

-0.8857

-1.0892

1.1431

0.8483

-0.8625

-0.8315

-0.7979

-1.0064

-0.5752

-0.8651

-0.8464

-0.8059

-0.7523

-0.8331

-1.6791

-1.3726

-0.8950

0.128

-0.7168

-0.0067

-0.0851

-0.8313

-0.8290

0.7819

-0.8190

-0.6891

0.8132

-1.3514

-1.0663

-0.9262

-1.1922

-1.2206

-0.5208

-1.1051

-1.0439

-0.9340

-0.8857

-1.0572

-1.4592

0.7399

0.2905

0.5282

-0.7515

-0.2923

0.2416

0.0294

0.32086

0.6108

0.6105

-0.0010

-0.7014

-0.6284

-0.6120

-0.0789

-0.4709

-0.3574

-0.6930

-0.6258

-0.7019

-0.8095

-0.4811

-0.7628

-0.0626

0.0890

-0.2851

0.8254

0.2789

-0.1940

0.2185

0.0188

0.3146

0.3055

0.0150

-0.5062

-1.2723

-1.0576

-0.8057

-1.2038

-1.2206

-0.3029

-1.1135

-1.0439

-0.8619

-0.8285

-0.9931

-1.4592

1.3946

1.1706

2.1503

0.2225

1.2073

-0.3029

1.1047

1.3894

1.1311

0.9822

0.8791

1.2164

-0.0135

0.2298

-0.4615

-0.3804

9.2075

-0.3846

0.2947

0.2569

0.0025

-0.0470

-0.1450

0.5200

--0.4227

2.1893

2.3267

0.3848

-0.1495

3.4824

1.7623

2.2141

2.5879

2.7454

2.6555

1.0331

1.5072

0.3945

1.3545

0.8851

-0.4238

-1.3726

-1.0203

-0.4227

-1.3514

0.2563

-0.7014

-0.0626

-0.2847

4.2.2调和曲线图

利用表2，绘出休斯顿火箭队各球员表现的调和曲线图如下（本部分matlab编码见附录1.2）：

4.3聚类分析

通过调和曲线图，我们可以粗略的看出数据可分成三类，利用K-均值聚类法将表1中数据进行聚类分析如下（本部分matlab编码见附录1.3）：

表3

球员

分类（IDX）

聚核（C）

类内总离差平方和

（sumd）

样品的各个类聚核的聚类（D）

第一类

第二类

第三类

得分

篮板

助攻

抢断

封盖

出手次数

命中次数

罚球次数

罚中次数

失误次数

场次

上场时间

1.阿尔斯通

2.阿泰斯特

3.巴蒂尔

4.巴里

5.布鲁克斯

6.多西

7.海德

8.海耶斯

9.库克

10.兰德里

11.洛瑞

12.麦迪

13.穆托姆

14.斯科拉

15.韦弗

16.姚明

第一类：

0.09270.06970.03630.01210.00660.08270.03410.01330.00770.01930.02830.3960

第二类：

1.24630.61330.16300.06770.06170.95600.46870.32000.25770.16570.07602.5097

第三类：

0.61250.19930.15300.04320.02050.51230.21850.13570.11000.07620.05921.5822

1.0053

0.3489

1.0278

1.93431.90360.0205

6.71130.09671.4567

2.94391.58100.2803

0.23935.02650.8672

3.88680.69180.3498

0.17539.55673.2689

0.00807.54662.1199

0.24955.27831.0290

0.15609.40013.1789

1.73331.92590.0630

0.07225.92741.2932

1.07022.82730.1710

0.10509.00432.9467

6.48900.09311.4289

1.20092.65390.1432

8.89210.15922.7412

4.4NBA效率准则公式

依据效率准则公式：

[（得分+篮板+助攻+抢断+封盖）-（出手次数-命中次数）-（罚球次数-罚球命中次数）-失误次数]/球员上场比赛的场次分别计算表1中各球员的综合值：

X=[4.7778,15.5217,11.5167,4.5714,9.1000,1.0000,4.3181,4.6197,0.8889,11.5217,9.8214,15.2571,4.7778,17.1463,7.4762,23.8052]

4.5总结分析

通过调和曲线图和聚类分析，其中比较有争议的是样本5，又结合NBA效率准则，确定最后的分类结果如下：

{2,14,16}，{1,3,5,10,12,15}，{4,6,7,8,9,11,13}

第一类：

主力球员：

阿泰斯特、斯科拉、姚明。

对应调和曲线图虚线部分和聚类分析的第二类。

无论从聚类分析的结果上看还是球员综合值上看，本组的3位球员数据都是远高于其他2组球员，再结合实际情况，08-09赛季姚明是休斯顿火箭队唯一入选全明星的球员，阿泰斯特09-10赛季转会到NBA传统强队洛杉矶湖人队，并助湖人队获得当年总冠军。

斯科拉则被球迷誉为姚明在NBA搭档过的最优秀的内线球员，而且是欧洲篮球联赛历史得分王。

三人的个人能力、赛场表现以及明星价值毋庸置疑，从球队角度是不可多得的人才，也是吸金造势的王牌，也是广大球迷心中的超级明星，对于投资商、广告商更是绝佳的追捧对象。

所以此组球员个人技术成熟、人气极高，今后应继续被作为球队核心和灵魂，重点发挥商业价值和人气价值，定会为球队带来更大的利益。

第二类：

替补球员：

阿尔斯通、巴蒂尔、布鲁克斯、兰德里、麦迪、韦弗。

对应调和曲线图实线部分和聚类分析第三类。

本组球员数据整体处于中等水平，从实际情况来看，麦迪曾是主力之一，但08-09赛季因伤病原因无法发挥出实力，韦弗、布鲁克斯、兰德里均为年轻球员，还处于磨合期，都有上升的空间，巴蒂尔、阿尔斯通是NBA的“老兵”，他们也同样是合格的角色球员。

所以此组球员情况可分三类：

1.伤病类：

长期的伤病使球员的个人能力和人气都大打折扣，所以球队在今后的应适当投资。

2.上升类：

新秀球员无论从技术能力还是赛场表现、明星气质都没有达到顶峰，均有上升潜质，球队应加大对此类球员的培养。

3.下降类：

通常老队员的技术能力都过了个人的巅峰期，有下降趋势，但是老队员的临场经验、心理素质和人气积累都是新人无法迅速企及的高度，所以球队应注重新老队员的搭配，以求适当投资达到最大利益。

第三类：

板凳球员：

巴里、多西、海德、海耶斯、库克、洛瑞、穆托姆博。

对应调和曲线图点线部分和聚类分析的第一类。

本组球员各项数据指标均大大低于其他两组，从实际情况来看，除去海耶斯外的5人都在下一赛季被火箭队交易或退役，他们都是在赛场上无法获得稳定的出场时间，技术和能力也不是非常突出，所以球队应谨慎培养、投资。

经数据直观分析和聚类分析将休斯顿火箭队球员分类，理论与实际相似性极高，所以此方法是一种可行的方法，可以成为各球队评价球员一个重要标准，对于球队未来发展和投资商的长期投资都有极大的帮助。

参考文献

[1]包研科.数据分析教程.第1版.北京:

清华大学出版社,2011

[2]孙祥，徐流美，吴清.MATLAB7.0基础教程.北京：

清华大学出版社，2005

附录

1.matlab代码

1.1标准化处理：

[X]=zscore（NBA）

Columns1through11

0.1042-0.32811.78790.8145-0.41190.32300.0479-0.0615-0.06610.3191-0.0298

1.46750.59701.45172.52830.05111.77641.34301.16310.98221.15120.7399

-0.14730.27860.38480.49320.8680-0.1512-0.2308-0.3977-0.3616-0.32110.4100

-0.6414-0.5432-0.2993-0.3637-0.5208-0.6648-0.6664-0.7739-0.7047-0.32110.2634

0.8455-0.27211.55600.4218-0.38471.05960.76220.44270.53430.91121.1431

-1.0879-0.9434-1.1922-1.2206-0.6025-1.1446-1.0671-0.9340-0.8857-1.0892-1.6791

-0.8625-0.8315-0.7979-1.0064-0.5753-0.8652-0.8464-0.8059-0.7523-0.8331-0.9827

-0.89500.1280-0.7168-0.0067-0.0851-0.8313-0.8290-0.7819-0.8190-0.68910.8132

-1.0663-0.9261-1.1922-1.2206-0.5208-1.1051-1.0439-0.9340-0.8857-1.0572-1.4592

0.29060.5282-0.7516-0.29230.24170.02950.32090.61080.6106-0.00100.7399

-0.6284-0.6121-0.0790-0.4709-0.3574-0.6930-0.6258-0.7019-0.8095-0.4811-0.7628

0.0890-0.28510.82550.2789-0.19400.21850.01890.31470.30560.0150-0.5062

-1.0576-0.8057-1.2038-1.2206-0.3030-1.1135-1.0439-0.

展开阅读全文