sas统计分析报告.docx

上传人:b****1 文档编号:14956274 上传时间:2023-06-28 格式:DOCX 页数:17 大小:54.24KB
下载 相关 举报
sas统计分析报告.docx_第1页
第1页 / 共17页
sas统计分析报告.docx_第2页
第2页 / 共17页
sas统计分析报告.docx_第3页
第3页 / 共17页
sas统计分析报告.docx_第4页
第4页 / 共17页
sas统计分析报告.docx_第5页
第5页 / 共17页
sas统计分析报告.docx_第6页
第6页 / 共17页
sas统计分析报告.docx_第7页
第7页 / 共17页
sas统计分析报告.docx_第8页
第8页 / 共17页
sas统计分析报告.docx_第9页
第9页 / 共17页
sas统计分析报告.docx_第10页
第10页 / 共17页
sas统计分析报告.docx_第11页
第11页 / 共17页
sas统计分析报告.docx_第12页
第12页 / 共17页
sas统计分析报告.docx_第13页
第13页 / 共17页
sas统计分析报告.docx_第14页
第14页 / 共17页
sas统计分析报告.docx_第15页
第15页 / 共17页
sas统计分析报告.docx_第16页
第16页 / 共17页
sas统计分析报告.docx_第17页
第17页 / 共17页
亲,该文档总共17页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

sas统计分析报告.docx

《sas统计分析报告.docx》由会员分享,可在线阅读,更多相关《sas统计分析报告.docx(17页珍藏版)》请在冰点文库上搜索。

sas统计分析报告.docx

sas统计分析报告

统计软件》报告

聚类分析和方差分析

在统计学成绩分析中的应用

班级:

精算0801班

姓名:

张倪

学号:

2008111500

报告时间:

2011年11月指导老师:

郝际贵成绩:

一、背景及数据来源1

二、描述性统计分析2

三、聚类分析4

四、方差分析6

五、结果分析与结论8

聚类分析和方差分析在统计学成绩分析中的应用

,、背景及数据来源

SAS系统全称为StatisticsAnalysisSystem最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。

SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。

SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASESAS模块。

BASESAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产

品。

也就是说,SAS系统的运行,首先必须启动BASESAS模块,它除了本身

所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调

度室。

它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。

模块的安装及更新都可通过其安装程序非常方便地进行。

本文利用SAS软件进行描述性统计、聚类分析等统计分析方法,将学生按照多指标综合考虑进行聚类。

数据来源:

选取2010—2011第一学期统计学选教课成绩单,选取性别系别等变量进行考察。

将中文名称改为英文。

数据类型如下所示:

学号

性别

班级

系部

课程名称

老师

平时成绩

期末成绩

总评

学年

数值型

数值型

字符型

字符型

字符型

字符型

数值型

数值型

数值型

数值型

Sn

Sex

class

dept

title

teacher

S1

S2

S3

year

当输入字符型的变量时,需要加上符号$在该变量的后面,用于区分数值型

变量,所以用$来作为后缀。

删除缺考错误分数等异常值。

命名为2010stat.xls

】、描述性统计分析

(一)导入数据

首先建立永久磁盘路径,导入数据集stat

libnamepath"D:

\sas\";

run;

(二)描述性统计分析

然后进行描述性统计对性别、平时成绩、期末成绩、总评成绩进行计算,代码如下:

procmeansdata=path.stat;

varsexs1s2s3;

run;

输出结果如下:

MEANSPROCEDURE

吏星标签N均值标准差垢小值援大值

 

6123sssS

6123SSSS

4969

2080

665B

C.37068970.483138286.2S5270415.840939474.289407318J64176677.1490367IB.5374497

il

0

5,0000000

0

1.0000000100.0000000100.0000000100.0000000

 

 

从结果可以分析出,总体学生平时成绩平均分为86.28分,总评成绩均分为

77.15分。

按照系别分类,每个系进行描述性统计,代码如下:

procmeansdata=path.stat;

varsexsis2s3;

classdept;

run;

运行的输出结果如下所示:

d@pt

观测的亍数

变量

标签

N

均值

标准差

摄小值

摄犬值

财政丢

221

sex

sex

221

0.3800905

0.4865108

0

1.0000000

si

si

221

87.5610360

15.5391625

0

100.0000000

s2

s2

221

75.6515037

19.8630745

5.0000000

100.0000000

s3

s3

221

78.2821267

17.8623447

11.2000000

100.0000000

管理科学与工程系

105

sex

sex

105

0.4380952

0.4985326

0

1.0000000

si

si

105

88.9714206

11.1091241

50.0000000

100.0000000

105

77.8380952

16.2977041

12.0000000

100.0000000

s3

s3

105

01.1000000

14.2162380

81.8000000

100.0000000

国际经济贸易系.

142

sex

sex

142

0.3073239

0.4883631

0

1.0000000

si

§1

142

85.2464739

15.9022665

0

100.0000000

£2

£2

140

72.8500000

19.1333544

17.0000000

100.0000000

s3

s3

142

75.8584507

18.7036206

0

100.0000000

会计系

429

sex

sex

429

0.3240093

0.4685499

0

1.0000000

si

si

429

89.1165501

11.9393104

33.0000000

100.0000000

s2

s2

429

77.6011666

18.1890094

8.0000000

100.0000000

s3

429

80.9867133

15.6030996

27.8000000

100.0000000

35

sex

sex

35

0.3423571

0.4815940

n

1.0000000

si

si

35

84.2285714

14.4834301

37.0000000

100.0000000

s2

s2

35

72.2571429

21.0116314

12.0000000

97.0000000

53

s3

35

75.8571429

18,5197079

28.4000000

97.9000000

留学生

56

sex

sex

56

0.8085714

0.4689609

0

1.0000000

si

si

56

77.4642057

16.1627679

0

95.0000000

£

55

61.9810182

8.1114709

47.0000000

80.0000000

s3

s3

56

65.8517057

11.4553519

0

83.0000000

101

sex

sex

101

0.2071207

0.4546786

U

1.0000000

si

si

101

82.2079208

23.4500318

0

100.0000000

s2

90

75,0777778

18.0260908

16.0000000

100.0000000

101

71.9970297

26.7744298

0

100.0000000

0.4634146

0.5017284

0

1.0000000

81.0731707

18.9103019

0

100.0000000

65.8510519

22.8057619

17.0000000

99.0000000

69.8609756

21.5164178

0

99.8000000

市场営销系

207

sex

§1

sex

si

s2

s3

237

237

279

237

0.3067596

85.3972125

72.4695341

74.9414634

0.48785S5

17.8710139

18.7183101

19.9953278

0

0

16.0000000

0

1.0000000

100.0000000

100.0000000

IUU.UUUUUUU

数学丢

36

sex

sex

36

0,3611111

0.4871361

0

1.0000000

36

34.3611111

7.7317630

75.0000000

100.0000000

s2

s2

36

83.166BBB7

16.9073108

31.0000000

100.0000000

s3

s3

36

86.5130009

13.6230928

47.0000000

100.0000000

体育生

15

Sgx

15

0.3333333

0.4879500

0

1.0000000

si

si

0

-

-

-

-

s2

s3

s2

s3

0

0

从结果可以分析得出,

和最小值。

其中,会计系、财政系和市场营销系人数众多,除了经济系、市场营

销系和留学生以外,各系都有100分

(三)统计图

绘制频率直方图,直方图可以良好的反映各系的人数和性别比例。

代码如下

所示:

procgchartdata=path.stat;

vbardept/type=sumsubgroup=sex;

run;

统计直方图如下所示:

醫计專

Enr主

直方图的横轴是系别变量,

纵轴是人数。

蓝色是男生红色是女生。

根据直万

三、聚类分析

输入代码:

procclusterdata=path.statmethod=wardouttree=treestandardpseudoccc;

proctreedata=treegraphicshorizontal;

run;

上述程序说明了使用系统聚类法来进行研究,并且绘制出聚类分析结果的树

状图。

ccc说明需要计算半偏R2、R2和CCC统计量。

这三个统计量和下面的伪F和伪T2统计量主要用于检验聚类的效果。

当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,半偏R2统计量大说明信息的损失程度大。

R2统计量反映了类内离差平方和的大小,R2统计量大说明类内离差平方和小。

CCC统计量的值大说明聚类的效果好。

Pseudo说明要计算伪F和伪T2统计量一般认为伪F统计量在出现峰值的是

Tie

所对应的分类是较佳的分类选择。

当把数据从G+1类合并为G类时,如果伪T2统计量的值大,说明不应该合并这两类。

后面的tree过程是用来绘制聚类分析结果的树状图。

运行结果如下:

TheCLUSTERProcedure

Yard'sMinimumVarianceClusterAnalysis

ClusterHistory

12

PS

PS

27842096320626070247846557502109698663460603■2-»9-*・・■5■■■■・・2»»Ao■»-3■■-o■ft-o11Qv9-fc3-2-cvnV48141653218382121O11819514B12191543511144G629677—844783821395-4134321

9768139879427350333408425060492085253779843

2086531098887765310875554433221002139475704■

8877777766666666666555555555555555543320876

NCL

--Clusters

J□ir^d—

FREE

SPRSQ

RSQ

ERSQ

CCC

44

CLH68

CL91

28

0.0007

.981

eaa

107

43

CL62

CL151

116

0.0007

.880

.897

10E

42

CL93

CLII66

32

0.0007

S?

9

895

104

41

CL144

CL53

236

0,000?

.979

.084

109

40

C口9

CL99

5S

0,0008

.878

892

102

39

CL64

CL81

55

0.0008

.977

.891

101

38

CL61

CLS5

37

D.0008

.076

.889

98.7

37

CL58

OB1574

3

0.0008

.975

8S8

98.7

36

CL75

CL63

13?

0.0009

.875

.8»B

37J

35

0626S

CL78

4

0.0009

.874

.884

96.7

34

CLS2

CL83

36

0.0009

.S?

3

.602

95.9

33

CL59

CL74

38

0,0009

.972

.860

95.1

32

CLC5

CL44

42

0.0010

.971

878

94.2

31

CL49

CL97

102

D.OQIO

.S70

.876

93.3

30

081358

CL57

12

0.0012

.S69

.874

92.2

29

CL60

CL94

111

D.OOU

S67

.872

90.9

28

CL30

OBI596

13

0.0015

.966

89.4

27

CL55

CL33

156

0.001C

.964

M7

瞬』

2E

CL4«

CL42

105

.863

864

86.4

25

CL36

CL43

259

0.0020

.981

.eei

84.6

24

C口2

CL40

30

0.0020

*8网

33.2

23

CL38

CL51

58

D.0021

.S56

.855

81.7

n

CL52

CL31

197

0.0021

.S54

.851

80.4

21

CL67

CL70

17

0.0022

.952

78.2

20

CL羽

CL47

30

0.0026

.948

.644

77.8

19

CL29

CL45

155

0.0029

.846

.838

76J

ie

CL34

CL39

91

.943

Mb

74.8

17

CL22

CL56

243

0,003C

940

830

73.1

16

CL35

CL37

1

0.0040

.935

.824

7L3

15

CL26

CL24

135

0.0041

.S32

.31S

IG9.9

14

CL20

CL32

72

0.0057

*S26

.812

67.4

13

CL559

CL54

4

D血闊

.820

.804

!

56.3

12

CL贈

CL27

265

o.ooes

.796

'54.9

11

CL41

CL25

4S9

0.0069

.908

.7B6

53.7

10

CL18

CL21

ioe

0.0102

775

5L2

9

CL14

CL23

130

0.0170

.079

.7B2

45,6

8

CL1:

8

CLW

0.0185

.861

746

41,6

1

CL17

CL15

428

D.0242

.B37

.726

36.8

8

CL16

CL13

11

0J84S

.S02

JOI

30.5

5

CL12

CL8

528

0.0783

.728

.669

15J

4

CL11

CL?

81?

0.1036

詔25

.B£3

0.4?

3

CL6

CL9

141

(k1640

.471

540

-12

2

CL5

CL4

1445

0.1820

.289

.421

-16

1

CL2

CL3

15SC

0,2887

000

.000

0,00

上面的运行结果给出了对样品的聚类过程。

SPRSQ为半偏R2统计量、RSQ为R2统计量、CCC为立方聚类标准、PSF为伪F统计量、PST2为伪T2统计量。

 

(S.ooan.站DD5imOi.li&o口.T曲0.151)flISOi.iTOO.iSS。

濒0总蓄O.3tm

i~F*r"l!

i41R-Squli,*d

结果分析:

从半偏R2统计量的结果可以看出,当样本数据从3类合并为2

类时,信息的损失程度较前面的的合并有明显的增加。

从R2统计量的结果可以

看出,当样本数据从3类合并为2类时,R2统计量较前面的合并显著减小,这意味着类内离差平方和增加,违背了Word's的分类原则。

从CCC统计量的结果可以看出,最大值对应的类数为3类。

从6类合并为5类时,伪T2统计量显著增加,伪T2统计量下降显著。

由聚类分析的分析结果的树状图可知分为3类也是符合图形的。

综合各类统

计量的结果,学生的统计学成绩分为3类比较合适。

四、方差分析

输入代码:

procglm;

classsexs3;

models3=sexs3sex*s1ss1ss2ss3ss4;

meanssl/duncan;

run;

输出结果如下所示:

TheGLMProcedure

dependentVariable:

scorescore

Source

DF

Sisof

Squares

Me紅nSquare

FValue

Pr>F

Model

S5

1O53561E.52

123947.20

1975.57

<.0001

Error

1591

9805J.98

82J4

CorrectedTotal

1616

10631573.49

R=Square

Cosff

VsrRoot

MSEscoreMean

0.990965

8.8742657.9208608S.25652

Source

DF

TypeTSS

MeanSquare

FValue

Pr>F

ml

54

10633219.42

135059.51

3109.01

<.0001

gender

1

111*$8

iii.es

L70

0,1919

mlRender

30

2193.21

75.11

L17

0.2471

Source

DF

Type11SS

Me*riSquire

FVftlue

Pr>F

ml

E4

10528845,10

194338.98

3108.06

<.0001

gender

1

111.88

111.09

L76

0JS18

mlRender

30

2193.21

73.11

L17

0.2471

Source

DF

TypeHISS

MeanSquare

FValue

Pr>F

ml

54

1D25G042.73

189926.72

3027.20

<.0001

gender

1

28.42

29.42

1.47

0.4936

mlRender

30

2193.21

73JI

L17

0.2471

Source

DF

TypeIVSS

Me*riSqutrs

FVftlue

Pr>F

ml

54*

1O36646L32

19197L51

3059J9

<.0001

gender

IHi

28.42

29.42

0.47

0.493E

mlRender

30

2193.21

73.11

1J7

0.2471

HNOTE:

OtherTypeJVTeslableHypothesesexistwhichmayyielddifferentSS.

TheGLMProcedure

Duncan?

sMultipleRan^eTestfarscone

NOTE:

ThistestcentroItheType1comparl$onwi^eerrorrate,nottheexpcrimentivi^eerrorrate.

Alpha0.05

ErrorDegreesofFreedom1531

ErrorMeanSquare62.74002

HarmonicMeanofCbIISizes7E6.7743

NOTE:

CelIsizesarenotEqual”

MumbercfMeans

Critic*丨Range

2

J9S?

Meanswiththe

samel^tterare

noti

sIgriifIcantIIydifferent-

DunueinGroupin笔

Mean

M

gertder

A

90.3730

1013

0

E

37.3841

S04

1

从输出结果可以看出,平时成绩对总评成绩有显著的影响。

性别对成绩影响中,女生成绩要优于男生,平均分比男生高,方差比男生小。

可见,在平时成绩和性别对学生统计学总评成绩的影响。

五、结果分析与结论

本文选取2010—2011年统计学成绩作为样本数据,运用SAS软件先对学生成绩进行描述性统计分析,再选用聚类分析法,最后进行方差分析。

聚类分析(ClusterAnalysis)根据样品的统计量将相似程度较大的样品聚合到一个小的分类单位,相似程度较小的聚合到一个大的分类单位,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强,直到把所有的样品都聚合完毕,形成一个由小到大的分类系统,并将整个分类系统

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工作范文 > 行政公文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2