SPSS统计软件课程作业.docx

资源描述

SPSS统计软件课程作业.docx

《SPSS统计软件课程作业.docx》由会员分享，可在线阅读，更多相关《SPSS统计软件课程作业.docx（24页珍藏版）》请在冰点文库上搜索。

SPSS统计软件课程作业.docx

SPSS统计软件课程作业

《SPSS统计软件》课程作业

信计111刘晓蕾

1.某单位对100名女生测定血清总蛋白含量，数据如下：

74.378.868.878.070.480.580.569.771.273.5

79.575.675.078.872.072.072.074.371.272.0

75.073.578.874.375.865.074.371.269.768.0

73.575.072.064.375.880.369.774.373.573.5

75.875.868.876.570.471.281.275.070.468.0

70.472.076.574.376.577.667.372.075.074.3

73.579.573.574.765.076.581.675.472.772.7

67.276.572.770.477.268.867.367.367.372.7

75.873.575.073.573.573.572.781.670.374.3

73.579.570.476.572.777.284.375.076.570.4

计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度，并给出均值的置信水平为95%的置信区间。

第1步数据组织：

定义1个变量为：

“血清总蛋白含量”，其度量标准为“度量”。

第2步探索分析设置：

选择菜单“分析→描述统计→探索”，打开“探索”对话框，，将“血清总蛋白含量”字段移入“因变量列表”。

打开“统计量”对话框，选中“描述性”选项；

打开“探索：

图”对话框，选中“按因子水平分组”、“茎叶图”、“带检验的正态图”、“直方图”等选项。

打开“探索：

选项”，选中“按列表排除个案”选项。

第3步运行结果及分析：

描述

统计量

标准误

血清总蛋白含量

均值

73.6680

.39389

均值的95%置信区间

下限

72.8864

上限

74.4496

5%修整均值

73.6533

中值

73.5000

方差

15.515

标准差

3.93892

极小值

64.30

极大值

84.30

范围

20.00

四分位距

4.60

偏度

.054

.241

峰度

.037

.478

表中显示“血清总蛋白含量”的描述性统计量，左表中只显示的是均值、均值的95%置信区间的上下限、中值、方差、标准差、极大/小值、偏度、峰度等

2.绘出习题1所给数据的直方图、盒形图和QQ图，并判断该数据是否服从正态分布。

上图为标准Q-Q图，Q-Q图可以用来检验数据是否服从某种分布，在Q-Q图中，检验数据是否较好地服从给定分布的标准有两个：

①看标准Q-Q图上的数据点与直线的重合度；②Q-Q趋势图上的点是否关于直线Y=0在较小的范围内上下波动。

从上图中可以看出，题目中的数据与直线重合度较好，故很好地服从正态分布，这与前面的正态检验表中的结果是一致的

箱图中显示血清蛋白总含量数据绘制成对应的箱体。

每一个箱体上方那条线的取值代表该分组中最大值，下方那条线的取值代表最小值。

箱体自身的三条线从上到下分别代表3/4分位点、中位点、1/4分位点的取值。

正态性检验

Kolmogorov-Smirnova

Shapiro-Wilk

统计量

Sig.

统计量

Sig.

血清总蛋白含量

.073

100

.200*

.990

100

.671

a.Lilliefors显著水平修正

*.这是真实显著水平的下限。

表中显示了血清总蛋白含量的两种检验方法的正态性检验结果，包括各分组的统计量、自由度及显著性水平，以K-S方法的分析：

其自由度sig.=0.200,明显大于0.05，故应接受原假设，认为题中数据服从正态分布

3.正常男子血小板计数均值为

今测得20名男性油漆工作者的血小板计数值（单位：

）如下：

220188162230145160238188247113

126245164231256183190158224175

问油漆工人的血小板计数与正常成年男子有无异常

分析:

这是一个典型的比较样本均值和总体均值的T检验问题;

第1步数据组织：

首先建立SPSS数据文件，只需建立一个变量“血小板计数”，录入相应的数据即可

第2步单样本T检验分析设置

选择菜单“分析→比较均值→单样本T检验（S）”，打开“单样本T检验”对话框，将变量“血小板计数”移入”检验变量”列表框,并输入检验值225；

打开“单样本T检验：

选项”对话框,设置置信区间为95%（缺省为95%）;

单个样本统计量

均值

标准差

均值的标准误

血小板计数

192.1500

42.23652

9.44437

上表给出了单样本T检验的描述性统计量，包括样本数（N）、均值、标准差、均值的标准误。

单个样本检验

检验值=225

Sig.（双侧）

均值差值

差分的95%置信区间

下限

上限

血小板计数

-3.478

.003

-32.85000

-52.6173

-13.0827

本例置信水平为95%，显著性水平为0.05，从上表中可以看出，双尾检测概率P值为0.003，小于0.05，故原假设不成立，也就是说，男性油漆工作者的血小板与

有显著性差异，无理由相信油漆工人的血小板计数与正常成年男子无异常。

4.在某次考试中，随机抽取男女学生的成绩各10名，数据如下：

男：

99795989798999828085

女：

88545623756573508065

假设总体服从正态分布，比较男女得分是否有显著性差异。

第1步数据组织:

在SPSS数据文件中建立两个变量，分别为“性别”、“成绩”，度量标准分别为“名义”、“度量”，变量“品种”的值标签为：

b—男生，g—女生，录入数据。

第2步独立样本T检验设置:

选择菜单“选择→比较均值→独立样本T检验”，打开“独立样本T检验”对话框，将“成绩”作为要进行T检验的变量，将“性别”字段作为分组变量，定义分组变量的两个分组分别为“b”和“g”。

打开“独立样本T检验：

选项”对话框，具体选项内容及设置与单样本T检验相同。

组统计量

性别

均值

标准差

均值的标准误

成绩

男生

84.0000

11.52774

3.64539

女生

62.9000

18.45385

5.83562

上表给出了本例独立样本T检验的基本描述统计量，包括两个样本的均值、标准差和均值的标准误。

独立样本检验

方差方程的Levene检验

均值方程的t检验

差分的95%置信区间

Sig.

Sig.（双侧）

均值差值

标准误差值

下限

上限

成绩

假设方差相等

1.607

.221

3.067

.007

21.10000

6.88065

6.64429

35.55571

假设方差不相等

3.067

15.096

.008

21.10000

6.88065

6.44235

35.75765

根据上表“方差方程的Levene检验”中的sig.为0.221，远大于设定的显著性水平0.05，故本例两组数据方差相等。

在方差相等的情况下，独立样本T检验的结果应该看上表中的“假设方差相等”一行，第5列为相应的双尾检测概率（Sig.（双侧））为0.007，在显著性水平为0.05的情况下，T统计量的概率p值小于0.05，故应拒绝零假设,，即认为两样本的均值不是相等的，在本例中，能认为男女得分绩有显著性差异。

5.设有5种治疗荨麻疹的药，要比较它们的疗效。

假设将30个病人分成5组，每组6人，令同组病人使用一种药，并记录病人从使用药物开始到痊愈所需时间，得到下面的记录：

药物类别

治愈所需天数

5，8，7，7，10，8

4，6，6，3，5，6

6，4，4，5，4，3

7，4，6，6，3，5

9，3，5，7，7，6

问所有药物的效果是否一样？

第1步分析：

由于考虑的是一个控制变量（药物）对一个观测变量（治愈所需天数）的影响，而且是五种药物，所以不适宜用独立样本T检验（仅适用两组数据），应采用单因素方差分析。

第2步数据的组织：

数据分成两列，一列是治愈所需天数，变量名为“治愈所需天数”，另一变量是药物种类（变量值分别为1,2,3,4，5），变量名为“药物种类”，输入数据并保存。

第3步方差相等的齐性检验：

由于方差分析的前提是各个水平下（这里是不同的药物种类影响下的治愈所需天数）的总体服从方差相等的正态分布，且各组方差具有齐性。

其中正态分布的要求并不是很严格，但对于方差相等的要求是比较严格的，因此必须对方差相等的前提进行检验。

误差方差等同性的Levene检验a

因变量:

治愈所需天数

df1

df2

Sig.

.552

.699

检验零假设，即在所有组中因变量的误差方差均相等。

a.设计:

截距+药物类别

方差齐性检验的H0假设是：

方差相等。

从上表可看出相伴根据Sig.=0.699>（0.05）说明应该接受H0假设（即方差相等）。

故下面就用方差相等的检验方法。

ANOVA

治愈所需天数

平方和

均方

显著性

组间

36.467

9.117

3.896

.014

组内

58.500

2.340

总数

94.967

上表是几种饲料方差分析的结果，组间（BetweenGroups）平方和（SumofSquares）为36.467，自由度（df）为4，均方为9.117；组内（WithinGroups）平方和为58.500，自由度为25，均方为2.340；F统计量为3.896。

由于组间比较的相伴概率Sig.（p值）=0.014<0.05，故应拒绝H0假设（四种饲料喂猪效果无显著差异），说明五种药物对治愈所需天数有显著性差异。

第4步多重比较分析：

通过上面的步骤，只能判断4种饲料喂猪效果是否有显著差异。

如果想进一步了解究竟是哪种药物与其他组有显著性的均值差别（即哪种药物更好）等细节问题，就需要在多个样本均值间进行两两比较。

由于第3步检验出来方差具有齐性，故选择一种方差相等的方法，这里选LSD方法；显著性水平默认取0.05；

多个比较

治愈所需天数

LSD

（I）药物类别

（J）药物类别

均值差值（I-J）

标准误差

Sig.

95%置信区间

下限

上限

类别1

类别2

2.5000*

.88318

.009

.6811

4.3189

类别3

3.1667*

.88318

.001

1.3477

4.9856

类别4

2.3333*

.88318

.014

.5144

4.1523

类别5

1.3333

.88318

.144

-.4856

3.1523

类别2

类别1

-2.5000*

.88318

.009

-4.3189

-.6811

类别3

.6667

.88318

.457

-1.1523

2.4856

类别4

-.1667

.88318

.852

-1.9856

1.6523

类别5

-1.1667

.88318

.198

-2.9856

.6523

类别3

类别1

-3.1667*

.88318

.001

-4.9856

-1.3477

类别2

-.6667

.88318

.457

-2.4856

1.1523

类别4

-.8333

.88318

.354

-2.6523

.9856

类别5

-1.8333*

.88318

.048

-3.6523

-.0144

类别4

类别1

-2.3333*

.88318

.014

-4.1523

-.5144

类别2

.1667

.88318

.852

-1.6523

1.9856

类别3

.8333

.88318

.354

-.9856

2.6523

类别5

-1.0000

.88318

.268

-2.8189

.8189

类别5

类别1

-1.3333

.88318

.144

-3.1523

.4856

类别2

1.1667

.88318

.198

-.6523

2.9856

类别3

1.8333*

.88318

.048

.0144

3.6523

类别4

1.0000

.88318

.268

-.8189

2.8189

基于观测到的均值。

误差项为均值方（错误）=2.340。

*.均值差值在.05级别上较显著。

从整个表反映出来五种药物相互之间均存在显著性差异，从效果来看是第3种最好，其次是第2种，第1种最差。

上图为几种药物均值的折线图，可以看出均值分布比较陡峭，均值差异也较大。

6.某公司在各地区销售一种特殊化妆品。

该公司观测了15个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2，得到数据如下：

地区

销售（箱）

人数（千人）

人均收入（元）

162

274

2450

120

180

3254

223

375

3802

131

205

2838

2347

169

265

3782

3008

192

330

2450

116

195

2137

2560

252

430

4020

232

372

4427

144

236

2660

103

157

2088

212

370

2605

（1）画出这三个变量的两两散点图，并计算出两两之间的相关系数。

（2）试建立Y与X1，X2之间的线性回归方程，并研究相应的统计推断问题，同时预测适合购买此化妆品的人数为220千人，人均收入为2500元的某城市对该化妆品的销量。

第1步分析：

这是一个因变量和两个自变量之间的问题，故应该考虑用二元线性回归解决。

第2步数据组织：

定义三个变量，分别为“z”（销售量）、“x”（人数）、“y”（人均收入）。

第3步一元线性回归分析设置：

选择菜单“分析→回归→线性”，打开“线性回归”对话框，将变量“销售量”作为因变量，“人数”和“人均收入”作为自变量。

打开“统计量”对话框，选上“估计”和“模型拟合度”。

单击“绘制（T）…”按钮，打开“线性回归：

图”对话框，选用DEPENDENT作为y轴，*ZPRED为x轴作图。

并且选择“直方图”和“正态概率图”

作相应的保存选项设置，如预测值、残差和距离等。

输入／移去的变量

模型

输入的变量

移去的变量

方法

人均收入,人数a

输入

a.已输入所有请求的变量。

表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。

可以看出，进入模型的自变量为“销售量”

模型汇总b

模型

R方

调整R方

标准估计的误差

.999a

.999

2.17722

a.预测变量:

（常量）,人均收入,人数。

b.因变量:

销售量

R=0.999，说明自变量与因变量之间的相关性很强。

R方（R2）=0.999，说明自变量“销售量”可以解释因变量“人数”和“人均收入”的99.9%的差异性。

Anovab

模型

平方和

均方

Sig.

回归

53844.716

26922.358

5679.466

.000a

残差

56.884

4.740

总计

53901.600

a.预测变量:

（常量）,人均收入,人数。

b.因变量:

销售量

表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。

方差来源有回归、残差。

从表中可以看出，F统计量的观测值为5679.466，显著性概率为0.000，即检验假设“H0：

回归系数B=0”成立的概率为0.000，从而应拒绝原假设，说明因变量和自变量的线性关系是非常显著的，可建立线性模型。

系数a

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

3.453

2.431

1.420

.181

人数

.496

.006

.934

81.924

.000

人均收入

.009

.001

.108

9.502

.000

a.因变量:

销售量

表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标准化的回归系数值、统计量t值以及显著性水平（Sig.）。

从表中可看出，回归模型的常数项为3.453，自变量“人数”的回归系数为0.496，“人均收入”的回归系数为0.009.因此，可以得出回归方程：

销售量=3.453+0.496×人数+0.009×人均收入。

回归系数的显著性水平为0.000，明显小于0.05，故应拒绝T检验的原假设，这也说明了回归系数的显著性，说明建立线性模型是恰当的。

当购买此化妆品的人数为220千人，人均收入为2500元时，该城市该化妆品的销量为：

销售量=220×0.496+0.009×2500+3.453=135.073箱

系数a

模型

非标准化系数

标准系数

Sig.