《数据分析》.docx

上传人:b****4 文档编号:5315611 上传时间:2023-05-08 格式:DOCX 页数:21 大小:348.77KB
下载 相关 举报
《数据分析》.docx_第1页
第1页 / 共21页
《数据分析》.docx_第2页
第2页 / 共21页
《数据分析》.docx_第3页
第3页 / 共21页
《数据分析》.docx_第4页
第4页 / 共21页
《数据分析》.docx_第5页
第5页 / 共21页
《数据分析》.docx_第6页
第6页 / 共21页
《数据分析》.docx_第7页
第7页 / 共21页
《数据分析》.docx_第8页
第8页 / 共21页
《数据分析》.docx_第9页
第9页 / 共21页
《数据分析》.docx_第10页
第10页 / 共21页
《数据分析》.docx_第11页
第11页 / 共21页
《数据分析》.docx_第12页
第12页 / 共21页
《数据分析》.docx_第13页
第13页 / 共21页
《数据分析》.docx_第14页
第14页 / 共21页
《数据分析》.docx_第15页
第15页 / 共21页
《数据分析》.docx_第16页
第16页 / 共21页
《数据分析》.docx_第17页
第17页 / 共21页
《数据分析》.docx_第18页
第18页 / 共21页
《数据分析》.docx_第19页
第19页 / 共21页
《数据分析》.docx_第20页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

《数据分析》.docx

《《数据分析》.docx》由会员分享,可在线阅读,更多相关《《数据分析》.docx(21页珍藏版)》请在冰点文库上搜索。

《数据分析》.docx

《数据分析》

 

 

红河学院2016-2017学年春季学期

《数据分析》课程期末考查试卷

 

院-系:

数学学院

专业:

信息与计算科学

年级:

2014级

学生姓名:

王继禹

学号:

201401050335

授课教师:

赵金娥 

 

2017年6月

1、(33分)现有两个SPSS数据文件,分别名为“学生成绩一.sav”和“学生成绩二.sav”,存放了关于学生学号、性别和若干门课程成绩的数据。

(1)将所给的两个SPSS数据文件“学生成绩一.sav”和“学生成绩二.sav”进行合并,形成一个完整的数据文件并保存为“学生成绩.sav”。

(2)对所建立的数据文件“学生成绩.sav”进行以下处理:

计算男生和女生语文成绩的基本描述统计量,并比较男女生语文成绩的差异;

答:

由上表可知,男女生语文成绩有较大差异。

首先,男女生语文成绩均值分别为77.43分和85.75分,女生高于男生;其次,男生成绩呈右偏平峰分布,女生成绩也呈右偏平峰分布;另外,标准差表明,男生成绩的离散程度大于女生。

按照性别对平均成绩排秩;

 

选择平均成绩为75分及以上的学生样本,并按性别的降序及平均成绩的升序进行排序;

计算每位女生课程成绩≥80分的课程数;

把英语成绩划分为优、良、中、不合格四个等级,划分规则为“英语≥90”为“优”、“75≤英语<90”为“良”、“60≤英语<75”为“中”、“英语<60”为“不合格”;

 

按照等级输出频数分布表,并绘制不同等级语文平均成绩的条形图。

 

统计量

语文等级

N

有效

30

缺失

0

 

语文等级

频率

百分比

有效百分比

累积百分比

有效

18

60.0

60.0

60.0

6

20.0

20.0

80.0

6

20.0

20.0

100.0

合计

30

100.0

100.0

(3)对所建立的数据文件“学生成绩.sav”进行以下分析:

①分析数学平均成绩与60.00是否存在显著差异;

分析:

设原假设为数学平均成绩与60.00是无显著差异的,备择假设为数学平均成绩与60.00是有显著差异的,由图1-1可知,被调查者共计30人,数学平均值为66.6000分,标准差为14.64723;由图1-2可知,t检验的概率p-值为0.020,小于α=0.05,拒绝原假设,接受备择假设,即数学平均成绩与60.00有明显差异。

②男生和女生的语文平均课程是否存在显著差异;

分析:

设原假设为男生和女生的语文平均课程存在显著差异,备择假设为男生和女生的语文平均课程不存在显著差异。

由组统计量表可以看出男女生语文样本均值有一定的差异,从独立样本检验表可以看出:

该检验的F统计量的观测值为4.794,对应的P值为0.037,如果显著性水平α为0.05,由于概率p值小于0.05,可以认为两总体方差存在显著差异,故拒接原假设,即男生和女生的语文平均课程不存在显著差异。

该班级的物理成绩与化学成绩是否存在显著差异。

分析:

设立原假设为物理成绩与化学成绩没有存在显著差异,备择假设为物理成绩与化学成绩存在显著差异。

从成对样本统计量表中可以看出,物理与化学成绩的平均值由较大的差异;成对样本相关系数表表明在显著水平为α=0.05时,对应的概率p-值为0.000接近于0,小于α,所以拒绝原假设,即物理成绩与化学成绩存在显著差异。

2、(15分)“居民储蓄调查数据.xls”是一份关于居民储蓄调查的模拟数据,该数据的第一行是变量名,该份数据的具体含义见Excel文件的后半部分。

(1)将该份数据转换成SPSS数据文件,并在SPSS中定义数据结构(包括变量名、变量类型、变量名标签、变量值标签等),并保存为“居民储蓄调查数据.sav”;

(2)该问卷中的多选项问题是按照哪种方式分解的?

答:

该问卷中的多选项问题是按照多选项分类法分解的,因为其中的选项不止只有两个,存在多个。

(3)有多大比例的居民认为今年的收入比去年增加了?

有多大比例的居民认为今年的收入比去年减少了?

并给出理由。

收入比去年增加了还是减少了

频率

百分比

有效百分比

累积百分比

有效

基本不变

48

17.0

17.0

17.0

减少

180

63.8

63.8

80.9

增加

54

19.1

19.1

100.0

合计

282

100.0

100.0

答:

通过分析可知,该表中有282个被调查者,并无缺失值,认为今年收入比去年增加的有54人,占总数的19.1%。

而认为今年收入比去年减少的有180人,占总数的63.8%,可知今年收入比去年减少了。

(4)居民存款的最主要目的是什么?

并给出理由。

答:

通过两表分析可知,共有282人参与调查,缺失3人,存款目的应答次数837次,可以看出这一选项是多选。

其中,买房或建房的选择有178人选择,占总选项数的21.3%;其次是得利息,有119人选择,占14.2%,由此可知居民存款的最主要目的是为了买房或建房,其次是得利息。

3、(13分)为了解文化程度对职称的影响,对20名职工进行了调查并进行了列联分析,结果如下表所示:

职称*文化程度交叉制表

文化程度

合计

1.00

2.00

3.00

4.00

职称

1

计数

2

0

2

2

6

期望的计数

1.5

1.2

2.1

1.2

6.0

职称中的%

33.3%

0

33.3%

33.3%

100%

文化程度中的%

40.0%

0

28.6%

50.0%

30.0%

总数的%

10.0%

0

10.0%

10.0%

30.0%

2

计数

2

2

2

1

7

期望的计数

1.75

1.4

2.45

1.4

7.0

职称中的%

28.6%

28.6%

28.6%

14.3%

100.0%

文化程度中的%

40.0%

50.0%

28.6%

25.0%

35.0%

总数的%

10.0%

10.0%

10.0%

5.0%

35.0%

3

计数

1

2

3

1

7

期望的计数

1.75

1.4

2.45

1.4

7.0

职称中的%

14.3%

28.6%

42.9%

14.3%

100.0%

文化程度中的%

20.0%

50.0%

42.9%

25.0%

35.0%

总数的%

5.0%

10.0%

15.0%

5.0%

35.0%

合计

计数

5

4

7

4

20

期望的计数

5.0

4.0

7.0

4.0

20.0

职称中的%

25.0%

20.0%

35.0%

20.0%

100.0%

文化程度中的%

100.0%

100.0%

100.0%

100.0%

100.0%

总数的%

25.0%

20.0%

35.0%

20.0%

100.0%

卡方检验

df

渐进Sig.(双侧)

Pearson卡方

3.211

6

.782

似然比

4.325

6

.633

线性和线性组合

.016

1

.900

有效案例中的N

20

(1)补充表中空缺的计算结果(结果保留1位小数);

(2)分析文化程度对职称是否有影响。

答:

通过分析表一和表二,我们可以先建立原假设:

文化程度对职称没有影响;再建立备择假设:

文化程度对职称有影响。

从卡方检验表中可以看出,设显著水平α=0.05,由于卡方检验的概率p-值都大于0.05,所以接受原假设,即文化程度对职称没有影响。

从交叉制表中也可以看出,文化程度为4而职称为3的占总数的14.3%,而文化程度为1职称为3的同样占总数的14.3%,可知文化程度对职称没有影响。

4、(29分)数据文件“广告地区与销售额.sav”,是某企业在制订某商品的广告策略时,收集的该商品在不同地区采用不同广告形式促销后的销售额数据。

请完成以下问题:

主体间因子(表4-1)

值标签

N

广告形式

1.00

报纸

36

2.00

广播

36

3.00

宣传品

36

4.00

体验

36

地区

1.00

12

2.00

12

3.00

12

4.00

12

5.00

12

6.00

12

7.00

12

8.00

12

9.00

12

10.00

12

11.00

12

12.00

12

主体间效应的检验(饱和模型)(表4-2)

因变量:

销售额

III型平方和

df

均方

F

Sig.

校正模型

(12064.639)

(47)

(256.695)

1.764

.010

截距

647756.694

1

(647756.694)

4451.724

.000

x1

5189.361

(3)

(1729.787)

(11.888)

.000

x2

2660.306

(11)

(241.846)

(1.662)

.094

x1*x2

4214.972

(33)

(127.726)

(0.878)

.657

误差

(13968.667)

96

(145.507)

总计

(673790)

(144)

校正的总计

26033.306

(143)

主体间效应的检验(非饱和)(表4-3)

因变量:

销售额

III型平方和

df

均方

F

Sig.

校正模型

(7849.667)

(14)

(560.691)

3.978

.000

截距

(647756.694)

(1)

(647756.694)

4595.374

.000

x1

(5189.361)

(3)

(1729.787)

(12.272)

.000

x2

(2660.306)

(11)

(241.846)

(1.716)

.077

误差

(18183.639)

(129)

(140.959)

总计

(673790)

(144)

校正的总计

(26033.306)

(143)

误差方差等同性的Levene检验(表4-4)

因变量:

销售额

F

df1

df2

Sig.

.884

47

96

.675

对比结果(K矩阵)(表4-5)

广告形式简单对比a

因变量

销售额

级别1和级别4

对比估算值

-13.861

假设值

0

差分(估计-假设)

-13.861

标准误差

2.798

Sig.

.000

差分的95%置信区间

下限

-19.398

上限

-8.324

级别2和级别4

对比估算值

-4.417

假设值

0

差分(估计-假设)

-4.417

标准误差

2.798

Sig.

.117

差分的95%置信区间

下限

-9.953

上限

1.120

级别3和级别4

对比估算值

1.556

假设值

0

差分(估计-假设)

1.556

标准误差

2.798

Sig.

.579

差分的95%置信区间

下限

-3.981

上限

7.092

a.参考类别=4

多个比较(表4-6)

销售额

LSD

(I)广告形式

(J)广告形式

均值差值(I-J)

标准误差

Sig.

95%置信区间

下限

上限

报纸

广播

-9.4444*

2.79840

.001

-14.9811

-3.9077

宣传品

-15.4167*

2.79840

.000

-20.9534

-9.8800

体验

-13.8611*

2.79840

.000

-19.3978

-8.3244

广播

报纸

9.4444*

2.79840

.001

3.9077

14.9811

宣传品

-5.9722*

2.79840

.035

-11.5089

-.4355

体验

-4.4167

2.79840

.117

-9.9534

1.1200

宣传品

报纸

15.4167*

2.79840

.000

9.8800

20.9534

广播

5.9722*

2.79840

.035

.4355

11.5089

体验

1.5556

2.79840

.579

-3.9811

7.0923

体验

报纸

13.8611*

2.79840

.000

8.3244

19.3978

广播

4.4167

2.79840

.117

-1.1200

9.9534

宣传品

-1.5556

2.79840

.579

-7.0923

3.9811

*均值差的显著性水平为0.05

(1)请填写表4-2和表4-3中空缺部分的数据结果(结果保留3位小数);

(2)请根据表格数据说明以上分析是否满足方差分析的前提,并说明理由;

答:

通过课本知识,我们可知方差分析是通过推断控制变量各水平下观测变量的总体分布是否有显著差异来实现分析目标的。

故我们可以设立原假设原假设:

不同地区的销售的总体方差没有显著差异;再设立备择假设:

不同地区的销售的总体方差有显著差异。

从4-4Levene检验表中可以看出,不同广告形式下销售额的方差齐性检验的检验统计量的观测值为0.884,概率P-值为0.675。

如果显著性水平a为0.05,小于概率P-值,因此不拒绝原假设,认为不同地区的销售额的总体方差没有显著差异,满足方差分析的前提。

(3)分析广告形式、地区以及广告形式和地区的交互作用是否对商品销售额产生影响;

答:

本题以多因素方差分析进行研究,其中以广告形式,地区为控制变量,销售额为观测变量。

我们可以设立原假设为:

不同广告形式没有对销售额产生显著影响;不同地区的销售额没有显著影响;广告形式和地区对销售额没有产生显著的交互影响。

(x1:

广告形式;x2:

地区;x1*x2:

广告形式和地区)

从表4-2中可以看出:

第一列是对观测变量总方差分析说明,第二列是观测变量变差分析结果,第三列是自由度,第四列是方差,第五列是F检验统计量的观测值,第六列是检验统计量的概率p-值。

x1,x2,x1*x2的F检验统计量的值分别为11.888,1.662,0.878,对应的概率p值分别为0,0.094,0.657。

如果显著性水平α为0.05,而x1的概率p-值小于α,所以拒绝原假设,认为不同广告形式对销售额有影响;而x2,x1*x2分别对应的概率p-值大于α,不应拒绝原假设,认为不同地区对销售额没有显著影响,广告形式和地区对销售额没有产生交互作用。

(4)分析表4-5(对比结果);

答:

表4-5分别显示了广告形式前三个水平下销售额的均值检验结果。

第一种广告形式下的销售额的均值与检验值得差为-13.861,标准误为2.798,t检验统计量的概率p-值为0.000(近似为0),差值的95%置信区间的下限和上限分别为-19.398和-8.324,如果显著水平α=0.05,则概率p-值小于α,所以第一种广告形式下的销售额的均值与检验值间存在显著差异,明显低于总体水平。

同理,按照第一种方式分析可知,第二种广告形式下的销售额也明显低于总体水平,而第三种广告形式下的销售额的明显高于总体水平。

三种广告形式产生的效果有着显著差异。

(5)分析表4-6(多个比较),并说明哪种广告形式能获得理想的销售业绩.

答:

表4-6分别显示了两两广告形式下销售额均值检验的结果,且采用的是LSD检验方法。

如果显著水平α为0.05,在LSD方法中,报纸广告与广播广告,宣传品广告和体验广告的效果均有显著差异,概率p-值分别为0.001,0.000,0.000(皆接近0)。

再分析其他的对比可以发现,宣传品广告和体验广告的效果没有显著差异,概率P-值为0.579。

由以上分析可知,如果要获得理想的销售业绩,不宜采用宣传品的形式,可以从报纸、广播和体验中选择一种低成本或操作性强的广告。

5、(10分)为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集1999年31个省市自治区部分高校有关社科研究方面的数据,见数据文件“高校科研研究.sav”。

(1)绘制投入的具有高级职称的人数与立项课题数、获奖数之间的散点图,并分析它们之间的线性关系。

答:

由该简单3D散点图可以看出,具有高级职称的人数与立项课题数、获奖数之间的点大多数都分布在一条直线上,故可以认为三者之间存在线性关系。

 

(2)由于立项课题数和获奖数都会受到投入的具有高级职称的人数的影响,试分析立项课题数和获奖数的相关关系。

分析:

建立原假设为课题数和获奖数不相关,备择假设为课题数和获奖数相关。

从上表中可以看出,课题总数与获奖数的简单相关系数为0.661,说明两者之间存在正的强相关性。

其相关系数检验的概率p-值为0.000近似为0,因此说明当显著性水平α=0.05或0.01时,应拒绝原假设,即课题数和获奖数存在相关关系。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2