数据分析期末试题及答案.docx

资源描述

数据分析期末试题及答案.docx

《数据分析期末试题及答案.docx》由会员分享，可在线阅读，更多相关《数据分析期末试题及答案.docx（27页珍藏版）》请在冰点文库上搜索。

数据分析期末试题及答案.docx

数据分析期末试题及答案

一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命（y）、按购买力计算的人均GDP（x1）、成人识字率（x2），一岁儿童疫苗接种率（x3）的数据，试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。

（25分）

解：

1.通过分别绘制地区平均寿命（y）、按购买力计算的人均GDP（x1）、成人识字率（x2），一岁儿童疫苗接种率（x3）之间散点图初步分析他们之间的关系

上图是以人均GDP（x1）为横轴，地区平均寿命（y）为纵轴的散点图，由图可知，他们之间没有呈线性关系。

尝试多种模型后采用曲线估计，得出

表示地区平均寿命（y）与人均GDP（x1）的对数有线性关系

上图是以成人识字率（x2）为横轴，地区平均寿命（y）为纵轴的散点图，由图可知，他们之间基本呈正线性关系。

上图是以疫苗接种率（x3）为横轴，地区平均寿命（y）为纵轴的散点图，由图可知，他们之间没有呈线性关系

。

上图是以疫苗接种率（x3）的三次方（

）为横轴，地区平均寿命（y）为纵轴的散点图，由图可知，他们之间呈正线性关系

所以可以采用如下的线性回归方法分析。

2.线性回归

先用强行进入的方式建立如下线性方程

设Y=β0+β1*（Xi1）+β2*Xi2+β3*

+εii=1.2……24

其中εi（i=1.2……22）相互独立，都服从正态分布N（0，σ^2）且假设其等于方差

模型汇总b

模型

R方

调整R方

标准估计的误差

.952a

.907

.891

3.332

a.预测变量:

（常量）,x3,x1,x2。

b.因变量:

上表是线性回归模型下的拟合优度结果，由上表知，R值为0.952，大于0.8，表示两变量间有较强的线性关系。

且表示平均寿命（y）的95.2%的信息能由人均GDP（x1）、成人识字率（x2），一岁儿童疫苗接种率（x3）一起表示出来。

建立总体性的假设检验

提出假设检验H0：

β1=β2=β3=0，H1,：

其中至少有一个非零

得如下方差分析表

Anovab

模型

平方和

均方

Sig.

回归

1937.704

645.901

58.190

.000a

残差

199.796

11.100

总计

2137.500

a.预测变量:

（常量）,x3,x1,x2。

b.因变量:

上表是方差分析SAS输出结果。

由表知，采用的是F分布，F=58.190，对应的检验概率P值是0.000.，小于显著性水平0.05，拒绝原假设，表示总体性假设检验通过了，平均寿命（y）与人均GDP（x1）、成人识字率（x2），一岁儿童疫苗接种率（x3）之间有高度显著的的线性回归关系。

做独立性的假设检验得出参数估计表

系数a

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

33.014

3.137

10.523

.000

.072

.015

.404

4.865

.000

.169

.040

.431

4.245

.000

.178

.049

.339

3.654

.002

a.因变量:

上表是有关参数估计的信息，同样是上面的检验假设，H0：

β1=β2=β3=0：

H1:

β1、β2、β3不全为零

由表知，

β1=33.014，β1=0.072，β2=0.169，β3=0.178，以β1=0.072为例，表示当成人识字率（x2），一岁儿童疫苗接种率（x3）不变时，，人均GDP（x1）每增加一个单位，平均寿命（y）就增加0.072个单位。

基于以上结果得出年平均寿命（y）与人均GDP（x1）、成人识字率（x2），一岁儿童疫苗接种率（x3）之间有显著性的线性关系有回归方程

Y=33.014+0.072*X1+0.169*X2+0.178*X3

β1、β2、β3对应得p值分别为0.000，0.000,0.002，对应的概率p值都小于0.05,表示它们的单独性的假设检验没通过,即该模型是最优的，所以不用采用逐步回归的方式分析。

对原始数据进行残差分析

未标准化的残差RES_1

-7.53964

-3.57019

-3.42221

-2.89835

-2.30455

-2.17263

-2.05862

-1.37142

-1.17048

-.43890

-.17260

-.03190

.94655

1.42896

1.61252

1.61590

2.10139

3.01856

3.02571

3.49808

4.60737

5.29645

以X1为横轴，RES_1为纵轴画出如下散点图

由上图可以看出，该残差图中各点分布近似长条矩形，所以模型拟合较好，即该线性回归模型比较合理。

同理可以得出RES_1与X2、X3的散点图，

由上图可以看出，该残差图中各点分布近似长条矩形，所以模型拟合较好，即该线性回归模型比较合理。

误差项的正态性检验

数据（RES_1）标准化残差ZRES_1

由图可以看出，散点图近似的在一条直线附近，则可以认为数据来自正太分布总体

二、诊断发现运营不良的金融企业是审计核查的一项重要功能，审计核查的分类失败会导致灾难性的后果。

下表列出了66家公司的部分运营财务比率，其中33家在2年后破产Y=0，另外33家在同期保持偿付能力（Y=1）。

请用变量X1（未分配利润/总资产），X2（税前利润/总资产）和X3（销售额/总资产）拟合一个Logistic回归模型，并根据模型给出实际意义的分析，数据见财务比率.sav（25分）。

解：

整体性的假设检验

提出假设性检验

H0：

回归系数

=0（i=1，2,3），H1:

不都为0

建立logistic模型：

分类表a,b

已观测

已预测

百分比校正

步骤0

100.0

总计百分比

50.0

a.模型中包括常量。

b.切割值为.500

上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵，其中33家在2年后破产（y=0），但模型均预测为错误，正确率为0%，另外33家在同期保持偿付能力（Y=1），正确率为100%，所以模型总的预测正确率为50%。

不在方程中的变量

得分

Sig.

步骤0

变量

31.621

.000

19.358

.000

2.809

.094

总统计量

37.623

.000

由上表得知，如果变量X1（未分配利润/总资产），X2（税前利润/总资产）进入方程，概率p值都为0.000，小于显著性水平0.05，本应该是拒绝原假设，X1，X2是可以进入方程的。

而X3（销售额/总资产）进入方程，概率p值为0.094，大于显著性水平0.05，本应该是接受原假设，X3（销售额/总资产）是不能进入方程的，但这里的解释变量的筛选策略为enter，是强行进入方程的。

用强行全部进入

模型汇总

步骤

-2对数似然值

Cox&SnellR方

NagelkerkeR方

5.791a

.727

.969

a.因为参数估计的更改范围小于.001，所以估计在迭代次数13处终止。

-2倍的对数似然函数值越小表示模型的拟合优度越高，这里的值是5.791，比较小，表示模型的拟合优度还可以，而且NagelkerkeR方为0.969，与0相比还是比较大的，所以拟合度比较高

分类表a

已观测

已预测

百分比校正

步骤1

97.0

总计百分比

97.0

a.切割值为.500

上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵，其中33家在2年后破产（y=0），但模型预测出了32家，正确率为97%，另外33家在同期保持偿付能力（Y=1），模型预测出了32家，正确率为97%，所以模型总的预测正确率为97%，较之前的有很大的提高。

方程中的变量

S.E,

Wals

Sig.

Exp（B）

步骤1a

.336

.309

1.178

.278

1.399

.180

.107

2.852

.091

1.198

5.160

5.200

.985

.321

174.235

常量

-10.334

11.147

.859

.354

.000

a.在步骤1中输入的变量:

X1,X2,X3.

上表给出了方程中变量的系数。

由表得出

以

为例，表示控制变量X2（税前利润/总资产）和X3（销售额/总资产）不变，X1（未分配利润/总资产）每增加一个单位，

增加0.336分单位

模型方程：

Logistic回归方程：

P{Y=0}=

由表得知，X1到X3对应的概率p值都大于0.05，接受原假设，表示X1到X3对Y都没有显著性影响。

所以用下述方法改进。

用向前步进（wald）

模型汇总

步骤

-2对数似然值

Cox&SnellR方

NagelkerkeR方

15.803a

.682

.910

9.472b

.711

.949

a.因为参数估计的更改范围小于.001，所以估计在迭代次数9处终止。

b.因为参数估计的更改范围小于.001，所以估计在迭代次数10处终止。

-2倍的对数似然函数值越小表示模型的拟合优度越高，这里的值是9.472，比之前的5.791要大，表示拟合优度降低，表示用向前的方法并没有比进入的方法好

分类表a

已观测

已预测

百分比校正

步骤1

93.9

97.0

总计百分比

95.5

步骤2

97.0

总计百分比

97.0

a.切割值为.500

而且从上表知道总的预测百分比为97%，没有变化，所以这一步较之前的强行进入的方法没什么优化，也就是没什么必要用向前的方法做。

所以有最优的一个Logistic回归模型为

模型方程：

Logistic回归方程：

P{Y=0}=

三、为了研究几个省市的科技创新力问题，现在取了2005年8个省得15个科技指标数据，试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因素的影响。

数据见8个省市的科技指标数据.sav，其中各个指标的解释如下：

（25分）

X1：

每百万人科技活动人员数（人/万人）

X2：

从事科技活动人员中科学技术、工程师所占比重（%）

X3：

R&D人员占科技胡哦哦的呢人员的比重（%）

X4：

大专以上学历人口数占总人口数的比例（%）

X5：

地方财政科技拨款占地方财政支出的比重（%）

X6：

R&D经费占GDP比重（%）

X7：

R&D经费中挤出研究所占比例（%）

X8：

人均ＧＤＰ（元／人）

X9：

高科技产品出口额占商品出口额的比重（%）

X10：

规模以上产业增加值中高技术产业份额（%）

X11：

万名科技人员被国际三大检索工具收录的论文数（篇/百万人）

X12：

每百万人口发明专利的授权量（件/百万人）

X13：

发明专利申请授权量占专利申请授权量的比重（%）

X14：

万人技术市场成交合同金额（万元/万人）

X15：

财政性教育经费支出占GDP比重（%）

解：

解释的总方差

成份

初始特征值a

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

原始

1.427E8

99.636

1.427E8

99.636

517846.046

.362

99.997

3265.489

.002

100.000

201.762

.000

100.000

121.066

8.453E-5

100.000

34.078

2.379E-5

100.000

8.179

5.711E-6

100.000

3.101E-11

2.165E-17

100.000

1.520E-12

1.061E-18

100.000

1.033E-14

7.210E-21

100.000

8.393E-16

5.860E-22

100.000

-6.843E-17

-4.778E-23

100.000

-7.700E-15

-5.377E-21

100.000

-1.363E-13

-9.514E-20

100.000

-6.538E-12

-4.565E-18

100.000

重新标度

1.427E8

99.636

8.388

55.921

517846.046

.362

99.997

3265.489

.002

100.000

201.762

.000

100.000

121.066

8.453E-5

100.000

34.078

2.379E-5

100.000

8.179

5.711E-6

100.000

3.101E-11

2.165E-17

100.000

1.520E-12

1.061E-18

100.000

1.033E-14

7.210E-21

100.000

8.393E-16

5.860E-22

100.000

-6.843E-17

-4.778E-23

100.000

-7.700E-15

-5.377E-21

100.000

-1.363E-13

-9.514E-20

100.000

-6.538E-12

-4.565E-18

100.000

提取方法：

主成份分析。

a.分析协方差矩阵时，初始特征值在整个原始解和重标刻度解中均相同。

上表是用协方差矩阵分析法分析出的总方差的结果，由上表知道，初始特征值间所占的比例相差很大,取值范围差异大，所以不大适合做协方差的矩阵分析。

所以应该采用相关矩阵的方法分析如下：