数据分析期末试题及答案.docx-资源下载

数据分析期末试题及答案.docx

1、数据分析期末试题及答案数据分析期末试题及答案一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)的数据，试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分)解：1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系上图是以人均GDP(x1)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。尝试多种模型后采用曲线估计，得出表示

2、地区平均寿命(y)与人均GDP(x1)的对数有线性关系上图是以成人识字率(x2)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间基本呈正线性关系。上图是以疫苗接种率(x3)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。上图是以疫苗接种率(x3)的三次方（）为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间呈正线性关系所以可以采用如下的线性回归方法分析。2.线性回归先用强行进入的方式建立如下线性方程设Y=0+1*（Xi1）+2*Xi2+3*+i i=1.224其中i（i=1.222）相互独立，都服从正态分布N（0，2）且假设其等于方差模型汇总b

3、模型RR 方调整 R 方标准估计的误差1.952a.907.8913.332a. 预测变量: (常量), x3, x1, x2。b. 因变量: y上表是线性回归模型下的拟合优度结果，由上表知，R值为0.952，大于0.8，表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)一起表示出来。建立总体性的假设检验提出假设检验H0：1=2=3=0，H1,：其中至少有一个非零得如下方差分析表Anovab模型平方和df均方FSig.1回归1937.7043645.90158.190.000a残差199.7961811.

4、100总计2137.50021a. 预测变量: (常量), x3, x1, x2。b. 因变量: y上表是方差分析SAS输出结果。由表知，采用的是F分布，F=58.190，对应的检验概率P值是0.000.，小于显著性水平0.05，拒绝原假设，表示总体性假设检验通过了，平均寿命(y)与人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。做独立性的假设检验得出参数估计表系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)33.0143.13710.523.000x1.072.015.4044.865.000x2.169.040.4314

5、.245.000x3.178.049.3393.654.002a. 因变量: y上表是有关参数估计的信息，同样是上面的检验假设，H0：1=2=3=0： H1:1、2、3不全为零由表知，1=33.014，1=0.072，2=0.169，3=0.178，以1=0.072为例，表示当成人识字率(x2)，一岁儿童疫苗接种率(x3)不变时，人均GDP(x1)每增加一个单位，平均寿命(y)就增加0.072个单位。基于以上结果得出年平均寿命(y)与人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间有显著性的线性关系有回归方程Y=33.014+0.072*X1+ 0.169*X2+ 0.1

6、78*X31、2、3对应得p值分别为0.000，0.000,0.002，对应的概率p值都小于0.05,表示它们的单独性的假设检验没通过,即该模型是最优的，所以不用采用逐步回归的方式分析。对原始数据进行残差分析未标准化的残差RES_1-7.53964-3.57019-3.42221-2.89835-2.30455-2.17263-2.05862-1.37142-1.17048-.43890-.17260-.03190.946551.428961.612521.615902.101393.018563.025713.498084.607375.29645以X1为横轴，RES_1为纵轴画出如下散点图

7、由上图可以看出，该残差图中各点分布近似长条矩形，所以模型拟合较好，即该线性回归模型比较合理。同理可以得出RES_1与X2、X3的散点图，由上图可以看出，该残差图中各点分布近似长条矩形，所以模型拟合较好，即该线性回归模型比较合理。由上图可以看出，该残差图中各点分布近似长条矩形，所以模型拟合较好，即该线性回归模型比较合理。误差项的正态性检验数据（RES_1）标准化残差ZRES_1由图可以看出，散点图近似的在一条直线附近，则可以认为数据来自正太分布总体二、诊断发现运营不良的金融企业是审计核查的一项重要功能，审计核查的分类失败会导致灾难性的后果。下表列出了66家公司的部分运营财务比率，其中33家在2年

8、后破产Y=0，另外33家在同期保持偿付能力(Y=1)。请用变量X1(未分配利润/总资产)，X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic回归模型，并根据模型给出实际意义的分析，数据见财务比率.sav(25分)。解：整体性的假设检验提出假设性检验H0：回归系数=0（i=1，2,3），H1:不都为0建立logistic模型：=分类表a,b已观测已预测Y百分比校正01步骤 0Y0033.01033100.0总计百分比50.0a. 模型中包括常量。b. 切割值为 .500上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵，其中33家在2年后破产（y=0），但

9、模型均预测为错误，正确率为0%，另外33家在同期保持偿付能力(Y=1)，正确率为100%，所以模型总的预测正确率为50%。不在方程中的变量得分dfSig.步骤 0变量X131.6211.000X219.3581.000X32.8091.094总统计量37.6233.000由上表得知，如果变量X1(未分配利润/总资产)，X2(税前利润/总资产)进入方程，概率p值都为0.000，小于显著性水平0.05，本应该是拒绝原假设，X1，X2是可以进入方程的。而X3(销售额/总资产)进入方程，概率p值为0.094，大于显著性水平0.05，本应该是接受原假设，X3(销售额/总资产)是不能进入方程的，但这里的解

10、释变量的筛选策略为enter，是强行进入方程的。用强行全部进入模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方15.791a.727.969a. 因为参数估计的更改范围小于 .001，所以估计在迭代次数 13 处终止。-2倍的对数似然函数值越小表示模型的拟合优度越高，这里的值是5.791，比较小，表示模型的拟合优度还可以，而且Nagelkerke R 方为0.969，与0相比还是比较大的，所以拟合度比较高分类表a已观测已预测Y百分比校正01步骤 1Y032197.0113297.0总计百分比97.0a. 切割值为 .500上表显示了logistic分析的初

11、始阶段方程中只有常数项时的错判矩阵，其中33家在2年后破产（y=0），但模型预测出了32家，正确率为97%，另外33家在同期保持偿付能力(Y=1)，模型预测出了32家，正确率为97%，所以模型总的预测正确率为97%，较之前的有很大的提高。方程中的变量BS.E,WalsdfSig.Exp (B)步骤 1aX1.336.3091.1781.2781.399X2.180.1072.8521.0911.198X35.1605.200.9851.321174.235常量-10.33411.147.8591.354.000a. 在步骤 1 中输入的变量: X1, X2, X3.上表给出了方程中变量的系数。

12、由表得出以为例，表示控制变量X2(税前利润/总资产)和X3(销售额/总资产)不变，X1(未分配利润/总资产)每增加一个单位，增加0.336分单位模型方程：=Logistic回归方程：PY=0=由表得知，X1到X3对应的概率p值都大于0.05，接受原假设，表示X1到X3对Y都没有显著性影响。所以用下述方法改进。用向前步进（wald）模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方115.803a.682.91029.472b.711.949a. 因为参数估计的更改范围小于 .001，所以估计在迭代次数 9 处终止。b. 因为参数估计的更改范围小于 .001，

13、所以估计在迭代次数 10 处终止。-2倍的对数似然函数值越小表示模型的拟合优度越高，这里的值是9.472，比之前的5.791要大，表示拟合优度降低，表示用向前的方法并没有比进入的方法好分类表a已观测已预测Y百分比校正01步骤 1Y031293.9113297.0总计百分比95.5步骤 2Y032197.0113297.0总计百分比97.0a. 切割值为 .500而且从上表知道总的预测百分比为97%，没有变化，所以这一步较之前的强行进入的方法没什么优化，也就是没什么必要用向前的方法做。所以有最优的一个Logistic回归模型为模型方程：=Logistic回归方程：PY=0=三、为了研究几个省市的

14、科技创新力问题，现在取了2005年8个省得15个科技指标数据，试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因素的影响。数据见8个省市的科技指标数据.sav，其中各个指标的解释如下：(25分)X1：每百万人科技活动人员数(人/万人)X2：从事科技活动人员中科学技术、工程师所占比重（%）X3 ：R&D人员占科技胡哦哦的呢人员的比重（%）X4：大专以上学历人口数占总人口数的比例（%）X5 ：地方财政科技拨款占地方财政支出的比重（%）X6：R&D经费占GDP比重（%）X7：R&D经费中挤出研究所占比例（%）X8：人均（元人）X9：高科技产品出口额占商品出口额的比重（%）X10：规模以

15、上产业增加值中高技术产业份额（%）X11 ：万名科技人员被国际三大检索工具收录的论文数（篇/百万人）X12 ：每百万人口发明专利的授权量（件/百万人）X13：发明专利申请授权量占专利申请授权量的比重（%）X14 ：万人技术市场成交合同金额（万元/万人）X15 ：财政性教育经费支出占GDP比重（%）解：解释的总方差成份初始特征值a提取平方和载入合计方差的 %累积 %合计方差的 %累积 %原始11.427E899.63699.6361.427E899.63699.6362517846.046.36299.99733265.489.002100.0004201.762.000100.0005121.

16、0668.453E-5100.000634.0782.379E-5100.00078.1795.711E-6100.00083.101E-112.165E-17100.00091.520E-121.061E-18100.000101.033E-147.210E-21100.000118.393E-165.860E-22100.00012-6.843E-17-4.778E-23100.00013-7.700E-15-5.377E-21100.00014-1.363E-13-9.514E-20100.00015-6.538E-12-4.565E-18100.000重新标度11.427E899.63

17、699.6368.38855.92155.9212517846.046.36299.99733265.489.002100.0004201.762.000100.0005121.0668.453E-5100.000634.0782.379E-5100.00078.1795.711E-6100.00083.101E-112.165E-17100.00091.520E-121.061E-18100.000101.033E-147.210E-21100.000118.393E-165.860E-22100.00012-6.843E-17-4.778E-23100.00013-7.700E-15-5.

18、377E-21100.00014-1.363E-13-9.514E-20100.00015-6.538E-12-4.565E-18100.000提取方法：主成份分析。a. 分析协方差矩阵时，初始特征值在整个原始解和重标刻度解中均相同。上表是用协方差矩阵分析法分析出的总方差的结果，由上表知道，初始特征值间所占的比例相差很大,取值范围差异大，所以不大适合做协方差的矩阵分析。所以应该采用相关矩阵的方法分析如下：相关矩阵aX1X2X3X4X5X6X7X8X9X10X11X12X13X14X15相关X11.000.857.893.943.373.988.988.756.172.520.914.989.8

19、83.984.806X2.8571.000.863.882.573.841.844.776.209.586.839.912.722.905.769X3.893.8631.000.830.191.930.922.525.210.613.720.888.834.907.629X4.943.882.8301.000.441.911.948.874.318.563.976.971.903.934.883X5.373.573.191.4411.000.278.300.713.245.397.545.440.081.392.592X6.988.841.930.911.2781.000.985.665.12

20、5.480.867.969.881.983.759X7.988.844.922.948.300.9851.000.737.275.590.895.978.905.972.767X8.756.776.525.874.713.665.7371.000.458.574.916.818.626.752.802X9.172.209.210.318.245.125.275.4581.000.811.256.213.141.160.069X10.520.586.613.563.397.480.590.574.8111.000.454.548.432.498.312X11.914.839.720.976.54

21、5.867.895.916.256.4541.000.943.830.905.925X12.989.912.888.971.440.969.978.818.213.548.9431.000.876.988.834X13.883.722.834.903.081.881.905.626.141.432.830.8761.000.838.781X14.984.905.907.934.392.983.972.752.160.498.905.988.8381.000.778X15.806.769.629.883.592.759.767.802.069.312.925.834.781.7781.000a.

22、此矩阵不是正定矩阵。上表是15个变量间的相关系数矩阵，可以看出相关系数都比较高，比如X1（每百万人科技活动人员数(人/万人)）和X2（从事科技活动人员中科学技术、工程师所占比重（%）的相关系数0.859，接近1，呈较强的的线性相关性，所以能够从中提取公因子，适合做因子分析解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %111.13674.23774.23711.13674.23774.23721.70611.37185.6081.70611.37185.60831.2478.31693.9241.2478.31693.9244.5083.38697.310

23、5.2051.36598.6756.125.83299.5077.074.493100.00083.059E-162.040E-15100.00091.532E-161.021E-15100.000101.188E-167.923E-16100.000114.537E-173.025E-16100.00012-2.301E-16-1.534E-15100.00013-3.671E-16-2.448E-15100.00014-4.891E-16-3.261E-15100.00015-8.277E-16-5.518E-15100.000提取方法：主成份分析。由表可知，前两个因子的特征根值很高，累积

24、方差贡献率为分别为85.608（=80%即可），对解释原有变量的贡献很大，第3个以后的因子特征根值都很小，对解释原有变量的贡献很校，可以忽略，因此提取第一和第二个因子比较合适,基本能表达所有信息。有特征值=11.136 =1.706成份矩阵a成份12X1.973-.158X2.919.036X3.883-.161X4.985-.004X5.482.497X6.947-.242X7.972-.108X8.849.340X9.300.834X10.611.637X11.955-.001X12.992-.091X13.876-.282X14.968-.156X15.859-.092提取方法 :主成份

25、。a. 已提取了 2 个成份。上表是因子载荷矩阵A以X1,X5,X10为例，有因子分析模型 =0.973-0.158+；=0.482+0.497+；=0.611+0.637+；因为，和，变量在，上都有较大的相差不大的载荷，几乎都受它们的共同影响，因子间的差异性没有表示出来，不方便进行因子命名，所以要进行正交旋转（拉大因子间的差异性）成份转换矩阵成份121.926.3792-.379.926提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。对A做方差最大的正交旋转，得到正交旋转矩阵旋转成份矩阵a成份12X1.960.223X2.837.381X3.878.185X4.913.370X5.258.642X6.968.135X7.940.268X8.657.636

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？