1、做生意105.65.785.2买证券及单位集资84.589.8买房或建房94.3支付孩子教育费63.497.7养老金42.3100.0合计17699.4缺失系统1.6177农村户口14.511.626.13449.375.457.282.6购买农业生产资料34.387.0710.197.1防以外事故22.969分析:从表格中,我们能够看见城镇户口和农村户口的储户的不同储蓄目的所占百分比数量,而从条形图上我们能够更直观的看见各种百分比的高低多少。取消拆分文件操作。(2)思路:该问题列联表的行变量为户口,列变量为未来收入状况,在列联表中输出各种百分比、期望频数、剩余、标准化剩余,显示各交叉分组下频
2、数分布柱形图,并利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析。 步骤:分析,描述分析,交叉表,行设为户口,列设为未来收入情况,点击确定,得到下表:案例处理摘要案例有效的N户口 * 未来收入情况246100.0%.0%户口* 未来收入情况 交叉制表未来收入情况增加基本不变减少计数4011621期望的计数40.3108.628.1177.0户口 中的 %22.6%65.5%11.9%未来收入情况 中的 %71.4%76.8%53.8%72.0%总数的 %16.3%47.2%8.5%163515.742.410.969.023.2%50.7%26.1%28.6%46.2%28.0
3、%6.5%14.2%7.3%561513956.0151.039.0246.022.8%61.4%15.9%卡方检验值df渐进 Sig. (双侧)Pearson 卡方8.117a.017似然比7.608.022线性和线性组合2.409.121有效案例中的 Na. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为 10.94。原假设是:城镇和农村储户对“未来收入状况的变化趋势”持相同的态度,由于卡方检验中,p=0.017四分位,继续,确定。如下图:得到结果如下:统计量存(取)款金额20岁以下百分位数25212.5050850.007537750.002035岁127500.001000.
4、005000.003550岁824925.0050岁以上332000.00分位数是变量在不同分位点上的取值。分位点在0100之间,四分位即是各年龄段的储户的存款金额在0,25%,50%,75%,100%各点的取值,从表中中可以清晰地看见各年龄段的差异。第十一题:思路:先选择出从1981年至2000年的数据,然后绘制教育支出和年人均可支配收入两者的散点图,观察散点图发现两变量之间呈非线性关系,再尝试选择二次、三次曲线、复合函数和幂函数,指数函数模型,利用曲线估计进行本质线性模型分析。其中,教育支出为被解释变量,年人均可支配收入为解释变量。数据,选择个案,基于时间或个案全距,从第4到第23个个案,
5、 绘制散点图:图形,旧对话框,散点/点状,简单分布,将Y变量设为教育支出,X变量设为年人均可支配收入。确定,得到如下图形:从上图中,可以看出,该图可能是二次,三次,指数,幂函数,复合函数的图像,故作曲线拟合。曲线拟合:分析,回归,曲线估计,按如下设置好对话框,点击确定,得如下图形:模型描述模型名称MOD_4因变量教育支出方程二次三次复合a幂a指数a自变量年人均可支配收入常数包含其值在图中标记为观测值的变量未指定用于在方程中输入项的容差.0001a. 该模型要求所有非缺失值为正数。个案处理摘要个案总数已排除的个案a9已预测的个案新创建的个案a. 从分析中排除任何变量中带有缺失值的个案。变量处理摘
6、要变量正值数11零的个数负值数缺失值数用户自定义缺失系统缺失模型汇总和参数估计值因变量:模型汇总参数估计值R 方Fdf1df2Sig.b1b2b3.963104.027.000116.057-.0539.784E-6.96462.555190.569-.1021.831E-5-4.370E-10复合.985611.31521.6591.000幂.946156.4361.633指数自变量为 年人均可支配收入。SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量。根据“模型汇总和参数估计值”表格,可以判断出各种曲线与散点图的拟合程度(匹配程度),比较方和的
7、值来看,复合函数和指数函数的拟合度最高。观察曲线图,可以清楚地看出,拟合程度最好的也是指数函数和复合函数,两者都已经重合为一条曲线了。第十二题: 思路:先将数据输入(变量视图定义变量,再用数据视图输入数据),根据所得数据进行KMeans聚类分析。 数据输入:(1)定义变量(2)输入数据:KMeans聚类分析:(1)指定聚类数目K(2)有系统默认K个初始聚类中心(3)根据距离最近原则进行分类(4)重新确定K个类中心(5)判断是否已满足中止聚类分析的条件分析,分类,K均值聚类,然后按如下操作分别点击迭代,保存,选项得到上面的三个会话框,按照会话框设置。完成上述操作后,确定,得到以下的图表:初始聚类
8、中心聚类数学65.0083.0067.00物理61.00100.0063.00化学72.0079.0049.00语文84.0041.00历史81.00英语50.0057.00迭代历史记录a迭代聚类中心内的更改14.51315.41117.474a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 39.724。最终聚类中心74.0080.5070.0067.7592.0071.0077.0064.0078.5051.5060.3369.0067.3371.7556.33ANOVA误差均方66.19435.4171.86
9、9.234426.06946.1259.237.015105.000113.333.926.446570.02874.6947.631175.27815.61111.228.009255.29239.2366.507.031F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。每个聚类中的案例数4.0002.0003.0009.000初始聚类中心表:第二类的各指数几乎都是最有的,第一类次之,第三类最不理想。迭代历史记录:展示3个类中心每次迭代时的偏移情况。最终聚类中心:展示第二类几
10、乎各指数依然都是最有的,第一类次之,第三类还是最不理想的。ANOVA:展示物理,语文,历史,英语的指数的均值在3类中的差异是显著的,而数学与化学并不显著。每个聚类中的案例数:展示三个类的成员情况。第五题:(1)思路及步骤: 定义一个分组变量为g roup1 ( 即在变量视图 中/名称列中的第一行输入g roup1,并设置小数的值为0) , 该变量表示因子A 的3 个不同水平, 其值1, 2, 3 分别表示A1 , A2 ,A3 . 定义一个变量为data ( 即在变量视图中名称列中的第二行输入data) , 定义另一个分组变量为g roup2 ( 即在变量视图中名称列中的第三行输入g roup2, 并设置小数的值为0) ,该变量表示因子B 的四个不同水平, 其值1, 2, 3, 4 分别表示B1 , B2 , B3 , B4 . 按照行的顺序( 即先输入A1 行的数据, 然后输入A2 行的数据, 依此类推) 依次输入SPSS ( 在数据变量中的数据列中输入表中的24 个数据。
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2