数据统计与分析课后参考答案.docx-资源下载

数据统计与分析课后参考答案.docx

1、数据统计与分析课后参考答案附录2：数据统计与分析SPSS应用教程习题答案本“习题答案”也适用于统计分析应用教程SPSS，LISREL & SAS实例精选书中的习题。习题1答案1(1)答：有错误, 犯了水平互相嵌套的错误; 如“每周去 2次或 2次以上”把第1组的编码嵌套进去了。又比如：“每周去 3次或 3次以上”又把第2组的编码嵌套进去了。 (2)答：正确的编码方案如下： 1=每周去1次 2=每周去2次 3=每周去3次 4=每周去4次或4次以上 2答：该编码问题严重。 (1)80岁不能是缺失值, 缺失值可用00岁。 (2)职业不编码不行, 而必须编码为：1=工人 2=农民等等。 (3)职

2、业变量用全称(Occupation)超出8个字符。 (4)而且栏目位置占1列即可。 (5)颜色的第1个字母作为变量值会引起重复,应该用单词的前3-4个字符。 (6)Color 变量的栏目位置10被嵌套在“4-14”之内,这是严重的错误。更正后的编码方案见图1-19：VariableCode栏目位置Age00岁是Missing Value1-2Occupation职业应编码为：1=工人 2=农民3=教师 4=干部5=医生 6=其它职业变量要缩写，如Occu，然后用变量标签注解Occu为“职业”3Color颜色用前三个字母作为变量值,比如： blu=蓝色(blue)bla=黑色(black)4图

3、1-19 纠错后的编码方案3(1) 答：错。错在变量名超过8个字符。 (2) 答：错。错在变量名的首字符是数字领头。 (3) 答：错。错在变量名中间冒出一个空格。 (4) 答：对，#号可以作为变量名。但不提倡。习题2答案1答：合并后的大目标数据文件“BIGab.sav” 中仍然有30个Cases、但每个Cases各有(50+30)=80个变量，即v1、v2、v3、v4v50、x1、x2、x3、x4x30。2答：合并后的大目标数据文件“BIGab2.sav”中仍然是50个变量，即v1、v2、v3、v4v50。但是Cases数目增加为(20+30)=50个Cases。3答：请读者照着书中的方法去使

4、用对话框。排序的命令如下：SORT CASES BY xh (D)sex. LIST xh sex score。4答：对话框的解法请按照书中介绍的去举一反三。命令解法如下：GET File=9293.sav.SELECT IF (location=2 AND sex=2). SORT Cases BY xh (D) sex.LIST xh sex score.5答：对话框的解法请按照书中介绍的去举一反三。命令解法如下：SAMPLE 0.20.LIST xh.6答：对话框的解法请按照书中介绍的去举一反三。命令解法如下： N 50. LIST xh.7答：对话框的解法请按照书中介绍的去举一反三。命

5、令解法如下： WEIGHT BY location.8答案略。9答案略。习题3答案1(1) 答：DATA LIST 命令本身应有终止符“.”。 (2) 答：在DATA LIST 命令中，File所调用的数据文件名必须用一对左撇号括住。正确的写法是：DATA LIST File=Myf1.Dat/v1 1-2 v2 3. (3) 答：栏目位置不够变量数目整除。正确的写法是：DATA LIST/v1 To v12 10-33. (4) 答：数值标签要用一对左撇号括住,而且要加上命令的终止符“.”。正确的写法是： VALUE LABEL Vf 1 工人 2 农民 3 教师 4 医生. (5)

6、答：命令后面应有终止符“.”。正确的写法是： VALUE LABEL Vf 1 工人 2 农民 3 教师 4 医生 5 干部. (6) 答：定义缺失值时只能根据变量的栏目位置赋予一个唯一的值。正确的写法是：MISSING VALUE v1 To v100 (-1). 或是：MISSING VALUE v1 To v100 (0). (7) 答：变量标签是唯一的;一个变量应该对应唯一的一个标签。正确的写法是： VARIABLE LABEL Score1 第一次考试的成绩 /Score2 第二次考试的成绩/Score3 第三次考试的成绩2(1)答：此文件的前5个cases见表1-4。表1-

7、4 文件的前5个casesCASESIdageHeight101231.65202221.70306211.75408211.76512211.68(2)答：学号为01的学生有最多的Score1(高考得分)。 (3)答：学号为12的学生家住农村。 (4)答：在Vm变量中,有4个Cases 的数据有效。 3答：至少有8处错误。 (1)A应改为(A) (2)Haircolor超过8个字符,应改为Haircolr (3)Weigh应改为WEIGHT (4)VALUE LABEL中的 Eyecolr应改为 Eyecolor (5)VALUE LABEL中的 Haircolor应改为8个字符以内,如Ha

8、ircolr (6)MISSING VALUE 中的age(-1)应去掉,因为Data List 中尚未定义age。(7)正确的MISSING VALUE语句应改为：MISSING VALUE Height Weight(000). (8)List Variable语句应改为：List Variable=Height To Eyecolor.4答：“05 F Ll”中的Ll为字母(型),犯了类型不匹配的错误。正确的写法是：05 F 005答：总体(population)是样本测量值的集合。对于感兴趣的整个组中，每个成员都对应一个这样的值。具体说来是某省的人口(总体)或工业产值(总体)中的某个

9、指标测量值的集合，而不是那些人或物的集合。样本(sample)虽然也是一些值的集合，但不代表整个感兴趣的组。比如，一个样本可以是某省中某县的人口的集合或某县工业产值的集合。6答：由于总体与样本的不同，由此派生出参数与统计量的差别。(1)参数：参数(parameters)是总体的测量值，用希腊字母表示。(2)统计量：统计量(statistics)则是样本的测量值，用一般的英文字母表示(见本章内容)。7答：(1)均值：用以描述数据(值)分布的中心位置。定距以上的数据计算均值才有意义。比如，对于一个总体(某省)的人口，其平均值被称为总体均值(populationg mean)，记为。对于某样本(某县

10、)的人口，其平均人口则被称为样本均值(sample average)。总体均值和样本均值的计算公式是相同的。但是其他测量值不一定相同。此外，还有方差、标准偏差等概念。(2)标准偏差：也被称为标准差。表示某人的身高或收入等测量值偏离均值多少。比如甲班语文成绩的标准偏差为20，乙班语文成绩的标准偏差为30，那么，乙班语文成绩比甲班的语文成绩变化(波动)大。(3)方差：标准偏差的平方则是方差。方差表示数据内部的变异性。8答：统计学上，一般都是假设被统计的样本是来自正态分布(Normal distribution)的总体。正态分布是关于总体的一种理论分布，是有严格的数学定义的。从正态分布的总体中抽取的

11、样本一般是服从正态分布的。正态分布的重要特征如下：(1)均值：均值是观察值的平均值(Mean value)。区间(Interval)型以上变量值的均值才有意义。 (2)众数：众数是最经常发生的频次。众数是对定类变量(Nominal)而言的。比如某班有男生25名、女生15名，那么，该班男生的人数是众数。(3)中位数：中位数是对次序(Ordinal)变量值而言的。中位数是比取值的一半大、同时又比取值的一半小的值。或者说，中位数的一半落在均值之上，同时，另一半则落在均值之下。中位数的取值方法有两种:单数情况下的观察值的中位数；双数情况下的观察值的中位数。(4)正态分布的均值、众数、中位数重叠：将正态

12、分布的图形沿着中心位置对半折叠时，均值、众数、中位数三者重叠在一起。9.有哪些经验规则？答：如果数据来自服从正态分布的总体，可用下面的经验规则很快地概括出我们的数据。经验规则如下： 68%的观察值是落在离均值一个标准偏差(1)的范围内。 95%的观察值是落在离均值两个标准偏差(2)的范围内。 99%的观察值是落在离均值三个标准偏差(3)的范围内。习题4答案下面是RECODE习题。1答：命令格式如下：RECODE v1，v2 (原值1=新值1)(原值2=新值2). (原值m=新值m)例如：RECODE age (0 thru 30=1)(30 thru 60=2)(60 thru 90=3)(9

13、0 thru hi=4). 2答：命令中允许使用的关键词如下： LO(或LOWEST)、HI(或HIGHEST)、THRU、 MISSING、ELSE、SYSMIS3.(1)答：语法正确，但结果不太理想。因为结果只剩下0和2 两组。 (2)答：语法正确，但结果不太理想。原因同上。 4.答：用“/”分隔。例如：RECODE Gage (1，2=1)(3，4=2)/sex(1=1)(2=0). 5.答：对。因为将变量A由原来的4组合并为两组。 6.(1)答：对。这是端点连接法。 (2)答：对。符合语法规则，但是会漏掉各组的端点值。 (3)答：对。符合语法规则。但结果只剩下100卡以内的一组数据。7

14、.RECODE age(MISSING=00).MISSING VALUE age(-1). (进一步将系统缺失值“-1”改为用户缺失值) 8.答：RECODE INCOME (LO THRU 5000=1)(5000 THRU HI=2).9.答：RECODE sex(F=B)(M=A). 10.答：有以下4个变换命令。RECODE sex (1=1)(2=0).COMPUTE Gage=age.COUNT FM=F(1)M(2).IF(sex=2 AND location=2) GROUP=2.下面是Compute习题11.答：COMPUTE score=S1/S2*100.COMPUTE

15、 X=ABS(-7.8).12.答：见第4章。13.(1)答：Y1=7.8 (2)答：Y2=-16 (3)答：Y3=25 (4)答：Y4=-1 (5)答：A=10 (6)答：B=0.79 (7)答：C=2.2 (8)答：D=2 (9)答：E=2.72 (10)答：F=0下面是COUNT习题 14.(1) 答：真 (2) 答：真(3) 答：假15.(1) 答：真 (2) 答：真习题5答案下面是FREQUENCIES 习题答案。 1(1) 答：众数(2) 答：众数(3) 答：均值(4) 答：均值 (5) 答：众数 (6) 答：均值(7) 答：均值 2(1) 答：真 (2) 答：真 (3) 答：假

16、(4) 答：假 (5) 答：真 3. 答：已填补的频次见图5-24中打#标记的数据。图5-24 择偶标准的频率表 4. (1)答：画出的book变量的频率表见图5-25。图5-25 book变量的频率表 (2)答：用直方图为宜。因为直方图可画出空缺的位置，便于一目了然地看出缺的是何种数据。 (3)答：直方图与条形图的主要区别见表5-1。表5-1 直方图与条形图的主要区别直方图条形图适用于区间 (定距)以上的数据，如：收入、年龄、工资、体重等。适用于标称 (定类)型以上的数据。如：性别、肤色、种族、国别等。以图形的面积为频次以图形的条形为频次变量的某种水平空缺时仍留空位置变量的某种水平

17、空缺时，不留空位下面是Descriptive习题答案。5.(1)答：Compute pct=income1/income2*100. (2)答：COMPUTE sqrt1=SQRT(x*2).或 COMPUTE sqrt1=SQRT(x*x).(3)答：计算变量s的命令为：COMPUTE s=SQRT(a*a+b*b)*4. (4)答：COMPUTE max1=MAX(a，b，c). 6.(1)答：结果为13(2)答：结果为19 (3)答：结果为15 (4)答：结果为11 (5)答：结果为137.(1)答：结果为2 (2)答：结果为9 (3)答：结果为3 (4)答：结果为8 (5)答：结果为4

18、8.(1)答：其范围为：30岁以下的归入第1组，“30.5”岁以上的归入第2组。 (2)答：其范围为：20岁以下的归入第1组，“20.5”岁以上的归入第2组。 (3)答：其范围为：8-10岁的归入第1组，18-20岁的归入第2组，其余的忽略不计。 (4)答：其范围为：18岁以下的归入第1组，18岁-30岁的归入第2组，“30.5”岁45岁的归入第3组，“45.5”岁以上的归入第4组。 (5)答：其范围为：45岁以下的归入第1组，“45.5”岁以上的归入第2组。 (6)答：其范围为：40岁45岁的归入第1组，“45.5”岁以上的不分组。9.(1)答：无意义 (2)答：有意义 (3)答：排序后有意

19、义10.(1)答：无意义 (2)答：有意义 (3)答：无意义11.(1)标称测量 (2)比例测量(3)次序测量(4)比例测量 (5)区间测量 (6)标称测量 12.答：中位数=(355+1)/2=178，即第178个个案为中位数。 13.(1)答：能。因为服从正态分布，其均值、中位数、众数均为0.09(2)答：能。因为服从正态分布，其均值、中位数、众数均为0.09(3)答：能。因为其方差等于标准偏差0.12的平方 (4)答：不能。因为服从正态分布，其峰态系数为0 14.答：需要。因为标准值的均值应是0。 15.答：其含义是女性占了80。 16.(1)答：假 (2)答：有可能，但不一定。 17.

20、答：如果我是该公司的经理，我将用均值统计量描述高支付水平。因为该数据的离散性显著，只有采用均值统计量，才能描述高支付水平。答：如果我是该公司的雇员，我将用中位数(或众数)描述低支付水平。因为该数据虽然离散性显著，但绝大多数人集中在低收入范畴，采用中位数(或众数)统计量，能描述实际低支付水平。 18.答：填补后的结果见表5-3。表5-3 填补空缺值后的表格Mean 1.70Variance 0.1236Std Dev 1.06Maximum 4Minimum 0Mode 2Median 2Range 4 19.答：填补后的结果见表5-5。表5-5 填补标准值Z后的表格StudentStud

21、entStandard Score(Z)175 -0.52850.5380 020.解：Mean=60 Range=60 Minimum=30 Maximum=90 均不变。只是N=99+1=100(人)。21.解答：略。习题6答案 1.答：有4名学生月伙食费漏答(0元，被当作极小值)。有19名学生月伙食费在500元以上，这些是极大值。学生月伙食费100元的有5人，120元的有2人。其余照此分析。其中，&表示只列出部分的值。2.答：占半数学生的家中，兄弟姐妹有12人，中位数偏向均值之下。极大值1人，界外值1人。3.答:因为Sig值0.25值0.05，所以没有理由拒绝原假设。说明方差相同。方

22、差相同时数据可以不转换。又因为斜率=-2.286，查表6-1知，该数据可以不转换。 4.答案见书。习题7答案 1.答：该程序运行之后，输出见图7-20。图7-20 Crosstabs表格(已填充)2.(1) 答：正确。因为不带选项是允许的。 (2) 答：错误。因为 WITH关键词在此是非法的，可改为： CROSSTABS happy BY marital BY sex. 3.答：没有单个的测量值 (即统计量)能概括所有可能的结合测量，如标称测量的统计量LAMBDA虽好，却也不能用于次序数据的测量中。余者类推。 4.(1)答：见正文的图7-21，如果性别与地区是互为独立的两个变量，则观察图7

23、-21各单元中的第2行频次。例如(1，1)单元中的行百分比为50.0%，(2，1)单元中的行百分比为60.0%等。(2)答：这个交叉表的自由度为：DF=(行-1)*(列-1)=(2-1)*(2-1)=1(3)答：独立性卡方检验的卡方值为0.166，详见图7-22。图7-22 皮尔逊独立性卡方检验5.(1)答：编码方案见表7-2(供参考)：表7-2 编码方案变量名变量标签变量类型栏位数据(变量值)编码Id个案号数值型1-2Sex性别数值型31=男2=女Age年龄数值型4-8比例测量(Ratio Measure)Dq家庭住址数值型91=城市2=农村Height学生身高数值型10-12比例测量(R

24、atio Measure)Weight学生体重数值型13-16比例测量(Ratio Measure)score1高考得分数值型17-19比例测量(Ratio Measure)score2高考满分数值型20-22比例测量(Ratio Measure)Mz民族数值型231=汉族 2=回族 3=朝鲜族4=满族 5=苗族 6=藏族 (2)答：根据(1)的编码方案，可建立以下的程序7.5。程序7.5： DATA LIST/ID 1-2 sex 3 age 4-8 dq 9 height 10-12(1) weight 13-16(1)score1 17-19 score2 20-22 mz 23. VA

25、RIABLE LABEL id 个案号 /sex 性别 /age 年龄 /dq 家庭住址 /height 学生身高 /weight 学生体重/score1 高考得分 /score2 高考满分/mz 民族. VALUE LABEL sex 1 男 2 女 /dq 1 城市 2 农村 /mz 1 汉族 2 回族 3 朝鲜 4 满族 5 苗族 6 藏族. MISSING VALUE sex (9)age (00000) mz (0) WEIGHT(0000) height score1 score2(000).BEGIN DATA.01120.0011691200502640102121.50217

26、11200497640103220.7511661100777900204119.2511761300770900205222.0011600980525640306119.5021731115527640107222.2511580905492600408220.2511601035494600509123.0021751355608720110119.75117012802654006END DATA. SAVE OUTFile=Score.sav. 6.答： COMPUTE score=score1/score2*100.7.答：以下是所要求的命令。程序7.6：COMPUTE gscor

27、e=score. RECODE gscore(LO THRU 70=1)(70 THRU 75=2) (75 THRU 80=3)(80 THRU 85=4)(85 THRU HI=5). CROSSTABS age BY score/FORMAT=NOTABLE /STATISTICS=CHISQ CORR.CROSSTABS age BY gscore/CELL=ROW Column Total Count /STATISTICS=CHISQ LAMBDA.评价(略)。习题8答案下面是MEANS过程的习题答案。1.答：其命令为MEANS score BY vf BY location/MI

28、SSING=DEPENDENT. 2.(1)答：表达式有误。正确的写法是：IF (vf EQ 1 OR vf=2 OR vf=6) GROUP=1. (2)答：表达式有误。正确的写法是：IF (location=1 AND sex=1) GROUP=1. (3)答：表达式有误。正确的写法是：IF (age GE 20 AND age LE 23) GROUP=1. 3.(1)答：Means (2)答：Crosstabs (3)答：Frequences (4)答：Means (5)答：Crosstabs4.答：这个高考平均成绩的概括表如图8-24所示。图8-24 按城乡考生分组，并进一步按父亲

29、职业分组的高考平均成绩下面是T-Test习题答案。 5.(1)答：jobcat8的为第1组，jobcat8的为第2组。 (2)答：jobcat=1的为第1组，jobcat=3的为第2组。 (3)答：jobcat=1的为第1组，jobcat=2的为第2组。 6.(1)答：错误。错在缺少命令的终止符.。正确的写法是： T-TEST GROUP=sex/VARIABLES=score/PAIRS=income1 income2. (2)答：错误。错在子命令PAIRS与GROUPS的位置颠倒了。正确的写法是： T-TEST GROUP=sex/VARIABLES=score/PAIRS=income1 income2. (3)答：错误。子命令PAIRS后面少了一个变量INCOME2，正确的写法是： T-TEST PAIRS=income1 income2. (4)答：正确。 (5)答：错误。错在括号内多了一个值。正确的写法是： T-TEST GROUPS=jobcat(1，2)/var=Score. 或T-TEST GROUPS=jobcat(1，3)/var=Score. 或T-TEST GROUPS=j

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？