数据统计与分析课后参考答案.docx

上传人:b****1 文档编号:1638250 上传时间:2023-05-01 格式:DOCX 页数:35 大小:211.55KB
下载 相关 举报
数据统计与分析课后参考答案.docx_第1页
第1页 / 共35页
数据统计与分析课后参考答案.docx_第2页
第2页 / 共35页
数据统计与分析课后参考答案.docx_第3页
第3页 / 共35页
数据统计与分析课后参考答案.docx_第4页
第4页 / 共35页
数据统计与分析课后参考答案.docx_第5页
第5页 / 共35页
数据统计与分析课后参考答案.docx_第6页
第6页 / 共35页
数据统计与分析课后参考答案.docx_第7页
第7页 / 共35页
数据统计与分析课后参考答案.docx_第8页
第8页 / 共35页
数据统计与分析课后参考答案.docx_第9页
第9页 / 共35页
数据统计与分析课后参考答案.docx_第10页
第10页 / 共35页
数据统计与分析课后参考答案.docx_第11页
第11页 / 共35页
数据统计与分析课后参考答案.docx_第12页
第12页 / 共35页
数据统计与分析课后参考答案.docx_第13页
第13页 / 共35页
数据统计与分析课后参考答案.docx_第14页
第14页 / 共35页
数据统计与分析课后参考答案.docx_第15页
第15页 / 共35页
数据统计与分析课后参考答案.docx_第16页
第16页 / 共35页
数据统计与分析课后参考答案.docx_第17页
第17页 / 共35页
数据统计与分析课后参考答案.docx_第18页
第18页 / 共35页
数据统计与分析课后参考答案.docx_第19页
第19页 / 共35页
数据统计与分析课后参考答案.docx_第20页
第20页 / 共35页
亲,该文档总共35页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

数据统计与分析课后参考答案.docx

《数据统计与分析课后参考答案.docx》由会员分享,可在线阅读,更多相关《数据统计与分析课后参考答案.docx(35页珍藏版)》请在冰点文库上搜索。

数据统计与分析课后参考答案.docx

数据统计与分析课后参考答案

附录2:

《数据统计与分析——SPSS应用教程》习题答案

本“习题答案”也适用于《统计分析应用教程—SPSS,LISREL&SAS实例精选》书中的习题。

习题1答案

1.

(1)答:

有错误,犯了水平互相嵌套的错误;如“每周去2次或2次以上”把第1组的编码嵌套进去了。

又比如:

“每周去3次或3次以上”又把第2组的编码嵌套进去了。

(2)答:

正确的编码方案如下:

1=每周去1次

2=每周去2次

3=每周去3次

4=每周去4次或4次以上

2.答:

该编码问题严重。

(1)80岁不能是缺失值,缺失值可用00岁。

(2)职业不编码不行,而必须编码为:

1=工人2=农民等等。

(3)职业变量用全称(Occupation)超出8个字符。

(4)而且栏目位置占1列即可。

(5)颜色的第1个字母作为变量值会引起重复,应该用单词的前3-4个字符。

(6)Color变量的栏目位置10被嵌套在“4-14”之内,这是严重的错误。

更正后的编码方案见图1-19:

Variable

Code

栏目位置

Age

00岁是MissingValue

1-2

Occupation

①职业应编码为:

1=工人2=农民

3=教师4=干部

5=医生6=其它

②职业变量要缩写,如Occu,然后用变量标签注解Occu为“职业”

3

Color

颜色用前三个字母作为变量值,比如:

blu=蓝色(blue)

bla=黑色(black)

4

图1-19纠错后的编码方案

3.

(1)答:

错。

错在变量名超过8个字符。

(2)答:

错。

错在变量名的首字符是数字领头。

(3)答:

错。

错在变量名中间冒出一个空格。

(4)答:

对,#号可以作为变量名。

但不提倡。

习题2答案

1.答:

合并后的大目标数据文件“BIGab.sav”中仍然有30个Cases、但每个Cases各有(50+30)=80个变量,即v1、v2、v3、v4……v50、x1、x2、x3、x4……x30。

2.答:

合并后的大目标数据文件“BIGab2.sav”中仍然是50个变量,即v1、v2、v3、v4……v50。

但是Cases数目增加为(20+30)=50个Cases。

3.答:

请读者照着书中的方法去使用对话框。

排序的命令如下:

SORTCASESBYxh(D)sex.

LISTxhsexscore。

4.答:

对话框的解法请按照书中介绍的去举一反三。

命令解法如下:

GETFile=’9293.sav’.

SELECTIF(location=2ANDsex=2).

SORTCasesBYxh(D)sex.

LISTxhsexscore.

5.答:

对话框的解法请按照书中介绍的去举一反三。

命令解法如下:

SAMPLE0.20.

LISTxh.

6.答:

对话框的解法请按照书中介绍的去举一反三。

命令解法如下:

N50.

LISTxh.

7.答:

对话框的解法请按照书中介绍的去举一反三。

命令解法如下:

WEIGHTBYlocation.

8.答案略。

9.答案略。

 

习题3答案

1.

(1)答:

DATALIST命令本身应有终止符“.”。

(2)答:

在DATALIST命令中,File所调用的数据文件名必须用一对左撇号括住。

正确的写法是:

DATALISTFile='Myf1.Dat'/v11-2v23.

(3)答:

栏目位置不够变量数目整除。

正确的写法是:

DATALIST/v1Tov1210-33.

(4)答:

数值标签要用一对左撇号括住,而且要加上命令的终止符“.”。

正确的写法是:

VALUELABELVf1'工人'2'农民'3'教师'4'医生'.

(5)答:

命令后面应有终止符“.”。

正确的写法是:

VALUELABELVf1'工人'2'农民'3'教师'4'医生'

5'干部'.

(6)答:

定义缺失值时只能根据变量的栏目位置赋予一个唯一的值。

正确的写法是:

MISSINGVALUEv1Tov100(-1).

或是:

MISSINGVALUEv1Tov100(0).

(7)答:

变量标签是唯一的;一个变量应该对应唯一的一个标签。

正确的写法是:

VARIABLELABELScore1'第一次考试的成绩'

/Score2'第二次考试的成绩'

/Score3'第三次考试的成绩

2.

(1)答:

此文件的前5个cases见表1-4。

表1-4文件的前5个cases

CASES

Id

age

Height

1

01

23

1.65

2

02

22

1.70

3

06

21

1.75

4

08

21

1.76

5

12

21

1.68

(2)答:

学号为01的学生有最多的Score1(高考得分)。

(3)答:

学号为12的学生家住农村。

(4)答:

在Vm变量中,有4个Cases的数据有效。

3.答:

至少有8处错误。

(1)A应改为(A)

(2)Haircolor超过8个字符,应改为Haircolr

(3)Weigh应改为WEIGHT

(4)VALUELABEL中的Eyecolr应改为Eyecolor

(5)VALUELABEL中的Haircolor应改为8个字符以内,如Haircolr

(6)MISSINGVALUE中的age(-1)应去掉,因为DataList中尚未定义age。

(7)正确的MISSINGVALUE语句应改为:

MISSINGVALUEHeightWeight(000).

(8)ListVariable语句应改为:

ListVariable=HeightToEyecolor.

4.答:

“05FLl”中的Ll为字母(型),犯了类型不匹配的错误。

正确的写法是:

05F00

5.答:

总体(population)是样本测量值的集合。

对于感兴趣的整个组中,每个成员都对应一个这样的值。

具体说来是某省的人口(总体)或工业产值(总体)中的某个指标测量值的集合,而不是那些人或物的集合。

样本(sample)虽然也是一些值的集合,但不代表整个感兴趣的组。

比如,一个样本可以是某省中某县的人口的集合或某县工业产值的集合。

6.答:

由于总体与样本的不同,由此派生出参数与统计量的差别。

(1)参数:

参数(parameters)是总体的测量值,用希腊字母表示。

(2)统计量:

统计量(statistics)则是样本的测量值,用一般的英文字母表示(见本章内容)。

7.答:

(1)均值:

用以描述数据(值)分布的中心位置。

定距以上的数据计算均值才有意义。

比如,对于一个总体(某省)的人口,其平均值被称为总体均值(populationgmean),记为μ。

对于某样本(某县)的人口,其平均人口则被称为样本均值(sampleaverage)。

总体均值和样本均值的计算公式是相同的。

但是其他测量值不一定相同。

此外,还有方差、标准偏差等概念。

(2)标准偏差:

也被称为标准差。

表示某人的身高或收入等测量值偏离均值多少。

比如甲班语文成绩的标准偏差为20,乙班语文成绩的标准偏差为30,那么,乙班语文成绩比甲班的语文成绩变化(波动)大。

(3)方差:

标准偏差的平方则是方差。

方差表示数据内部的变异性。

8.答:

统计学上,一般都是假设被统计的样本是来自正态分布(Normaldistribution)的总体。

正态分布是关于总体的一种理论分布,是有严格的数学定义的。

从正态分布的总体中抽取的样本一般是服从正态分布的。

正态分布的重要特征如下:

(1)均值:

均值是观察值的平均值(Meanvalue)。

区间(Interval)型以上变量值的均值才有意义。

(2)众数:

众数是最经常发生的频次。

众数是对定类变量(Nominal)而言的。

比如某班有男生25名、女生15名,那么,该班男生的人数是众数。

(3)中位数:

中位数是对次序(Ordinal)变量值而言的。

中位数是比取值的一半大、同时又比取值的一半小的值。

或者说,中位数的一半落在均值之上,同时,另一半则落在均值之下。

中位数的取值方法有两种:

单数情况下的观察值的中位数;双数情况下的观察值的中位数。

(4)正态分布的均值、众数、中位数重叠:

将正态分布的图形沿着中心位置对半折叠时,均值、众数、中位数三者重叠在一起。

9.有哪些经验规则?

答:

如果数据来自服从正态分布的总体,可用下面的经验规则很快地概括出我们的数据。

经验规则如下:

·68%的观察值是落在离均值一个标准偏差(1σ)的范围内。

·95%的观察值是落在离均值两个标准偏差(2σ)的范围内。

·99%的观察值是落在离均值三个标准偏差(3σ)的范围内。

 

习题4答案

下面是RECODE习题。

1.答:

命令格式如下:

RECODEv1,v2(原值1=新值1)(原值2=新值2)......(原值m=新值m)

例如:

RECODEage(0thru30=1)(30thru60=2)(60thru90=3)(90thruhi=4).

2.答:

命令中允许使用的关键词如下:

LO(或LOWEST)、HI(或HIGHEST)、THRU、MISSING、ELSE、SYSMIS

3.

(1)答:

语法正确,但结果不太理想。

因为结果只剩下0和2两组。

(2)答:

语法正确,但结果不太理想。

原因同上。

4.答:

用“/”分隔。

例如:

RECODEGage(1,2=1)(3,4=2)/sex(1=1)(2=0).

5.答:

对。

因为将变量A由原来的4组合并为两组。

6.

(1)答:

对。

这是端点连接法。

(2)答:

对。

符合语法规则,但是会漏掉各组的端点值。

(3)答:

对。

符合语法规则。

但结果只剩下100卡以内的一组数据。

7.RECODEage(MISSING=00).

MISSINGVALUEage(-1).(进一步将系统缺失值“-1”改为用户缺失值)

8.答:

RECODEINCOME(LOTHRU5000=1)(5000THRUHI=2).

9.答:

RECODEsex(’F’=’B’)(’M’=’A’).

10.答:

有以下4个变换命令。

RECODEsex(1=1)(2=0).

COMPUTEGage=age.

COUNTFM=F

(1)M

(2).

IF(sex=2ANDlocation=2)GROUP=2.

下面是Compute习题

11.答:

COMPUTEscore=S1/S2*100.

COMPUTEX=ABS(-7.8).

12.答:

见第4章。

13.

(1)答:

Y1=7.8

(2)答:

Y2=-16

(3)答:

Y3=25

(4)答:

Y4=-1

(5)答:

A=10

(6)答:

B=0.79

(7)答:

C=2.2

(8)答:

D=2

(9)答:

E=2.72

(10)答:

F=0

下面是COUNT习题

14.

(1)答:

(2)答:

(3)答:

15.

(1)答:

(2)答:

 

习题5答案

下面是FREQUENCIES习题答案。

1.

(1)答:

众数

(2)答:

众数

(3)答:

均值

(4)答:

均值

(5)答:

众数

(6)答:

均值

(7)答:

均值

2.

(1)答:

(2)答:

(3)答:

(4)答:

(5)答:

3.答:

已填补的频次见图5-24中打#标记的数据。

图5-24择偶标准的频率表

4.

(1)答:

画出的book变量的频率表见图5-25。

图5-25book变量的频率表

(2)答:

用直方图为宜。

因为直方图可画出空缺的位置,便于一目了然地看出缺的是何种数据。

(3)答:

直方图与条形图的主要区别见表5-1。

表5-1直方图与条形图的主要区别

直方图

条形图

①适用于区间(定距)以上的数据,如:

收入、年龄、工资、体重等。

适用于标称(定类)型以上的数据。

如:

性别、肤色、种族、国别等。

②以图形的面积为频次

以图形的条形为频次

③变量的某种水平空缺时仍留空位置

变量的某种水平空缺时,不留空位

下面是Descriptive习题答案。

5.

(1)答:

Computepct=income1/income2*100.

(2)答:

COMPUTEsqrt1=SQRT(x**2).

或COMPUTEsqrt1=SQRT(x*x).

(3)答:

计算变量s的命令为:

COMPUTEs=SQRT(a*a+b*b)*4.

(4)答:

COMPUTEmax1=MAX(a,b,c).

6.

(1)答:

结果为13

(2)答:

结果为19

(3)答:

结果为15

(4)答:

结果为11

(5)答:

结果为13

7.

(1)答:

结果为2

(2)答:

结果为9

(3)答:

结果为3

(4)答:

结果为8

(5)答:

结果为4

8.

(1)答:

其范围为:

30岁以下的归入第1组,“30.5”岁以上的归入第2组。

(2)答:

其范围为:

20岁以下的归入第1组,“20.5”岁以上的归入第2组。

(3)答:

其范围为:

8-10岁的归入第1组,18-20岁的归入第2组,其余的忽略不计。

(4)答:

其范围为:

18岁以下的归入第1组,18岁-30岁的归入第2组,“30.5”岁~45岁的归入第3组,“45.5”岁以上的归入第4组。

(5)答:

其范围为:

45岁以下的归入第1组,“45.5”岁以上的归入第2组。

(6)答:

其范围为:

40岁~45岁的归入第1组,“45.5”岁以上的不分组。

9.

(1)答:

无意义

(2)答:

有意义

(3)答:

排序后有意义

10.

(1)答:

无意义

(2)答:

有意义

(3)答:

无意义

11.

(1)标称测量

(2)比例测量

(3)次序测量

(4)比例测量

(5)区间测量

(6)标称测量

12.答:

中位数=(355+1)/2=178,即第178个个案为中位数。

13.

(1)答:

能。

因为服从正态分布,其均值、中位数、众数均为0.09

(2)答:

能。

因为服从正态分布,其均值、中位数、众数均为0.09

(3)答:

能。

因为其方差等于标准偏差0.12的平方

(4)答:

不能。

因为服从正态分布,其峰态系数为0

14.答:

需要。

因为标准值的均值应是0。

15.答:

其含义是女性占了80%。

16.

(1)答:

(2)答:

有可能,但不一定。

17.答:

如果我是该公司的经理,我将用均值统计量描述高支付水平。

因为该数据的离散性显著,只有采用均值统计量,才能描述高支付水平。

答:

如果我是该公司的雇员,我将用中位数(或众数)描述低支付水平。

因为该数据虽然离散性显著,但绝大多数人集中在低收入范畴,采用中位数(或众数)统计量,能描述实际低支付水平。

18.答:

填补后的结果见表5-3。

表5-3填补空缺值后的表格

Mean1.70

Variance0.1236

StdDev1.06

Maximum4

Minimum0

Mode2

Median2

Range4

19.答:

填补后的结果见表5-5。

表5-5填补标准值Z后的表格

Student

Student

StandardScore(Z)

1

75

-0.5

2

85

0.5

3

80

0

20.解:

Mean=60Range=60Minimum=30Maximum=90均不变。

只是N=99+1=100(人)。

21.解答:

略。

 

习题6答案

1.答:

有4名学生月伙食费漏答(0元,被当作极小值)。

有19名学生月伙食费在500元以上,这些是极大值。

学生月伙食费100元的有5人,120元的有2人。

其余照此分析。

其中,&表示只列出部分的值。

2.答:

占半数学生的家中,兄弟姐妹有1~2人,中位数偏向均值之下。

极大值1人,界外值1人。

3.答:

因为Sig值0.25>α值0.05,所以没有理由拒绝原假设。

说明方差相同。

方差相同时数据可以不转换。

又因为斜率=-2.286,查表6-1知,该数据可以不转换。

4.答案见书。

 

习题7答案

1.答:

该程序运行之后,输出见图7-20。

图7-20Crosstabs表格(已填充)

2.

(1)答:

正确。

因为不带选项是允许的。

(2)答:

错误。

因为WITH关键词在此是非法的,可改为:

CROSSTABShappyBYmaritalBYsex.

3.答:

没有单个的测量值(即统计量)能概括所有可能的结合测量,如标称测量的统计量LAMBDA虽好,却也不能用于次序数据的测量中。

余者类推。

4.

(1)答:

见正文的图7-21,如果性别与地区是互为独立的两个变量,则观察图7-21各单元中的第2行频次。

例如(1,1)单元中的行百分比为50.0%,(2,1)单元中的行百分比为60.0%等。

(2)答:

这个交叉表的自由度为:

DF=(行-1)*(列-1)=(2-1)*(2-1)=1

(3)答:

独立性卡方检验的卡方值为0.166,详见图7-22。

图7-22皮尔逊独立性卡方检验

5.

(1)答:

编码方案见表7-2(供参考):

表7-2编码方案

变量名

变量标签

变量类型

栏位

数据(变量值)编码

Id

个案号

数值型

1-2

Sex

性别

数值型

3

1=男

2=女

Age

年龄

数值型

4-8

比例测量(RatioMeasure)

Dq

家庭住址

数值型

9

1=城市

2=农村

Height

学生身高

数值型

10-12

比例测量(RatioMeasure)

Weight

学生体重

数值型

13-16

比例测量(RatioMeasure)

score1

高考得分

数值型

17-19

比例测量(RatioMeasure)

score2

高考满分

数值型

20-22

比例测量(RatioMeasure)

Mz

民族

数值型

23

1=汉族2=回族3=朝鲜族

4=满族5=苗族6=藏族

(2)答:

根据

(1)的编码方案,可建立以下的程序7.5。

程序7.5:

DATALIST/ID1-2sex3age4-8dq9height10-12

(1)

weight13-16

(1)score117-19score220-22mz23.

VARIABLELABELid'个案号'/sex'性别'/age'年龄'

/dq'家庭住址'/height'学生身高'

/weight'学生体重'/score1'高考得分'

/score2'高考满分'/mz'民族'.

VALUELABELsex1'男'2'女'

/dq1'城市'2'农村'

/mz1'汉族'2'回族'3'朝鲜'

4'满族'5'苗族'6'藏族'.

MISSINGVALUEsex(9)age(00000)mz(0)WEIGHT(0000)

heightscore1score2(000).

BEGINDATA.

01120.00116912005026401

02121.50217112004976401

03220.75116611007779002

04119.25117613007709002

05222.00116009805256403

06119.50217311155276401

07222.25115809054926004

08220.25116010354946005

09123.00217513556087201

10119.75117012802654006

ENDDATA.

SAVEOUTFile='Score.sav'.

6.答:

COMPUTEscore=score1/score2*100.

7.答:

以下是所要求的命令。

程序7.6:

COMPUTEgscore=score.

RECODEgscore(LOTHRU70=1)(70THRU75=2)

(75THRU80=3)(80THRU85=4)(85THRUHI=5).

CROSSTABSageBYscore/FORMAT=NOTABLE

/STATISTICS=CHISQCORR.

CROSSTABSageBYgscore/CELL=ROWColumnTotalCount

/STATISTICS=CHISQLAMBDA.

评价(略)。

 

习题8答案

下面是MEANS过程的习题答案。

1.答:

其命令为MEANSscoreBYvfBYlocation/MISSING=DEPENDENT.

2.

(1)答:

表达式有误。

正确的写法是:

IF(vfEQ1ORvf=2ORvf=6)GROUP=1.

(2)答:

表达式有误。

正确的写法是:

IF(location=1ANDsex=1)GROUP=1.

(3)答:

表达式有误。

正确的写法是:

IF(ageGE20ANDageLE23)GROUP=1.

3.

(1)答:

Means

(2)答:

Crosstabs

(3)答:

Frequences

(4)答:

Means

(5)答:

Crosstabs

4.答:

这个高考平均成绩的概括表如图8-24所示。

图8-24按城乡考生分组,并进一步按父亲职业分组的高考平均成绩

下面是T-Test习题答案。

5.

(1)答:

jobcat≥8的为第1组,jobcat<8的为第2组。

(2)答:

jobcat=1的为第1组,jobcat=3的为第2组。

(3)答:

jobcat=1的为第1组,jobcat=2的为第2组。

6.

(1)答:

错误。

错在缺少命令的终止符"."。

正确的写法是:

T-TESTGROUP=sex/VARIABLES=score/PAIRS=income1income2.

(2)答:

错误。

错在子命令PAIRS与GROUPS的位置颠倒了。

正确的写法是:

T-TESTGROUP=sex/VARIABLES=score/PAIRS=income1income2.

(3)答:

错误。

子命令PAIRS后面少了一个变量INCOME2,正确的写法是:

T-TESTPAIRS=income1income2.

(4)答:

正确。

(5)答:

错误。

错在括号内多了一个值。

正确的写法是:

T-TESTGROUPS=jobcat(1,2)/var=Score.

或T-TESTGROUPS=jobcat(1,3)/var=Score.

或T-TESTGROUPS=j

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2