定性数据分析第五章课后答案.doc

上传人:wj 文档编号:4714860 上传时间:2023-05-07 格式:DOC 页数:6 大小:194.50KB
下载 相关 举报
定性数据分析第五章课后答案.doc_第1页
第1页 / 共6页
定性数据分析第五章课后答案.doc_第2页
第2页 / 共6页
定性数据分析第五章课后答案.doc_第3页
第3页 / 共6页
定性数据分析第五章课后答案.doc_第4页
第4页 / 共6页
定性数据分析第五章课后答案.doc_第5页
第5页 / 共6页
定性数据分析第五章课后答案.doc_第6页
第6页 / 共6页
亲,该文档总共6页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

定性数据分析第五章课后答案.doc

《定性数据分析第五章课后答案.doc》由会员分享,可在线阅读,更多相关《定性数据分析第五章课后答案.doc(6页珍藏版)》请在冰点文库上搜索。

定性数据分析第五章课后答案.doc

定性数据分析第五章课后作业

1、为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。

调查数据如下:

偏好饮料A

偏好饮料B

年青人

男性

37

26

女性

11

23

老年人

男性

30

43

女性

31

11

试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?

为什么?

解:

(1)数据压缩分析

首先将上表中不同年龄段的数据合并在一起压缩成二维2×2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异?

表1.1“性别×偏好饮料”列联表

偏好饮料A

偏好饮料B

合计

偏好A比例

偏好B比例

男性

67

69

136

49.26%

50.74%

女性

42

34

76

55.26%

44.74%

二维2×2列联表独立检验的似然比检验统计量的值为0.7032,值为,不应拒绝原假设,即认为“偏好类型”与“性别”无关。

(2)数据分层分析

其次,按年龄段分层,得到如下三维2×2×2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异?

表1.2三维2×2×2列联表

偏好饮料A

偏好饮料B

合计

偏好A比例

偏好B比例

年青人

男性

37

26

63

58.73%

41.27%

女性

11

23

34

32.35%

67.65%

老年人

男性

30

43

73

41.10%

58.90%

女性

31

11

42

73.81%

26.19%

在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A占58.73%,偏好饮料B占41.27%;女性中偏好饮料A占58.73%,偏好饮料B占41.27%,我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。

同理,在“老年人”年龄段,也有一定的差异。

(3)条件独立性检验

为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。

即由题意,可令表示年龄段,表示年青人,表示老年人;表示性别,表示男性,表示女性;表示偏好饮料的类型,表示偏好饮料,表示偏好饮料。

欲检验的原假设为:

给定后和条件独立。

按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量的值如下:

合计

37

26

63

11

23

34

合计

48

49

97

合计

30

43

73

31

11

42

合计

61

54

115

条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为

由于,所以条件独立性检验的似然比检验统计量的渐近分布的自由度为,也就是上面这2个四格表的渐近分布的自由度的和。

由于值很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。

(4)产生偏差的原因

a、在

(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性在对两种类型的饮料的偏好上是没有差异的。

但将数据以不同的年龄段分层后并分别分析发现男性和女性在对两种类型的饮料的偏好上是有一定差异的。

合起来看和分开来看的结果不同。

b、由此看来,年龄段在此次调查中属于混杂因素。

由于不同年龄段的人对饮料的选择也会有差异,例如现在的年青人偏好喝一些像可口可乐,美年达等这样的碳酸饮料,而老年人则偏好喝一些红茶,绿茶等这样的非碳酸饮料,在调查中,“老年人”年龄段共有115人,所占比例大,从而使整个结果就倾向于老年人的观点,即使得混杂因素“年龄段”起到一定的干扰作用,从而导致整个调查结果产生了偏差。

2、某工厂有三个车间。

车间主任分别为王、张和李。

过去的一年里,该工厂产品的质量情况总结如下:

车间主任

产品类别

产品质量情况

产品总数

合格产品数

不合格产品数

内销

2368

131

2499

外销

123

81

204

内销

293

3

296

外销

1247

255

1502

内销

307

12

319

外销

359

75

434

王主任将内销和外销产品合并在一起,然后计算各个车间的不合格率。

计算结果如下:

主任

产品质量情况

不合格率

合格产品数

不合格产品数

2491

212

7.84%

1540

258

14.35%

666

87

11.55%

王主任说,我负责的车间生产情况最好,其次是李主任负责的车间,最差的是张主任负责的车间。

这样的比较是不是有偏比较?

为什么?

解:

不是,有偏比较是指将数据压缩后合起来看与分层后分开来看得出的结果不一致时所产生的偏差,而此题只是将数据压缩起来后相互间比较,因此这样的比较不是有偏比较。

具体分析如下:

由题知,分析车间主任与产品的质量情况之间的关系,则本题是以产品类别为层,以车间主任为行,产品的质量情况为列进行相关分析。

(1)数据压缩分析

首先将上表中不同产品类别的数据合并在一起压缩成二维3×2列联表2.1,合起来看,分析车间主任与产品的质量情况两者之间的关系?

表2.1“车间主任×产品质量”列联表

主任

产品质量情况

不合格率

合格产品数

不合格产品数

2491

212

7.84%

1540

258

14.35%

666

87

11.55%

可计算出该表独立性检验的似然比检验统计量的值为48.612,值为。

应该拒绝原假设,即认为车间主任与产品的质量情况两者是有一定相关性的。

(2)数据分层分析

其次,按产品类别分层,得到如下三维2×3×2列联表2.2,分开来看,分析车间主任与产品的质量情况两者之间的关系?

表1.2三维2×2×2列联表

产品类别

车间主任

产品的质量情况

不合格率

合格产品数

不合格产品数

内销

2368

131

5.24%

293

3

1.01%

307

12

3.76%

外销

123

81

39.71%

1247

255

16.98%

359

75

17.28%

在上述数据中,分别对两个产品类别(即内销和外销)进行分析,在“内销”类别中,王姓主任车间的产品不合格率最高,即车间生产情况最差,张姓主任车间的不合格率最低,即车间生产情况最好;在“外销”类别中,王姓主任车间的产品不合格率最高,即车间生产情况最差,张姓和李姓主任车间生产情况差不多。

(3)条件独立性检验

为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。

即由题意,可令表示产品类别,表示内销,表示外销;表示车间主任,表示王姓主任,表示张姓主任,表示李姓主任;表示产品的质量情况,表示合格产品数,表示不合格产品数。

欲检验的原假设为:

给定后和条件独立。

按产品类别分层后得到的两张表格,以及它们的似然比检验统计量的值如下:

合计

2368

131

2499

293

3

296

307

12

319

合计

2968

146

3114

合计

123

81

204

1247

255

1502

359

75

434

合计

1729

411

2140

条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为

由于,所以条件独立性检验的似然比检验统计量的渐近分布的自由度为,也就是上面这2个表格的渐近分布的自由度的和。

由于值很小,所以认为条件独立性不成立,即在产品类别给定的条件下,车间主任与产品的质量情况两者是有一定相关性的。

(4)结论

(1)中,将不同产品类别的数据压缩在一起合起来后分析发现车间主任与产品的质量情况两者是有一定相关性的;在

(2)中,将数据以不同的产品类别分层后分析发现车间主任与产品的质量情况两者也是有一定相关性的。

即合起来看和分开来看的结果相同。

据我们所知,有偏比较是指将数据压缩后合起来看与分层后分开来看得出的结果不一致时所产生的偏差,而此题合起来看和分开来看的结果都是相同的。

因此此题若是分析车间主任与产品的质量情况两者之间的相关关系的话,则该题是无偏的,即不均有有偏性,无法进行有偏比较。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2