第三讲t检验.doc
《第三讲t检验.doc》由会员分享,可在线阅读,更多相关《第三讲t检验.doc(11页珍藏版)》请在冰点文库上搜索。
![第三讲t检验.doc](https://file1.bingdoc.com/fileroot1/2023-5/2/532d48d9-7b20-4111-af86-c195ebc59f40/532d48d9-7b20-4111-af86-c195ebc59f401.gif)
复习相关理论知识
1.正态分布:
如果连续型随机变量X的概率密度为
其中μ,σ为常数,且σ>0,我们称X服从正态分布,简记作X~N(μ,σ2).
2.标准正态分布:
当=0,=1时,X的概率密度为
我们称X服从标准正态分布,简记作
3.正态分布的标准化:
设,令,这也被称作变量的u变换。
但由于往往未知,所以用样本标准差s来替代,此时,或者有时甚至μ也未知,只能以来替代,此时,这两种变量变换都叫做t变换。
4.t分布的规律:
变量经u变换得到的函数曲线叫做标准正态分布,或称为u分布、布尔分布。
变量经t变换所得的函数曲线叫做t 分布。
t分布具有以下规律:
1)当自由度足够大时,t分布逐淅趋进于u分布
2)用定积分方法,可以求出在t取值在到之间时,t分布曲线下所夹的面积为:
=记为
…………………………(式1)
t取值在到之间时,t分布曲线下所夹的面积为:
=记为
…………………………(式2)
式1和式2可统一表示为:
………………………………………(式3)
3)同样的方法可以求得(即和)时,曲线下的面积分别为
所以,当时,曲线下的面积为
记为:
………………………………………(式4)
同理,当时,曲线下的面积为
记为:
…………………………………………………(式5)
上述式4和式5统一表示为
……………………………………………………………(式6)
式3的用途:
将代入式1得:
∴
∴
上式的意思是:
变量值x落在范围内的可能性是1-α,我们把这个范围叫做频数的1-α分布范围,当υ足够大时,这个公式可以用于正态分布资料的正常值范围制订。
5.抽样误差和标准误
在一个总体均数为的总体中作k次放回抽样,可以得到k个样本均数、、、。
。
。
,这时会发现,每个样本与总体均数间可能会出现差异,每个样本均数之间也会存在差异,这种差异是由于抽样造成的,所以也称为抽样误差。
为描述样本均数间的差异,我们可模仿标准差的计算方法进行计算,即:
我们把样本均数之间的标准差,改称为标准误,以示与标准差的区别。
可见,标准误是一个描述抽样误差大小的指标。
但实际工作中为节省财力、人力、物力,不可能取得多个,因此也就无法用这种方法计算出标准误。
换一个思路来说,抽样误差与变异程度成正比,而与样本含量成反比,经过模拟得出了计算标准误的经验公式:
6.中心极限原理:
如果x~N(μ,σ),~N(0,1)
则~N(μ,),~N(0,1)
当σ未知时,未知,常用代替,则~t分布
将代入式3得:
∴
∴
上式的意思是:
在多次抽样中,总体均数μ落在范围内的可能性是1-α,我们把这个范围叫总体均数的1-α可信区间,1-α叫做可信度。
7.样本均数与总体均数的比较——假设检验的原理:
以样本均数与总体均数的比较为例,其步骤和原理如下:
设:
H0:
以此为理论基础,将变量值进行t变换:
依据t分布的规律(式6),即当时,p≤α,也就是说,H0如果成立的话,得出这样一个大的t值的可能性很小。
反过来说,如果得出一个大的t值,那么HO成立的可能性就很小了,因此选择它的反面H1:
总结假设检验的步骤:
1.设H0:
H1:
检验水准α=0.05或α=0.01
2.计算统计量:
3.判断p值:
时p≤α
时p>α
4.下结论:
统计结论当p≤α时,称为差异有显著性,拒绝H0接受H1
当p>α时,称为差异无显著性,不拒绝H0
专业结论结合统计结论与专业知识下一个专业结论。
8.t检验的应用条件和计算公式
样本均数与总体均数的比较
配对设计的比较
完全随机设计的两样本均数的t检验
方差齐时,
方差不齐时,
假设检验注意事项:
1.统计推断的结论不能绝对化
Ⅰ类错误、Ⅱ类错误及两者间的关系
2.α到底是应该取0.05还是0.01?
3.何时用单侧检验?
何时用双侧检验?
4.差别有显著性?
还是差别显著?
5.做出的结论是接受H0,对吗?
6.科研设计中有些小错误无所谓,可以用统计学方法来弥补。
这种说法对吗?
例1.已知正常成年男子脉搏数为72次/分,现某山区测定了20名成年男子的脉搏数,平均值为74次/分,标准差为6.16次/分,问该地男子脉搏数是否比正常成年男子快?
80
68
80
68
80
68
80
68
80
68
80
68
80
68
80
68
80
68
80
68
例2.不同饲料组大白鼠肝中维生素A含量(IU/g)
大白鼠对号
正常饲料组
维生素E缺乏组
差值d
1
3550
2450
1100
2
2000
2400
-400
3
3000
1800
1200
4
3950
3200
750
5
3800
3250
550
6
3750
2700
1050
7
3450
2500
950
8
3050
1750
1300
问,不同饲料的大白鼠肝中维生素A含量有无差别?
例3.用克矽平才化吸入治疗矽肺患者7人,得如下资料,能否认为治疗会引起患者血清粘蛋白的变化?
患者号
治疗前
治疗后
差值d
1
65
34
31
2
73
36
37
3
73
37
36
4
30
26
4
5
73
43
30
6
56
37
19
7
73
50
23
例4.25例糖尿病患者随机分成两组,甲组单纯用药物治疗,乙组采用药物治疗合并饮食疗法,二个月后再次测空腹血糖,问二组患者血糖值是否相同?
表25名糖尿病患者两种疗法治疗后二个月血糖值(mmol/L)
甲组
乙组
8.4
5.4
10.5
6.4
12.0
6.4
12.0
7.5
13.9
7.6
15.3
8.1
16.7
11.6
18.0
12.0
18.7
13.4
20.7
13.5
21.1
14.8
15.2
15.6
18.7
例6.30例患者平均分成西药组15例和中药组15例,分别于治疗前和治疗后10天检测辅助性T细胞(CD4+)的变化,结果如下表:
表两种疗法受试病例治疗前后辅助性T细胞(CD4)变化的比较
编号
西药组
编号
中药组
治疗前
治疗后
前后差
治疗前
治疗后
前后差
1
36
41
-5
16
35
38
-3
2
35
38
-3
17
36
39
-3
3
40
43
-3
18
36
39
-3
4
35
39
-4
19
33
36
-3
5
28
24
4
20
36
41
-5
6
28
26
2
21
35
40
-5
7
35
31
4
22
37
42
-5
8
38
34
4
23
40
41
-1
9
38
36
2
24
33
39
-6
10
39
36
3
25
40
38
2
11
32
30
2
26
40
42
-2
12
32
36
-4
27
38
41
-3
13
38
36
2
28
32
35
-3
14
36
40
-4
29
41
44
-4
15
38
36
2
30
35
33
2
问:
(1)两种疗法对T辅助细胞数有没有影响?
(2)哪一种疗法的影响更大?
例7.今测30不同年龄男子的某项指标如下,问50岁及以上者与50岁以下者该指标有无不同?
age
x
age
x
age
x
50
41
43
30
48
40
48
38
43
36
51
42
56
43
53
36
56
41
48
39
50
40
45
39
37
24
53
36
56
38
37
26
48
38
56
42
48
31
50
39
53
41
53
34
50
39
43
35
53
36
45
36
58
44
55
36
50
41
48
33
例8.将钩端螺旋体病人的血清随机分为两组,分别用标准株和水生株作凝溶试验,测得稀释倍数如下表,问两组的平均效价是否不同?
标准株(11人)
水生株(9人)
100
100
200
100
400
100
400
200
400
200
400
200
800
200
1600
400
1600
400
1600
3200
例9.某医生测得当地116名正常成女子血清甘油三酯,结果如下表。
组段
频数
0.6-
1
0.7-
3
0.8-
9
0.9-
13
1.0-
19
1.1-
25
1.2-
18
1.3-
13
1.4-
9
1.5-
5
1.6-1.7
1
合计
116
(1)能否据此数据估计该地正常成年女子血清胆固醇的95%、99%正常值范围?
(2)据此数据估计该地正常成年女子血清胆固醇总体均数的95%、99%可信区间。
(3)说明95%正常值范围与总体均数95%可信区间的区别。
例10.测得某地300名正常人尿汞值,其频数表如下。
尿汞值
例数
尿汞值
例数
尿汞值
例数
0-
49
24-
16
48-
3
4-
27
28-
9
52-
0
8-
58
32-
9
56-
2
12-
50
36-
4
60-
0
16-
45
40-
5
64-
0
20-
22
44-
0
68-
1
(1)试计算无均数和中位数,何者的代表性较好?
(2)能否据此求出正常人尿汞值的95%正常值范围?
(3)可否据此估计正常人尿汞值总体均数的95%可信区间?