卫生统计学大题总结.docx
《卫生统计学大题总结.docx》由会员分享,可在线阅读,更多相关《卫生统计学大题总结.docx(10页珍藏版)》请在冰点文库上搜索。
卫生统计学大题总结
2013年卫生统计学教材课后大题
(由于卫生统计没有往年题,概念又非常重要,所以做了这个总结。
计算千变万化,掌握公式就行,因此没有纳入。
非权威答案,仅供参考,书上原话答案的标注了页码。
时间紧迫,欢迎大家指正错误!
不确定的题问完老师会有更新。
)
第一章绪论
一、思考题
1.书P1第一段。
2.观察单位是大鼠的子宫,子宫的重量是变量,子宫重量的特征值为变量值
3.(p2)1.数值变量2.分类变量
2.1无序2.1.1二分类2.1.2多项分类
2.2有序
不同类型的变量可以相互转换。
意义:
不同类型的变量需要选用不同的统计指标和统计方法进行分析。
4.(p3)
5.(p3)总体注意要同质,样本是变量值的集合。
抽样研究目的用样本信息推论总体的特征。
6.(p4)从系统误差,随机测量误差,抽样误差三个方面分别说
7.设计,收集资料,整理资料,分析资料与解释结果。
8.1.资料完整,正确。
2.有足够的数量。
3,有代表性,可比性。
第二章,数值变量的描述统计
一简答题
1.都是描述集中趋势的指标。
均数适用于对称分布,特别是正态分布。
几何均数用于明显偏态分布,呈等比关系,尤其是对数正态分布。
观察值中不能同时有正负,不能有0。
中位数用于偏态分布,分布不清楚或分布的一端无确定数值的资料。
2.都是描述离散趋势的指标。
见17-18页。
标准差要求观察单位相同,均数相近。
CV用于单位不同或者均数差别大的多组资料(就是资料不同质)。
3.1.可揭示资料分布的特征和类型。
2.便于进一步计算和分析。
。
3.便于发现离群值。
4.p21
5.特定健康状况的人群的解剖生理生化各种数据的波动范围。
根据指标的实际用途确定单侧,双侧。
可以用正态分布法和百分位数法估计。
第三章
书后2个讨论都说“以比代率”的错误。
构成比的大小不能反应实际发生概率的大小。
第四章统计表与统计图
1.p36第一段
2、原则:
1.重点突出,简单明了2.主谓分明,层次清楚
要求:
(P37)
3.直条图是描述分组变量或者分类变量计数资,直条间有间隔。
料百分条图用于描述多组资料构成比。
直方图描述连续性资料。
纵轴从0开始,各矩形不留空隙。
4.横轴都是算术尺度,对数线图的纵轴是对数尺度,而普通线图的纵轴是算术尺度。
普通图反应绝对值的差值,对数反应变化速度。
5.都是描述连续性变量。
样本量小,某些区组样本点缺失用茎叶图。
茎叶图更直观,便于一些指标的计算。
箱式图给出了中位数,P25,P75,MAX,MIN,和离群值
第五章总体均数的估计和假设检验(绝对要好好看,看思考题量就知道了)
1.个体的变异用标准差。
样本均数的变异用标准误,又叫均数标准误,就是抽很多次样,那些均数的标准差。
联系从5-1.5.2的公式说。
2、从总体是否正态分布两方面说。
A若正态分布,则1,各样本均数有差异且不等于总体均数,2.基本服从正态分布3.标准误比标准差小
B若不服从正态分布,则当N小时,样本均数的分布偏离正态分布,当N大,样本均数的分布近似于正态分布。
3.总体标准差σ已知,或者σ未知,但样本量大。
4.以95%CI为例。
正常值是用M±1,96标准差,置信区间是±1,96标准误。
算法不同。
统计意义不同。
前者是波动范围,后者是95%的把握包括总体均数。
5分布大致相同。
不同是,T分布是一簇曲线的集合,与自由度有关。
U分布是当自由度为无穷大时的T曲线,也就是最上面的一根。
是T分布的一个特例。
6.不能,只能说P越小,无效假设发生的可能性越小。
越能肯定两个总体参数有差别,而不能说差别越大。
7.(不确定)1.降低了犯二类错误的概率。
2.防止公式5-13下小上大的情况,因此乘以2
0,05*2=0,1
8.(不确定)通过上下相邻的数判断。
如果他能拒绝比v=46更小的临界值,那么也能拒绝v=46时的临界值。
>100直接用标准正态分布曲线。
9.我去。
。
。
这是神马玩意啊。
。
。
谁能告诉我。
。
。
我哪知道你怎么就讲了一个。
。
篇幅不够吧?
!
10.他们的理论基础和分布曲线是一样的,所以有必然联系
1.均数的置信区间也能回答假设检验的问题。
看置信区间是否包括了H0
2.置信区间提供更多信息。
提示样本差别是否具有实际意义,样本量是否不足。
(图5-5)
3.但是假设检验可以提供更精确的P水平。
11.略(参考答案最讨厌看到这个字了)
12.假设检验依据的原则小概率事件发生的机会很小,我们可以认为他不发生,而不是一定不发生。
所以不拒绝H0不是说2个总体均数相同,而是说在H0成立的条件下,得到大于等于现有T统计量(就是目前你算出来的这个T)的概率大于α,不属于小概率事件。
不拒绝H0,拒绝H1。
因而说“不认为H1是正确的”。
如果直接说两个不等,则犯了二型错误。
接受了实际上不成立的无效假设,概率为β
13.卫生统计学的显著指的是有没有统计学意义。
即p的大小,有多大的概率拒绝无效假设。
他不但取决于均数差别的大小,还与标准误大小有关。
生活中的差异显著说的是差值的相差的大小,同上面第六题的内容。
为了避免两者的混淆,故改变了说法。
14.应考虑变量的差异大,即标准差大,或者样本量不够多,致使检验效能降低。
也有可能是样本所代表的总体参数真的没有差异。
15.p77第8条。
以95%CI为例。
单侧的t-value是6.314.双侧是±12.706.
若t>12.706,那么也一定大于6.314.即得到的t如果拒绝了双侧,也一定能拒绝单侧。
而且由于双侧的界值更大,更不容易被拒绝,因此,犯一型错误的概率就越小。
16.p70.要理解透彻那两个交叉的钟型图。
联系:
1.n一定是,α越小,β越大。
2.α一定时,增加N,减小β。
17.p51样本量大,即使总体是偏态分布,样本均数也近似服从正态分布。
18.p71对于样本的总体分布没有要求,使用范围广,变量中有不确定数值也可以用。
但是检验功效低于相应的参数检验方法。
19.符合参数统计要求的首选参数检验。
如果经过数据转换以后符合条件也可以使用正态分布,若不符合要求就使用非参数检验的结果。
目的都是调高检验效能。
20.(没找到书上答案)应该属于非参数检验。
在计算Z统计量时,仍然使用了秩次的数据,依旧没有考虑样本的分布情况,也没有对总体的某个参数进行估计。
仅仅是由于例数过大,超出了附表的范围的一种特殊方法。
第六章二项分布和poisson分布
1.对于二项分布,np和np(1-P)都大于5时,可以认为总体率的估计值服从正态分布;对于泊松分布,λ>20时,可近似于正态分布
2.p85
3.判定资料为离散数据。
方差是否等于均数。
是否符合“大量,有或无”“独立”“重复,小概率”三个假设。
最后可以使用拟合优度检验进行验证。
第七章分类变量的假设检验
1.p89公式7-2上下各一段话
2.分类变量的假设检验。
成组设计四个表。
计数资料的配对设计。
多个独立样本率的比较,两个独立样本频数分布的比较。
两个无序分类变量的关联性检,验频数分布拟合优度检验。
3.完全随机设计的两个独立样本结局变量(二分类变量)的比较。
或配对设计资料。
为了保险把p92的最上面3条公式也写上吧。
(感觉问的不是很明确)
4.多个独立样本率的比较:
检验多个率的差别是否有统计学意义
两个独立样本频数分布的比较:
两个样本的构成比差别是否具有统计学意义
两个无序分类变量的关联性检验:
两个变量的关联性是否有统计学意义,需要结合关联系数讨论。
5.p98
6.不正确。
需要结合关联系数来具体说明。
P仅说明有关联的可能性很大。
第八章实验设计
1.P104一二段
2实验性研究是在人为控制实验的主要条件下进行的,而调查性研究是对特定人群进行观察,分析比较,从而找出事物变化的规律,在研究过程中不能对研究对象的特征进行控制。
3.
(1)随机误差包括测量误差和个体差异。
通过多次测量,增加样本量减少。
(2)系统误差:
1.选择偏倚2.测量偏倚完善实验设计和实验过程的质量控制。
4.处理因素:
抓住主要因素,注意标准化
受试对象:
对处理因素敏感,反应稳定
实验效应:
有效性,精确性,敏感性,稳定性
5.对照
随机化:
P106三层含义
重复:
知情同意
6样本量过小,所得的指标不够稳定,推论总体精度低,检验效能低。
样本量过大,造成不必要的浪费,给质控带来麻烦。
同时,不同的实验类型和不同的精度要求都对样本量有不同的要求。
因此需要适宜的样本量。
7.p108看一下公式推导,其实还是很容易理解的。
8.p106随机化下的2.3两段。
9p106
第九章调查研究与调查设计
1.P116
2.
(1)选题阶段:
调查课题的选择和初步论证
(2)准备阶段:
设计调查方案,组织调查队伍
(3)调查阶段:
根据调查研究方案中所确定的调查方案,及时,准确,完整的收集数据资料。
(4)研究阶段:
审查整理资料,进行统计分析,开展理论研究
(5)总结阶段:
撰写调查研究报告,总结并评估调查研究成果。
3.p119-120
4.1.界定研究总体和调查总体
2.设计抽样方法
3.编制抽样框架
4.抽取样本
5.评估样本
P122“对样本的评估,可以。
。
。
”
5.又叫等概率抽样,总体中每一个个体被选入样本的概率相等。
常用的概率随机抽样方法有:
简单随机抽样,系统抽样,分层抽样,整群抽样,多阶段抽样。
特点略。
非概率抽样有偶遇抽样,主观抽样,配额抽样,滚雪球抽样。
常用于对象总体的边界不明确,随机抽样不能进行。
他建立在研究人员对于总体中的某个事件或分子有所了解的基础上。
6.p127
7.1.问卷法:
标准化,匿名性,间接性
2.访谈法:
访谈双方直接互动,访谈过程灵活可控,访谈结果有偏误
3.电话调查法:
访谈时间短,费用低,降低了对被访者的潜在危险性,需要人少。
更能得到敏感性和威胁性问题。
难于控制,受电话普及率的影响,代表性不充分,推论总体有误差。
4.观察法:
优点:
1.第一时间得到第一手资料2.观察在自然环境中进行,较为真实3.无需语言文字沟通。
4可以弥补其他方法的不足
缺点:
1.观察者会干扰自然进程,使观察资料不完全真实2.难以控制时间和环境变量,难以进行数量分析和统计判断3.主观性较强4.工作量大,时间较多。
5.观察样本量小。
5.敏感问题的调查技术。
8.除了抽样外引起调查误差的所有因素造成的误差。
1.抽样框误差:
2.无回答误差
3.计量误差
其控制贯穿于整个调查过程。
P134
估计:
p134-135
第十章多组数值变量比较的假设检验
1.把全部值间的变异按设计和需要分解成两个或多个部分,然后将各影响因素产生的变异与随机误差进行比较,以判断各部分的变异与随机误差相比是否具有统计学意义。
总=组间+组内
2.不可以,比较的次数越多,在无效假设为真是时,拒绝无效假设是的累积一型错误概率也越大。
有a个均数,要比较C次,
C=a!
/[2!
(a-2)!
]
a’=1-(1-a)c
当a=5,c=10a’=0.401
3.如果各个总体方差不齐,那么经过F检验所得多个样本所属总体平均数差异显著的结果,可能有一部分归因于各个实验组内总体方差不同所致,而无法归类为处理因素不同带来的。
有两种处理方法:
1.数据变换,2.非参数统计。
4.如果观测指标是数值型变量,当正态性和等方差性得不到满足使用非参检验。
他对总体分布没有特定的假设。
他不是用样本观测指标的实测值直接构造统计量进行检验,而是通过将样本实际数据排序编秩后,对秩次进行比较。
5.没找到,是没学过还是我没听。
。
。
。
。
第十一章简单线性相关与回归
1.满足双变量正态分布的两个连续变量。
两个变量都是随机变量。
不符合要求采用秩相关或者等级相关。
2.1)因变量自变量之间呈线性关系(L)
2)每个个体观察值之间相互独立。
(I)
3)在一定范围内,任意给定X值,其对应的随机变量Y均服从正态分布(N)
4)在一定范围内,不同的X值对应的随机变量Y的方差相等。
(E)
3p176
4区别:
直线相关分析要求两变量是随机测量得到,且服从正态分布直线回归分析的自变量可随机也可人为取值。
前者定性,后者定量。
联系:
1.用同一资料计算的r和b,它们的正负号是一致的
2.对同一资料,r和b的假设检验结果(t值)总是一样的。
3.R2可用于解释两变量的关系
5.线性相关,秩相关,简单线性回归(不太理解对不对)
6.利用回归方程预测,进行统计控制。
医学上的,用患儿月龄预测体重,预测子代身高。
第十三章寿命表及其应用
1寿命表是根据某一人群年龄组死亡率编制而成的一种统计表。
2.P190
3.P190
现实寿命表:
是横断面资料
定群寿命表:
观察一个固定人群。
4、略
5.P197下面一段
6.婴儿死亡率=某年婴儿死亡数/同年活产数。
用来表示0-岁组死亡概率
0-岁组死亡率一般空着。
(不确定对不对)从死亡率的定义上看不好解释
7.如果去除了某种或某类死因,则原死于该死于的人不死于该死因了,那么寿命就会延长,去除的死因对于生命威胁越大,则预期寿命就会延长越多。
优点P198
用途是研究某种具体死因对于人群寿命的影响。
8.直接法的优点是手工计算方法简单、直观,在病例较多是误差不大。
缺点是但例数较少时,有时会出现后一年比前一年生存率高的不合理现象。
对截尾数据不能用来计算生存率,从而损失了信息。
寿命表法的优点是可以利用截尾数据,而且结果不会出现后一年比前一年生存率高的不合理现象。
缺点是计算相对复杂。