卫生统计学大题总结.docx

资源描述

卫生统计学大题总结.docx

《卫生统计学大题总结.docx》由会员分享，可在线阅读，更多相关《卫生统计学大题总结.docx（10页珍藏版）》请在冰点文库上搜索。

卫生统计学大题总结.docx

卫生统计学大题总结

2013年卫生统计学教材课后大题

（由于卫生统计没有往年题，概念又非常重要，所以做了这个总结。

计算千变万化，掌握公式就行，因此没有纳入。

非权威答案,仅供参考，书上原话答案的标注了页码。

时间紧迫，欢迎大家指正错误！

不确定的题问完老师会有更新。

）

第一章绪论

一、思考题

1.书P1第一段。

2.观察单位是大鼠的子宫，子宫的重量是变量，子宫重量的特征值为变量值

3.（p2）1.数值变量2.分类变量

2.1无序2.1.1二分类2.1.2多项分类

2.2有序

不同类型的变量可以相互转换。

意义：

不同类型的变量需要选用不同的统计指标和统计方法进行分析。

4.（p3）

5.（p3）总体注意要同质，样本是变量值的集合。

抽样研究目的用样本信息推论总体的特征。

6.（p4）从系统误差，随机测量误差，抽样误差三个方面分别说

7.设计，收集资料，整理资料，分析资料与解释结果。

8.1.资料完整，正确。

2.有足够的数量。

3，有代表性，可比性。

第二章，数值变量的描述统计

一简答题

1.都是描述集中趋势的指标。

均数适用于对称分布，特别是正态分布。

几何均数用于明显偏态分布，呈等比关系，尤其是对数正态分布。

观察值中不能同时有正负，不能有0。

中位数用于偏态分布，分布不清楚或分布的一端无确定数值的资料。

2.都是描述离散趋势的指标。

见17-18页。

标准差要求观察单位相同，均数相近。

CV用于单位不同或者均数差别大的多组资料（就是资料不同质）。

3.1.可揭示资料分布的特征和类型。

2.便于进一步计算和分析。

。

3.便于发现离群值。

4.p21

5.特定健康状况的人群的解剖生理生化各种数据的波动范围。

根据指标的实际用途确定单侧，双侧。

可以用正态分布法和百分位数法估计。

第三章

书后2个讨论都说“以比代率”的错误。

构成比的大小不能反应实际发生概率的大小。

第四章统计表与统计图

1.p36第一段

2、原则:

1.重点突出，简单明了2.主谓分明，层次清楚

要求：

（P37）

3.直条图是描述分组变量或者分类变量计数资，直条间有间隔。

料百分条图用于描述多组资料构成比。

直方图描述连续性资料。

纵轴从0开始，各矩形不留空隙。

4.横轴都是算术尺度，对数线图的纵轴是对数尺度，而普通线图的纵轴是算术尺度。

普通图反应绝对值的差值，对数反应变化速度。

5.都是描述连续性变量。

样本量小，某些区组样本点缺失用茎叶图。

茎叶图更直观，便于一些指标的计算。

箱式图给出了中位数，P25，P75，MAX，MIN，和离群值

第五章总体均数的估计和假设检验（绝对要好好看，看思考题量就知道了）

1.个体的变异用标准差。

样本均数的变异用标准误，又叫均数标准误，就是抽很多次样，那些均数的标准差。

联系从5-1.5.2的公式说。

2、从总体是否正态分布两方面说。

A若正态分布，则1，各样本均数有差异且不等于总体均数，2.基本服从正态分布3.标准误比标准差小

B若不服从正态分布，则当N小时，样本均数的分布偏离正态分布，当N大，样本均数的分布近似于正态分布。

3.总体标准差σ已知，或者σ未知，但样本量大。

4.以95%CI为例。

正常值是用M±1,96标准差，置信区间是±1,96标准误。

算法不同。

统计意义不同。

前者是波动范围，后者是95%的把握包括总体均数。

5分布大致相同。

不同是，T分布是一簇曲线的集合，与自由度有关。

U分布是当自由度为无穷大时的T曲线，也就是最上面的一根。

是T分布的一个特例。

6.不能，只能说P越小，无效假设发生的可能性越小。

越能肯定两个总体参数有差别，而不能说差别越大。

7.（不确定）1.降低了犯二类错误的概率。

2.防止公式5-13下小上大的情况，因此乘以2

0,05*2=0,1

8.（不确定）通过上下相邻的数判断。

如果他能拒绝比v=46更小的临界值，那么也能拒绝v=46时的临界值。

>100直接用标准正态分布曲线。

9.我去。

。

这是神马玩意啊。

。

谁能告诉我。

。

我哪知道你怎么就讲了一个。

。

篇幅不够吧？

！

10.他们的理论基础和分布曲线是一样的，所以有必然联系

1.均数的置信区间也能回答假设检验的问题。

看置信区间是否包括了H0

2.置信区间提供更多信息。

提示样本差别是否具有实际意义，样本量是否不足。

（图5-5）

3.但是假设检验可以提供更精确的P水平。

11.略（参考答案最讨厌看到这个字了）

12.假设检验依据的原则小概率事件发生的机会很小，我们可以认为他不发生，而不是一定不发生。

所以不拒绝H0不是说2个总体均数相同，而是说在H0成立的条件下，得到大于等于现有T统计量（就是目前你算出来的这个T）的概率大于α，不属于小概率事件。

不拒绝H0,拒绝H1。

因而说“不认为H1是正确的”。

如果直接说两个不等，则犯了二型错误。

接受了实际上不成立的无效假设，概率为β

13.卫生统计学的显著指的是有没有统计学意义。

即p的大小，有多大的概率拒绝无效假设。

他不但取决于均数差别的大小，还与标准误大小有关。

生活中的差异显著说的是差值的相差的大小，同上面第六题的内容。

为了避免两者的混淆，故改变了说法。

14.应考虑变量的差异大，即标准差大，或者样本量不够多，致使检验效能降低。

也有可能是样本所代表的总体参数真的没有差异。

15.p77第8条。

以95%CI为例。

单侧的t-value是6.314.双侧是±12.706.

若t>12.706,那么也一定大于6.314.即得到的t如果拒绝了双侧，也一定能拒绝单侧。

而且由于双侧的界值更大，更不容易被拒绝，因此，犯一型错误的概率就越小。

16.p70.要理解透彻那两个交叉的钟型图。

联系：

1.n一定是，α越小，β越大。

2.α一定时，增加N，减小β。

17.p51样本量大，即使总体是偏态分布，样本均数也近似服从正态分布。

18.p71对于样本的总体分布没有要求，使用范围广，变量中有不确定数值也可以用。

但是检验功效低于相应的参数检验方法。

19.符合参数统计要求的首选参数检验。

如果经过数据转换以后符合条件也可以使用正态分布，若不符合要求就使用非参数检验的结果。

目的都是调高检验效能。

20.（没找到书上答案）应该属于非参数检验。

在计算Z统计量时，仍然使用了秩次的数据，依旧没有考虑样本的分布情况，也没有对总体的某个参数进行估计。

仅仅是由于例数过大，超出了附表的范围的一种特殊方法。

第六章二项分布和poisson分布

1.对于二项分布，np和np（1-P）都大于5时，可以认为总体率的估计值服从正态分布；对于泊松分布，λ>20时，可近似于正态分布

2.p85

3.判定资料为离散数据。

方差是否等于均数。

是否符合“大量，有或无”“独立”“重复，小概率”三个假设。

最后可以使用拟合优度检验进行验证。

第七章分类变量的假设检验

1.p89公式7-2上下各一段话

2.分类变量的假设检验。

成组设计四个表。

计数资料的配对设计。

多个独立样本率的比较，两个独立样本频数分布的比较。

两个无序分类变量的关联性检，验频数分布拟合优度检验。

3.完全随机设计的两个独立样本结局变量（二分类变量）的比较。

或配对设计资料。

为了保险把p92的最上面3条公式也写上吧。

（感觉问的不是很明确）

4.多个独立样本率的比较：

检验多个率的差别是否有统计学意义

两个独立样本频数分布的比较：

两个样本的构成比差别是否具有统计学意义

两个无序分类变量的关联性检验：

两个变量的关联性是否有统计学意义，需要结合关联系数讨论。

5.p98

6.不正确。

需要结合关联系数来具体说明。

P仅说明有关联的可能性很大。

第八章实验设计

1.P104一二段

2实验性研究是在人为控制实验的主要条件下进行的，而调查性研究是对特定人群进行观察，分析比较，从而找出事物变化的规律，在研究过程中不能对研究对象的特征进行控制。

（1）随机误差包括测量误差和个体差异。

通过多次测量，增加样本量减少。

（2）系统误差：

1.选择偏倚2.测量偏倚完善实验设计和实验过程的质量控制。

4.处理因素：

抓住主要因素，注意标准化

受试对象：

对处理因素敏感，反应稳定

实验效应：

有效性，精确性，敏感性，稳定性

5.对照

随机化：

P106三层含义

重复：

知情同意

6样本量过小，所得的指标不够稳定，推论总体精度低，检验效能低。

样本量过大，造成不必要的浪费，给质控带来麻烦。

同时，不同的实验类型和不同的精度要求都对样本量有不同的要求。

因此需要适宜的样本量。

7.p108看一下公式推导，其实还是很容易理解的。

8.p106随机化下的2.3两段。

9p106

第九章调查研究与调查设计

1.P116

（1）选题阶段:

调查课题的选择和初步论证

（2）准备阶段：

设计调查方案，组织调查队伍

（3）调查阶段：

根据调查研究方案中所确定的调查方案，及时，准确，完整的收集数据资料。

（4）研究阶段：

审查整理资料，进行统计分析，开展理论研究

（5）总结阶段：

撰写调查研究报告，总结并评估调查研究成果。

3.p119-120

4.1.界定研究总体和调查总体

2.设计抽样方法

3.编制抽样框架

4.抽取样本

5.评估样本

P122“对样本的评估，可以。

。

”

5.又叫等概率抽样，总体中每一个个体被选入样本的概率相等。

常用的概率随机抽样方法有：

简单随机抽样，系统抽样，分层抽样，整群抽样，多阶段抽样。

特点略。

非概率抽样有偶遇抽样，主观抽样，配额抽样，滚雪球抽样。

常用于对象总体的边界不明确，随机抽样不能进行。

他建立在研究人员对于总体中的某个事件或分子有所了解的基础上。

6.p127

7.1.问卷法：

标准化，匿名性，间接性

2.访谈法：

访谈双方直接互动，访谈过程灵活可控，访谈结果有偏误

3.电话调查法：

访谈时间短，费用低，降低了对被访者的潜在危险性，需要人少。

更能得到敏感性和威胁性问题。

难于控制，受电话普及率的影响，代表性不充分，推论总体有误差。

4.观察法：

优点：

1.第一时间得到第一手资料2.观察在自然环境中进行，较为真实3.无需语言文字沟通。

4可以弥补其他方法的不足

缺点：

1.观察者会干扰自然进程，使观察资料不完全真实2.难以控制时间和环境变量，难以进行数量分析和统计判断3.主观性较强4.工作量大，时间较多。

5.观察样本量小。

5.敏感问题的调查技术。

8.除了抽样外引起调查误差的所有因素造成的误差。

1.抽样框误差：

2.无回答误差

3.计量误差

其控制贯穿于整个调查过程。

P134

估计：

p134-135

第十章多组数值变量比较的假设检验

1.把全部值间的变异按设计和需要分解成两个或多个部分，然后将各影响因素产生的变异与随机误差进行比较，以判断各部分的变异与随机误差相比是否具有统计学意义。

总=组间+组内

2.不可以，比较的次数越多，在无效假设为真是时，拒绝无效假设是的累积一型错误概率也越大。

有a个均数，要比较C次，

C=a!

/[2!

（a-2）!

]

a’=1-（1-a）c

当a=5,c=10a’=0.401

3.如果各个总体方差不齐，那么经过F检验所得多个样本所属总体平均数差异显著的结果，可能有一部分归因于各个实验组内总体方差不同所致，而无法归类为处理因素不同带来的。

有两种处理方法：

1.数据变换，2.非参数统计。

4.如果观测指标是数值型变量，当正态性和等方差性得不到满足使用非参检验。

他对总体分布没有特定的假设。

他不是用样本观测指标的实测值直接构造统计量进行检验，而是通过将样本实际数据排序编秩后，对秩次进行比较。

5.没找到，是没学过还是我没听。

。

第十一章简单线性相关与回归

1.满足双变量正态分布的两个连续变量。

两个变量都是随机变量。

不符合要求采用秩相关或者等级相关。

2.1）因变量自变量之间呈线性关系（L）

2）每个个体观察值之间相互独立。

（I）

3）在一定范围内，任意给定X值，其对应的随机变量Y均服从正态分布（N）

4）在一定范围内，不同的X值对应的随机变量Y的方差相等。

（E）

3p176

4区别：

直线相关分析要求两变量是随机测量得到，且服从正态分布直线回归分析的自变量可随机也可人为取值。

前者定性，后者定量。

联系：

1.用同一资料计算的r和b,它们的正负号是一致的

2.对同一资料，r和b的假设检验结果（t值）总是一样的。

3.R2可用于解释两变量的关系

5.线性相关，秩相关，简单线性回归（不太理解对不对）

6.利用回归方程预测，进行统计控制。

医学上的，用患儿月龄预测体重，预测子代身高。

第十三章寿命表及其应用

1寿命表是根据某一人群年龄组死亡率编制而成的一种统计表。

2.P190

3.P190

现实寿命表：

是横断面资料

定群寿命表：

观察一个固定人群。

4、略

5.P197下面一段

6.婴儿死亡率=某年婴儿死亡数/同年活产数。

用来表示0-岁组死亡概率

0-岁组死亡率一般空着。

（不确定对不对）从死亡率的定义上看不好解释

7.如果去除了某种或某类死因，则原死于该死于的人不死于该死因了，那么寿命就会延长，去除的死因对于生命威胁越大，则预期寿命就会延长越多。

优点P198

用途是研究某种具体死因对于人群寿命的影响。

8.直接法的优点是手工计算方法简单、直观，在病例较多是误差不大。

缺点是但例数较少时，有时会出现后一年比前一年生存率高的不合理现象。

对截尾数据不能用来计算生存率，从而损失了信息。

寿命表法的优点是可以利用截尾数据，而且结果不会出现后一年比前一年生存率高的不合理现象。

缺点是计算相对复杂。

展开阅读全文