1、生物统计学版杜荣骞课后习题答案统计数据的收集与整理第一章统计数据的收集与整理1.1算术平均数是怎样计算的?为什么要计算平均数?n、yi -4y = _答:算数平均数由下式计算: n ,含义为将全部观测值相加再被观测值的个数除,所得之商称为算术平均数。 计算算数平均数的目的, 是用平均数表示样本数据的集中点, 或是说是样本数据的代表。1.2既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。1.3标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之 间有什么不同?答:变异系数可以说是用平均数标
2、准化了的标准差。 在比较两个平均数不同的样本时所得结果更可靠。1.4完整地描述一组数据需要哪几个特征数?答:平均数、标准差、偏斜度和峭度。1.5下表是我国青年男子体重(kg)。由于测量精度的要求,从表面上看像是离散型数 据,不要忘记,体重是通过度量得到的, 属于连续型数据。根据表中所给出的数据编制频数 分布表。序和计算结果如下:proc format; value hfmt 56-57=56-57 62-63=62-6368-69=68-69 70-71=70-71 72-73=72-7374-75=74-75:run;data weight;in file E:dataexer1-5e.da
3、t;in put bw ;run;proc freq;table bw;format bw hfmt.;run;The SAS SystemCumulative CumulativeBW Freque ncy Perce nt Freque ncy Perce nt56-5731.031.058-5941.372.360-61227.3299.762-634615.37525.064-658327.715852.766-677725.723578.368-694515.028093.370-71134.329397.772-7351.729899.374-7520.7300100.01.6将上
4、述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含 量为10的两个样本,分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗? 标准差相等吗?能够解释为什么吗?答:用means过程计算,两个样本分别称为 y1和y2 ,结果见下表:The SAS SystemVariable N Mea n Std DevY1 10 64.5000000 3.5039660Y2 10 63.9000000 3.1780497随机抽出的两个样本,它们的平均数和标准差都不相等。 因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。1.7从一个有限总体中
5、采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?答:不是简单的随机样本。 从一个有限总体中以非放回式抽样方法抽样, 在前后两次抽 样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联, 因此不是随机样本。 应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。n n送(y丁2 =送山y)2, 其中 y: = yi士c。 y;=业、/ =Cy1.8证明i# 若用 C或yi 一 Cyi编码时,前式是否仍然相等?答: (1 )令 yi 二 yi c则 yyC 平均数特性之。n2Z (yTJi 4n八 Wi
6、_c 一 y _c 2 i 4n2=s (yi y)i 4n2、yi-yi 4n=zi 1F - x2yi y ; C c丿n_ i- c用第二种编码方式编码结果,两式不再相等。1.9有一个样本:yi,y2,,yn,设B为其中任意一个数值。证明只有当 B = y时,n y-B2i吕 最小。这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。阮(y_B( 0答:令P八,y -B2,为求使p达最小之B,令 ?B -1.10检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共 100株,数据如下:10.09.37.29.18.58.010.510.69.610.17.06.7
7、9.57.10.57.8.19.67.69.48910.07.57.25.7.38.7.16.15.26.80710.09.97.54.7.67.9.76.28.06.9508.38.610.04.4.97.8.38.47.87.58 06.610.06.59.58.511.09.76.610.05.06.58.08.48.7.47.8.17.77.57.1347.87.68.66.7.06.6.76.36.411.00410.57.85.08.7.07.5.26.79.08.6044.66.93.56.9.76.5.86.49.36.42 4编制苗高的频数分布表,绘制频数分布图,并计算出该样
8、本的四个特征数。答:首先建立一个外部数据文件,名称和路径为: E:dataexr1-10e.dat。SAS程序及结果如下:opti ons no date;|_proc format;value hfmt3.5- 4.4=3.5-4.4 4.5-5.4=4.5-5.4 5.5-6.4=5.5-6.46.5- 7.4=6.5-7.4 7.5-8.4=7.5-8.4 8.5-9.4=8.5-9.49.5- 10.4=95-104 10.5-11.4=10.5-11.4:run;data wheat;in file E:dataexr1-10e.dat;in put height ;run;proc
9、 freq;table height;format height hfmt.;run;proc capability graphics n opri nt;var height;histogram/vscale=co unt;in set mean var skew ness kurtosis;run;The SAS SystemThe FREQ ProcedureCumulative Cumulative height Freque ncy Perce nt Freque ncy Perce nt3.5-4.411.0011.004.5-5.499.001010.005.5-6.41111.
10、002121.006.5-7.42323.004444.007.5-8.42424.006868.008.5-9.41111.007979.009.5-10.41515.009494.0010.5-11.466.00100100.0021Ma-xi-Z-TQI?!SLmtoi 前.U朋町 hurtua -B.曲 I fit纹嵴有许多特1.12灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。征,这些特征在胚胎形成之后是终生不变的。 人类手指尖的纹型, 大致可以分为弓、箕和斗三种类型。在手指第一节的基部可以找到一个点, 从该点纹嵴向三个方向辐射,这个点称为三叉点。弓形纹没有三叉点,箕形纹
11、有一个三叉点,斗形纹有两个三叉点, 记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数( fin ger ridge cou nt, FRC)。将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加,称为总纹嵴数( total fin ger ridge cou nt,TFRC)。下表给出了大理白族人群总纹嵴数的频数分布 :TFRC分组中值频数113020231504015170608719080299111010054111130120631311501406815117016051171190180181912102006首先判断数据的类型, 然后绘出样本频数分布图, 计算样本的四
12、个特征数并描述样本分布形 态。答:总纹脊数属计数数据。计数数据的频数分布图为柱状图,频数分布图如下:mi 90 JV4I 却 1-U1 |心I 齡 *4ii屮 值样本特征数(以TFRC的中值计算)SAS程序:optio ns no date; data tfrc;do i=1 to 10; in put y ; in put n ;do j=1 to n; output;en d;en d;cards;20 240 160 880 29100 54 120 63 140 68 160 51 180 18 200 6 run;proc means mean std skew ness kurto
13、sis; var y;run;结果见下表:The SAS SystemAn alysis Variable : YMea n Std Dev Skew ness Kurtosis126.5333333 32.8366112 -0.2056527 -0.0325058从频数分布图可以看出,该分布的众数在第七组,即总纹脊数的中值为 140的那一组。分布不对称,平均数略小于众数,有些负偏。偏斜度为-0.2056527,偏斜的程度不是很明显, 基本上还可以认为是对称的,峭度几乎为零。1.13海南粗榧叶长度的频数分布 叶长度/mm中值频数2.02.22.13902.22.42.31 4342.42.62
14、.52 6432.62.82.73 5462.83.02.95 6923.03.23.15 1873.23.43.34 3333.43.63.52 7673.63.83.71 6773.84.03.91 137nag4.04.24.16674.24.44.33464.44.64.5181绘出频数分布图,并计算偏斜度和峭度。答:表中第一列所给出的数值为组限,下图为海南粗榧叶长度的频数分布图。计算偏斜度和峭度的 SAS程序和计算结果如下:optio ns no date; data len gth;do i=1 to 13; in put y ; in put n ; do j=1 to n;ou
15、tput; en d;en d;cards;2.1 3902.3 14342.5 26432.7 35462.9 56923.1 51873.3 43333.5 27673.7 16773.9 11374.1 6674.3 3464.5 181 run;proc means n skew ness kurtosis;var y;run;The SAS SystemAn alysis Variable : Yn Skew ness Kurtosis30000 0.4106458 0.0587006样本含量n = 30000,是一个很大的样本,样本的偏斜度和峭度都已经很可靠了。偏斜度为0.41,有
16、一个明显的正偏。1.14马边河贝氏高原鳅繁殖群体体重分布如下体质量/g 中值 雌鱼 雄鱼2.003.002.503.004.003.50674.005.004.5013115.006.005.5030256.007.006.5025257.008.007.5016238.009.008.5021179.0010.009.50181610.0011.0010.5012411.0012.0011.50312.0013.0012.502首先判断数据的类型,然后分别绘制雌鱼和雄鱼的频数分布图,计算样本平均数、标准差、 偏斜度和峭度并比较两者的变异程度。答:鱼的体重为度量数据,表中第一列所给出的数值为组
17、限。在下面的分布图中雌鱼 和雄鱼的分布绘在了同一张图上,以不同的颜色表示。计算统计量的SAS程序与前面的例题类似,这里不再给出,只给出结果。雌鱼:The SAS SystemAn alysis Variable : YN Mea n Std Dev Skew ness Kurtosis147 7.2414966 2.1456820 0.2318337 -0.6758677雄鱼:The SAS SystemAn alysis Variable : YN Mea n Std Dev Skew ness Kurtosis132 6.7803030 1.9233971 -0.1322816 -0.55
18、10332直观地看,雄鱼的平均体重低于雌鱼。雌鱼有一正偏,雄鱼有一负偏。因此,相对来说雌鱼 低体重者较多,雄鱼高体重者较多。但两者都有很明显的负峭度,说明“曲线”较平坦,两尾翘得较高。1.15黄胸鼠体重的频数分布 :组界/g 频数0 y w 1515 y W 3030 y w 4545 y w 6060 y W 75102630222275 y W 901790 y W 10516105 y w 12014120 y W 1356135 y W 1504150 y W 1652总数169绘制频数分布图,从图形上看分布是对称的吗,说明什么问题? 答:下面是频数分布图:从上图可见,图形不是对称的,
19、有一些正偏。说明在该黄雄鼠群体中,低体重者分布数量, 高于高体重者的数量。另外,似乎峭度也有些低。1.16 25名患者入院后最初的白细胞数量( X103)如下表:851241168771273111411966561014455计算白细胞数量的平均数、方差和标准差。答:用means过程计算,程序不再给出,只给出运行结果。The SAS SystemAn alysis Variable : YN Mea n Varia nee Std Dev25 7.8400000 10.3066667 3.21039981.17细胞珠蛋白基因(CYGB)可能是非小细胞肺癌(NSCLC )的抑制基因之一。一 个
20、研究小组研究了该基因的表达、 启动子甲基化和等位基因不平衡状态等, 以便发现它与肿瘤发病间的关联。下面列出了其中 15名患者的基因表达(肿瘤患者 /正常对照,T/N),肿瘤患者与正常对照甲基化指数差( MtlMtlN)8:样本号T/NMtI T- MtI N3570.0140.4193700.0190.0173670.0350.1053160.0440.3333690.0540.1703580.0840.2463030.1110.2423140.1350.3643080.2360.0513100.2530.5203410.2640.2003480.3150.1033230.3590.1673600.4220.1763360.4420.037计算以上两项指标的平均数和标准差并计算两者的变异系数, 这两个变异系数可以比较吗?为什么?答:记T/N为y1,MtI t- MtI n为y2 ,用means过程计算,SAS运行的结果见下表:The SAS SystemVariable N Mea n Std Dev CVY1 15 0.1858000 0.1505624 81.0346471Y2 15 0.2100000 0.1465274 69.7749634两个变异系数是可以比较的, 因为它们的标准差都是用平均数标准化了的, 已经不存在不同 单位的影响了。
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2