第一章统计数据的收集与整理讲稿.docx

资源描述

第一章统计数据的收集与整理讲稿.docx

《第一章统计数据的收集与整理讲稿.docx》由会员分享，可在线阅读，更多相关《第一章统计数据的收集与整理讲稿.docx（13页珍藏版）》请在冰点文库上搜索。

第一章统计数据的收集与整理讲稿.docx

第一章统计数据的收集与整理讲稿

第1章统计数据的收集与整理

导入：

当今信息时代，无论社会政治、军事经济，还是生物医学、教育心理、工农业生产等各行各业都有大量的数据，需要我们进行分析，从中挖掘出有用的证据、消除虚假的信息，发现事物内部的规律性。

数据≠信息

●数据是一种物理符号序列,指能被输入至计算机储存和处理的各种数字、字母、汉字、符号、图像、声音及其组合。

●信息是现实世界中事物的状态、运动方式和相互关系的表现形式，是自然界、人类社会和人类思维活动中普遍存在的一切物质和事物的属性

例：

1.一家有两个小孩，问：

已知一个是女孩，另一个也女孩的可能性多大？

A）1/2B）1/3C）1/4D1/5

例：

2.一个班有50同学，问至少有两个同学生日相同的可能性多大？

A）5%B）50%C）90%D）97%

结论：

●直觉虽重要,但有时直觉会产生错觉。

●主观的直觉+经验≠客观的规律

●进行科学研究活动时，需要直觉来发现问题，产生灵感，但必须采用科学的方法进行实验，经过严格的验证后，才能得出事物内在的客观规律。

一、什么是生物统计学

1.概念：

生物统计学（biostatistics）是数理统计在生物学研究中的应用，它是用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的科学。

生物统计学的基本任务

整理和描述数据资料，确定某些性状的数量特征。

判断试验究结果的可靠性。

样本推断总体的方法：

用统计学的方法来推断总体的特征和规律。

在这种推断过程中，统计学原理和方法是理论依据和保证。

提供试验设计的一些重要原则。

以统计学原理为指导，进行科学合理的试验设计，可以使在的人力、物力、财力和时间较少的条件下，得出可靠了然准确的试验研究数据和信息。

二、学科简史

三、学习要求

●运用统计思想进行分析的能力:

善于利用统计的思维方式进行思考，学会发现数据、分析数据，并使用数据说话

●掌握基本统计方法:

掌握统计工作中涉及到基本统计概念和基本统计计算方法，能够阅读常规的统计报告，了解统计指标的含义。

能够处理常见的统计问题

●锻炼统计计算的能力:

培养动手计算的能力。

其中涉及到运用数学公式和使用计算机进行计算的有关技能

四、生物统计的常用术语

1.总体与样本

通过样本推断总体是统计学研究的核心问题

总体（population）：

所研究（具有相同性质）的全部个体（数据）的集合，其中的每一个元素称为个体

样本（sample）：

从总体中抽取的一部分元素的集合

●构成样本的元素的数目称为样本含量

●总体和样本都是个体组成的集合

●一个总体可以抽取多个样本（重复）

2变量与常数

●随机变量：

相同性质的事物表现出的差异性或特异性特征数据称之为变量或变数。

它是表示在一个界限内变动着的性状数值。

●变量按其性质可以分为连续变量和非连续性变量。

连续性变量表示在变量范围内可以抽出某一范围的所有值，这种变量之间是连续的、无限的。

3.参数与统计数

●参数：

总体的统计指标，如总体均数、标准差，采用希腊字母分别记为μ、σ。

固定的常数

●统计量：

样本的统计指标，如样本均数、标准差

4.定量资料与定性资料

●定量资料：

对数量性状进行测量或称量所得到的数据

●定性资料：

对质量性状进行分组所得到的数据

5.机误与错误

试验中出现的误差分为两类：

（一）随机误差（randomerror）

（二）系统误差（lopsidederror）

五、数据类型及频数分布

●连续型数据：

数量资料，与某种标准作比较得到

●离散型数据：

质量资料

●连续型数据：

一般用频数分布表来初步整理

●离散型数据：

一般用次数分布表来初步整理

1.离散型数据

例4：

100个麦穗的每穗小穗数（离散型数据）

整理过程：

1.排序和计算基本统计量

2.统计类别数

3.统计每种类别的个数

4.整理作图

每穗小穗数（y）

次数（f）

2.连续型数据

例5100次投针的试验结果，每次试验投针100万次

3.1475

3.1382

3.1444

3.1431

3.1466

3.1496

3.1303

3.1425

3.1376

3.1468

3.1374

3.1362

3.1343

3.1403

3.1459

3.1405

3.1389

3.1318

3.1419

3.1425

3.1376

3.1392

3.1425

3.1475

3.1504

3.1392

3.1438

3.1447

3.1472

3.1523

3.1430

3.1383

3.1446

3.1519

3.1342

3.1358

3.1319

3.1393

3.1466

3.1378

3.1295

3.1431

3.1433

3.1404

3.1385

3.1378

3.1434

3.1502

3.1498

3.1402

3.1442

3.1474

3.1535

3.1379

3.1418

3.1400

3.1463

3.1464

3.1335

3.1374

3.1450

3.1470

3.1372

3.1349

3.1326

3.1425

3.1450

3.1423

3.1384

3.1365

3.1474

3.1507

3.1378

3.1430

3.1439

3.1476

3.1514

3.1404

3.1409

3.1399

3.1484

3.1303

3.1398

3.1349

3.1448

3.1476

3.1358

3.1348

3.1341

3.1423

3.1411

3.1382

3.1353

3.1433

3.1456

3.1496

3.1380

3.1409

3.1434

3.1496

整理步骤：

1.数据排序（sort）首先对数据按从小到大排列（升序）或从大到小排列（降序）。

2.求极差（range）所有数据中的最大观察值和最小观察值的差数，称为极差，亦即整个样本的变异幅度。

从例5表中查到最大观察值为3.15349，最小观察值为3.12950，极差为3.15349-3.12950=0.02399。

3.确定组数和组距（classinterval）根据极差分为若干组，每组的距离相等，称为组距。

在确定组数和组距时应考虑：

●观察值个数的多少；

●极差的大小；

●便于计算；

●能反映出资料的真实面貌。

组数确定后，还须确定组距。

组距=极差/组数。

例5中，样本内观察值的个数为100，可分为8—16组，假定分为8组，则组距为0.02399/8=0.003

样本内观察值的个数

分组时的组数

5—10

100

8—16

200

10—20

300

12—24

500

15—30

1000

20—40

4.计算组限（classlimit）和组中点值（组值，classvalue）例5中，选定第一组的中点值为3.12950，与最小观察值相等；则第二组的中点值为:

12950+0.02399=3.13250，余类推。

组界=组中点值±组距/2。

如第一组的组下限为：

组中点值-组距/2=3.12950-0.003/2=3.1280。

第一组的组上限为：

组中点值+组距/2=3.12950+0.003/2=3.1310

5.把原始资料的各个观察值按分组数列的各组组限归组

数据频数整理的最终目的是：

反映出资料的真实面貌。

在上图中，折线图呈现双峰值，可能是分组不当所致，更换分组方法可能会得到更好的结果。

重新分组后，结果明显好于前者

六样本的数字特征

●数据集中点的度量：

平均数

●数据变异程度的度量：

方差、标准差和变异系数

●数据分布和对称程度的度量：

偏斜度和峭度

这些描述样本频率分布特征的统计量，称为样本数字特征或样本特征数

1平均数

（1）概念：

是一组数据的代表值，表示资料中观察值的中心位置，并且可作为资料的代表而与另一组资料相比较，借以明确二者之间相差的情况。

算数平均数计算公式：

●Σ是求和符号

●n为样本容量

●i=1是相加数的下限

Σ运算法则

（2）算数平均数的重要特性：

●算数平均数的计算与样本内每个值都有关每个xi都乘以相同常数k，则平均数也应乘以k

●每个xi都加上相同常数k，则平均数也应加上k

●若

是n1个数的平均数，

是n2个数的平均数，那么全部n1+n2个数的算数平均数是加权平均数

●其他特性：

1）样本平均数是一个常数

2）离均差之和等于零：

3）有一样本，

只有当B=

时，

最小，即：

（3）算数平均数的计算方法：

①直接法

序号

测定值

②加权法

192

130

132

138

③数量分组资料

0.56

1.68

0.65

4.55

0.74

7.40

0.83

21.58

0.92

48.76

1.01

66.66

1.10

46.20

1.19

29.75

1.28

14.08

1.37

6.85

1.46

2.92

2、方差（标准差）

•方差和标准差是测度数据变异程度的最重要、最常用的指标。

方差是各单位变量值与其算术平均数的离差平方的平均数，通常以σ2表示。

•方差的计量单位和量纲不便于从实际意义上进行解释，所以在统计分析中多用标准差来测度统计数据的差异程度。

标准差又称均方差，一般用σ表示。

方差计算公式

标准差计算公式

离均差平方和，简称平方和

自由度

●方差和标准差是根据全部数据计算的，它反映了每个数据与其均值相比平均相差的数值，因此它能准确地反映出数据的离散程度。

●方差和标准差在数学处理上是通过平方消去离差的正负号，更便于数学上的处理。

因此，方差和标准差是实际中应用最广泛的离散程度测度值。

3、变异系数

●变异系数，通常是就标准差来计算的，因此，也称为标准差系数，它是一组数据的标准差与其相应的平均数之比，是测度数据离散程度的相对统计量，其计算公式为：

变异系数主要用于对不同组别数据的离散程度的比较。

展开阅读全文

第一章 统计数据的收集与整理讲稿.docx

第一章统计数据的收集与整理讲稿.docx