数据统计与分析方法ppt课件.ppt

资源描述

数据统计与分析方法ppt课件.ppt

《数据统计与分析方法ppt课件.ppt》由会员分享，可在线阅读，更多相关《数据统计与分析方法ppt课件.ppt（123页珍藏版）》请在冰点文库上搜索。

数据统计与分析方法ppt课件.ppt

数据统计与分析方法,1、数据统计的一般方法；2、数据分析的一般方法；3、了解数据统计和分析在实际案例中的应用；4、了解时间序列分析及相关软件应用；,培训主要内容：

瞎子王国里,有一只眼精的人就是国王!

.,心电图的由来,1780年有一天，43岁的意大利解剖学家伽伐尼GalvaniLuigi，1737-1798），在实验室解剖青蛙，在用银质手术刀触碰放在铁盘上的青蛙的时候，无意间发现青蛙腿部肌肉抽搐了一下，仿佛受到电流的刺激如果换用一种金属器械去触动青蛙，就无此种反应。

1832年，一个晴朗的日子，还是意大利，还是青蛙，只是做实验的人换成了马泰乌奇。

这一次，马泰乌奇探测到损伤和未损伤的肌肉之间存在一种电流，他称之为“肌肉电流”。

他发现，包括心脏在内，一切正在收缩的肌肉都会产生肌肉电流。

医学研究者通过大量的临床数据发现正常和非正常的心电图,.,1、什么是数据？

数据是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。

它是可识别的、抽象的符号。

数据表现形式,.,表现形式一,数据列表,.,数据表现形式二,描述性分析：

数据分时段走势、差距变化情况以及相应的时间背景,销售码洋趋势图,.,数据表现形式三,销售码洋结构比,图形可以帮助我们将数据转换成信息,.,数据类型的分类,1、计量资料（measurementdata）,用仪器、工具等测量方法获得的数据，又称数值变量。

特点：

有计量单位，如患者的身高（cm）,体重（kg）,血压（kPa）等.,2、计数资料（countdata）,按某种属性分类计数后得到的数据，又称无序分类变量，有二分类和多分类两种情形.,特点：

无计量单位，如肤色（黑白）、血型（ABO）、职业（工农兵）、性别（男，女）等.,3、等级资料（ordinaldata）,半定性或半定量的观察结果，有大小顺序，又称有序分类变量.,如癌症分期：

早、中、晚。

药物疗效：

治愈、好转、无效、死亡。

尿蛋白：

+,+及以上,.,实例数据,计量资料,计数资料,.,三类资料间关系,例：

一组2040岁成年人的血压,以12kPa为界分为正常与异常两组，统计每组例数,8低血压8正常血压12轻度高血压15中度高血压17重度高血压,计量资料,等级资料,计数资料,.,第一部数据统计概述,.,什么是统计方法,统计方法是指有关收集、整理、分析和解释统计数据，并对其所反映的问题作出一定结论的方法。

统计方法是一种从微观结构上来研究物质的宏观性质及其规律的独特的方法。

.,一般统计方法,根据数据的类型可以分为以下三种统计方法1、计量资料的统计方法*2、计数资料的统计方法3、等级资料的统计方法,.,运用统计方法应遵循的原则,坚持用数据说话的基本观点。

有目的地收集数据。

掌握数据的来源。

认真整理数据。

.,统计分析流程,确定问题确定分析目标,采用科学方法收集数据,考察数据时效性整理数据,统计分析,出具分析报告，提出解决意或建议,.,计量资料的统计描述,1、频数分布（frequencydistribution）,为了了解数据的分布情况,可以编制频数表（frequencytable）.,

（1）求极差（range）：

即最大值与最小值之差，又称为全距。

（2）数据分组:

由样本容量n确定组数、通常分10-15个组;一般采取等距分组,组距=极差/组数。

（3）列出组段：

第一组段的下限略小于最小值，最后一个组段上限必须包含最大值，其它组段上限值忽略。

（4）划记计数：

用划记法将所有数据归纳到各组段，得到各组段的频数。

频数表的编制步骤,.,表2-1:

160名正常成年女子的血清甘油三酯（mmol/L）,.,编制频数表,绘制频数分布图,.,对称分布：

以频数最多组段为中心左右大体对称.右（正）偏态分布:

频数最多组段右侧组段数多.（skewedtotherightdistribution）左（负）偏态分布:

频数最多组段左侧组段数多.（skewedtotherightdistribution）,.,2、集中趋势的描述,统计上使用平均数（average）来反映计量资料的集中趋势（centraltendency）.,常用平均数有：

1.算术均数（arithmeticmean），简称均数（mean）2.几何均数（geometricmean）3.中位数（median）4.百分位数（percentile）,.,3、离散趋势的描述,反映数据的离散度（Dispersion）,即个体观察值的变异（variation）程度,常用的统计指标有：

1.极差（Range）（全距）2.四分位数间距（Quartilerange）3.方差（Variance）4.标准差（StandardDeviation）5.变异系数（CoefficientofVariation）,四分位间距：

QRP75P25,.,三、SPSS实现计量资料的统计描述,下面是SPSS软件中绘制频数图的步骤,.,.,四、计数资料的统计描述,1、计数资料数据的整理,.,按年龄（2岁一组）与职业整理,.,2、常用相对数指标,计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数等.但绝对数不具可比性,需要计算相对数.,率（rate）：

说明某现象或某事物发生的频率或强度。

率=（实际发生数/可能发生总数）比例基数比例基数：

100%、1000、10000/万、100000（1/10万）等如：

发病率、死亡率、发生率、阳性率、患病率等构成比（proportion）：

说明某一事物内部，各组成部分所占的比重,也叫百分比。

构成比=（某部分观察单位数/各组成部分观察单位总数）100%如：

教研室20人中高级职称有5人，占25。

相对比（relativeratio）：

是A、B两个有关指标之比，说明A是B的若干倍或百分之几，通常用倍数或分数表示。

如：

男：

女、医生：

护士、教师：

学生,.,例:

率与构成比,.,

（1）不能以构成比代替率。

（2）计算相对数的分母不宜过小,小则直接叙述。

（3）进行率的对比分析时，应注意资料可比性。

如比较疗效时，比较组间应病情轻重相同，性别影响，应按性别分组后再作比较。

（4）正确求平均率。

例：

若P1=x1/n1P2=x2/n2P3=x3/n3P（x1+x2+x3）/n1+n2+n3）（正确）P（P1+P2+P3）/3（错误）,3、相对数应用注意事项,.,计数资料和等级资料的SPSS表示,.,五、统计表与统计图,统计表（statisticaltable）数据代替文字描述，便于统计结果的精确、简洁的表达和对比分析.统计图（statisticalchart）用图形代替数据，获得直观、形象的效果.,统计表,统计图,定义:

将统计分析的事物及指标用表格列出.特点:

避免长篇文字叙述,便于阅读和对比分析;数据具体.,定义:

用点的位置,线段的升降,直条的长短或面积的大小等形式表达统计资料.特点:

直观,醒目,常给人以深刻印象.,.,统计表由以下几个部分组成：

标题、标目、线条、数字、备注,表2-9某省某工厂1994、1998年四项检测指标异常检出率,：

TTT（麝香草酚浊度试验），：

GPT（谷丙转氨酶）。

（丁建生等.中国卫生统计1999;16（3）:

166）,1、统计表的结构,.,备注：

表号标题（包括何时、何地、何事）,2、三线表,.,根据分组标目的复杂程度，统计表可大致分为简单表和复合表。

简单表（simpletable）：

只按一个特征或标志分组。

如表2-8。

复合表（combinativetable）：

按两个或两个以上特征或标志结合起来分组。

如表2-9。

3、统计表的分类,.,3、不良统计表的修改,.,统计图（statisticalchart或statisticalgraph）是用点、线、面等几何图形，直观形象地表达、描述数据或结果。

3、统计图,.,SPSS绘制基本图形,.,SPSS绘制基本图形,.,条形图（BarChart）,用途：

用等宽直条的长短来表示相互独立的各统计指标的数值大小,也叫直条图.分单式和复式两种.,.,单式条形图,复式条形图,.,圆图（PieChart）,用途：

以圆的半径将圆面分割成多个大小不等的扇形，以扇形面积来表达构成比的图形。

.,线图（LineChart）,用途：

适用于连续变量资料，说明某事物因时间、条件推移而变迁的趋势。

.,直方图（Histogram）,用途：

直方图是以面积表示数量，适用于表达连续性资料的频数或频率分布。

第二部数据分析概述,.,什么是数据分析,请牢记：

所有的分析要从“结果”出发，没有结论的数字罗列并不是分析；“结果”：

发现问题和解决问题。

.,数据分析不是一门复杂的科学；而是一些简单的“commonsense”；复杂的运算通常只是令分析结果更差而不是更好；绝大多数是简单的想法和简单的沟通数据分析有时候是一门艺术同样的数据会有不同的解读优秀和平庸的差异，有时候差在一种灵感,.,数据分析目的,让数据说话；行动的向导；杜绝浪费；提供决策的依据。

数据分析误区,误区一:

展示元素不宜大于3个,数据分析误区,误区二:

时间序列数据最好使用折线图，而不宜使用柱状图等,误区三:

研究用数据最好不使用三维立体图,数据分析误区,误区四：

为避免图表的欺骗性，图线最好占据2/3至3/4的高度（调整Y轴刻度）,数据分析误区,常用的数据分析方法,1、抽样法*2、聚类分析（ClusterAnalysis）*3、因子分析（FactorAnalysis）4、相关分析（CorrelationAnalysis）5、对应分析（CorrespondenceAnalysis）6、回归分析（regressionanalysis）7、方差分析（ANOVA/AnalysisofVariance）8、时间序列分析*,总体:

总体、个体,个体:

总体又叫母体，是研究对象的全体。

出版商一个批次到货的全部都可以称为总体。

构成总体的基本单位，称为个体。

每册书都是一个个体。

来货检验常用抽样方法进行，即从来货总件数中抽出一部分件数，并测试每件的有关册数是否够数的特性数据，进行统计分析后，对总体作出估计和判断。

.,一般地，设一个总体含有N个个体，从中逐个不放回地抽取n个个体作为样本（nN），如果每次抽取使总体内的各个个体被抽到的机会都相等，就把这种抽样方法叫做简单随机抽样。

抽样方法主要包括：

随机抽样、分层抽样、整体抽样、系统抽样。

样本:

样本,样本又叫子样，是从总体中抽出来一部分个体的集合。

样本中每个个体叫样品，样本中所包含样品数目称为样本大小，又叫样本量，常用n表示。

对样本的特性进行测定，所得的数据称为样本值。

当样本个数越多时，分析结果越接近总体的值，样本对总体的代表性就越好。

抽样方法,用的统计抽样方法主要有以下三种,随机抽样法分层抽样法系统抽样法,书业公司,抽样方法,随机抽样,指总体中每一个个体都有同等可能的机会被抽到。

这种抽样方法事先不能考虑抽取哪一个样品，完全用偶然方法抽样，常用抽签或利用随机数表来抽取样品以保证样品代表性。

当图书品种不多时，随机抽样是一种有效的抽样方法；,抽样方法,分层抽样,分层抽样是先将总体按照研究内容密切有关的主要因素分类或分层，然后在各层中按照随机原则抽取样本。

分层抽样可以减少层内差异，增加样本的代表性。

当到货产品较多时，分层抽样是一种有效的抽样方法；,抽样方法,系统抽样,从总体中每隔K个个体抽取一个个体的抽样方法，比值K是总体容量N与样本容量n之比；,当出版商批量发货及产品特别多时，并且易作某种次序的整理时，系统抽样比分层抽样好；,1，2，.KK+1，K+2，.，2K2K+1，2K+2，.，3K直到N为止,例，从具有1000个个体的总体中抽取50个个体。

总体、样本、数据间的关系,总体,样本,结论,数据,抽样,分析,管理,测试,数理整理和统计,抽样的目的是通过样本来反映总体。

在书业公司经营管理中，常常将测试的样本数据，通过整理加工，找出它们的特性，从而推断总体的变化规律、趋势和性质。

一批数据的分布情况，可以用中心倾向及数据的分散程度来表示，表示中心倾向的有平均值、中位值等，表示数据分散程度的有方差、标准偏差、极差等。

描述总体数据离散程度的参数为方差2，描述总体数据中心倾向的数为均值。

若利用样本参数近似描述总体状况时，可以利用样本方差S2近似代替总体方差2，利用样本均值X近似代替总体均值p。

数理整理和统计,样本平均值,样本中位值,X=,X1+X2+X3.+Xn,n,中位值是按照数据大小顺序排列位于中间的数值，中位值记为X,若n为偶数，则取位于中间两个数值的平均值为中位值；,数理整理和统计,样本极差,样本方差和样本标准偏差,样本方差和样本标准差就是用来度量数据波动幅度大小的一个重要特性值。

样本方差是一组数据中每一个数值与平均值之差的平方和的平均值，通常记为S2；样本方差的平方根S称作样本标准偏差，它与样本方差一样，是反映一组数据分散程度的特性值:

样本极差表示一组数据分布的范围，是指数据中最大值与最小值的差:

R=Xmax-Xmin,2、聚类分析,聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。

聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。

聚类分析所使用方法的不同，常常会得到不同的结论。

不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。

.,分类,俗语说，物以类聚、人以群分。

但什么是分类的根据呢？

比如，要想把中国的县分成若干类，就有很多种分类法；可以按照自然条件来分，比如考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。

.,聚类分析,对于一个数据，人们既可以对变量（指标）进行分类（相当于对数据中的列分类），也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。

比如学生成绩数据就可以对学生按照理科或文科成绩（或者综合考虑各科成绩）分类，当然，并不一定事先假定有多少类，完全可以按照数据本身的规律来分类。

下面要介绍的分类的方法称为聚类分析（clusteranalysis）。

对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。

这两种聚类在数学上是对称的，没有什么不同。

.,饮料数据（drink.sav）,16种饮料的热量、咖啡因、钠及价格四种变量,.,如何度量远近？

如果想要对100个学生进行分类，如果仅仅知道他们的数学成绩，则只好按照数学成绩来分类；这些成绩在直线上形成100个点。

这样就可以把接近的点放到一类。

如果还知道他们的物理成绩，这样数学和物理成绩就形成二维平面上的100个点，也可以按照距离远近来分类。

三维或者更高维的情况也是类似；只不过三维以上的图形无法直观地画出来而已。

在饮料数据中，每种饮料都有四个变量值。

这就是四维空间点的问题了。

.,聚类分析,1、系统聚类法-（分层聚类）系统聚类法是应用最广泛的一种（HierarchicalCluster过程）1）、聚类原则：

都是相近的聚为一类，即距离最近或最相似的聚为一类。

2）、分层聚类的方法可以用于样本聚类（Q）型，也可以用于变量聚类（R型）。

2、非系统聚类法-（快速聚类法-K-均值聚类法）（K-meansCluster）3、两步聚类法-一种探索性的聚类方法（TwoStepCluster）,.,K-均值聚类分析K-meansCluster,又称为快速样本聚类法，是非系统聚类中最常用的聚类法。

优点：

是占内存少、计算量小、处理速度快，特别适合大样本的聚类分析。

缺点：

应用范围有限，要求用户制定分类数目（要告知），只能对观测量（样本）聚类，而不能对变量聚类，且所使用的聚类变量必须都是连续性变量。

.,所有会员位置图代码和结果见Excel表,.,时间序列分析（timeseriesanalysis）方法,强调的是通过对一个区域进行一定时间段内的连续遥感观测，提取图像有关特征，并分析其变化过程与发展规模。

当然，首先需要根据检测对象的时相变化特点来确定遥感监测的周期，从而选择合适的遥感数据。

时间序列分析（timeseriesanalysis）,.,时间序列的基本概念,一、时间序列1、含义：

指被观察到的依时间为序排列的数据序列。

2、特点：

（1）现实的、真实的一组数据，而不是数理统计中做实验得到的。

既然是真实的，它就是反映某一现象的统计指标，因而，时间序列背后是某一现象的变化规律。

（2）动态数据。

.,.,2010年11月17日-2011年4月8日上证综指,.,二、时间序列分析时间序列分析：

是一种根据动态数据揭示系统动态结构和规律的统计方法。

其基本思想：

根据系统的有限长度的运行记录（观察数据），建立能够比较精确地反映序列中所包含的动态依存关系的数学模型，并借以对系统的未来进行预报,.,三、确定性时间序列分析与随机性时间序列分析:

时间序列依据其特征，有以下几种表现形式，并产生与之相适应的分析方法：

（1）长期趋势变化受某种基本因素的影响，数据依时间变化时表现为一种确定倾向，它按某种规则稳步地增长或下降。

使用的分析方法有：

移动平均法、指数平滑法、模型拟和法等；,.,

（2）季节性周期变化受季节更替等因素影响，序列依一固定周期规则性的变化，又称商业循环。

采用的方法：

季节指数；（3）循环变化周期不固定的波动变化。

.,（4）随机性变化由许多不确定因素引起的序列变化。

它所使用的分析方法就是我们要讲的时间序列分析。

趋势变化分析确定性变化分析周期变化分析循环变化分析时间序列分析随机性变化分析:

AR、MA、ARMA模型,.,Wold分解定理（1938）,对于任何一个离散平稳过程它都可以分解为两个不相关的平稳序列之和，其中一个为确定性的，另一个为随机性的，不妨记作其中：

为确定性序列，为随机序列，它们需要满足如下条件

（1）

（2）（3）,.,确定性序列与随机序列的定义,对任意序列而言，令关于q期之前的序列值作线性回归其中为回归残差序列，。

确定性序列，若随机序列，若,.,Cramer分解定理（1961）,任何一个时间序列都可以分解为两部分的叠加：

其中一部分是由多项式决定的确定性趋势成分，另一部分是平稳的零均值误差成分，即,确定性影响,随机性影响,.,循环变动C（Cyclical）,不规则变动I（Irregular）,季节变动S（Seasonal）,.,对两个分解定理的理解,Wold分解定理说明任何平稳序列都可以分解为确定性序列和随机序列之和。

它是现代时间序列分析理论的灵魂，是构造ARMA模型拟合平稳序列的理论基础。

Cramer分解定理是Wold分解定理的理论推广，它说明任何一个序列的波动都可以视为同时受到了确定性影响和随机性影响的综合作用。

平稳序列要求这两方面的影响都是稳定的，而非平稳序列产生的机理就在于它所受到的这两方面的影响至少有一方面是不稳定的。

.,确定性时序分析的目的,克服其它因素的影响，单纯测度出某一个确定性因素对序列的影响推断出各种确定性因素彼此之间的相互作用关系及它们对序列的综合影响,.,4-3-2时间序列趋势分析,目的有些时间序列具有非常显著的趋势，我们分析的目的就是要找到序列中的这种趋势，并利用这种趋势对序列的发展作出合理的预测常用方法趋势拟合法平滑法,.,趋势拟合法,趋势拟合法就是把时间作为自变量，相应的序列观察值作为因变量，建立序列值随时间变化的回归模型的方法分类线性拟合非线性拟合,.,线性拟合,使用场合长期趋势呈现出线形特征模型结构,.,例:

拟合澳大利亚政府19811990年每季度的消费支出序列,.,线性拟合,模型参数估计方法最小二乘估计参数估计值,.,拟合效果图,.,非线性拟合,使用场合长期趋势呈现出非线形特征参数估计指导思想能转换成线性模型的都转换成线性模型，用线性最小二乘法进行参数估计实在不能转换成线性的，就用迭代法进行参数估计,.,常用非线性模型,.,例：

对上海证券交易所每月末上证指数序列进行模型拟合,.,非线性拟合,模型变换参数估计方法线性最小二乘估计拟合模型:

.,拟合效果图,.,时间序列预测法时间序列预测法可用于短期预测、中期预测和长期预测。

根据对资料分析方法的不同，又可分为：

简单序时平均数法、加权序时平均数法,.,平滑法,平滑法是进行趋势分析和预测时常用的一种方法。

它是利用修匀技术，削弱短期随机波动对序列的影响，使序列平滑化，从而显示出长期趋势变化的规律,.,简单平均数法:

也称算术平均法。

即把若干历史时期的统计数值作为观察值，求出算术平均数作为下期预测值。

这种方法基于下列假设：

“过去这样，今后也将这样”，把近期和远期数据等同化和平均化，因此只能适用于事物变化不大的趋势预测。

如果事物呈现某种上升或下降的趋势，就不宜采用此法。

加权平均数法:

就是把各个时期的历史数据按近期和远期影响程度进行加权，求出平均值，作为下期预测值。

.,.,移动平均法,基本思想假定在一个比较短的时间间隔里，序列值之间的差异主要是由随机波动造成的。

根据这种假定，我们可以用一定时间间隔内的平均值作为某一期的估计值分类n期中心移动平均n期移动平均,.,移动平均期数确定的原则,事件的发展有无周期性以周期长度作为移动平均的间隔长度，以消除周期效应的影响对趋势平滑的要求移动平均的期数越多，拟合趋势越平滑对趋势反映近期变化敏感程度的要求移动平均的期数越少，拟合趋势越敏感,.,移动平均预测,.,时间序列模型的基本概念及其适用性,.,时间序列模型的基本概念,随机时间序列模型（nimeseriesmodeling）是指仅用它的过去值及随机扰动项所建立起来的模型，其一般形式为Yn=F（Yn-1,Yn-2,n）建立具体的时间序列模型，需解决如下三个问题：

（1）模型的具体形式

（2）时序变量的滞后期（3）随机扰动项的结构,.,例如，取线性方程、一期滞后以及白噪声随机扰动项（n=n），模型将是一个1阶自回归过程AR

（1）：

Yn=aYn-1+n这里，n特指一白噪声。

一般的p阶自回归过程AR（p）是Yn=a1Yn-1+a2Yn-2+apYn-p+n（*）,.,

（1）如果随机扰动项是一个白噪声（n=n），则称

（1）式为一纯AR（p）过程（pureAR（p）process），记为Yn=a1Yn-1+a2Yn-2+apYn-p+n

（2）如果n不是一个白噪声，通常认为它是一个q阶的移动平均（movingaverage）过程MA（q）：

n=n-c1n-1-c2n-2-cqn-q该式给出了一个纯MA（q）过程（pureMA（p）process）。

一般的p阶自回归过程AR（p）是Yn=a1Yn-1+a2Yn-2+apYn-p+n

（1）,.,将纯AR（p）与纯MA（q）结合，得到一个一般的自回归移动平均（aunoregressivemovingaverage）过程ARMA（p,q）：

Yn=a1Yn-1+a2Yn-2+apYn-p+n-c1n-1-c2n-2-cqn-q,该式表明：

（1）一个随机时间序列可以通过一个自回归移动平均过程生成，即该序列可以由其自身的过去或滞后值以及随机扰动项来解释。

（2）如果该序列是平稳的，即它的行为并不会随着时间的推移而变化，那么我们就可以通过该序列过去的行为来预测未来。

这也正是随机时间序列分析模型的优势所在。

.,需要说明的是，在上述模型的平稳性、识别与估计的讨论中，ARMA（p,q）模型中均未包含常数项。

如果包含常数项，该常数项并不影响模型的原有性质，因为通过适当的变形，可将包含常数项的模型转换为不含常数项的模型。

下面以一般的ARMA（p,q）模型为例说明。

对含有常数项的模型,方程两边同减/（1-a1-ap），则可得到,其中,.,趋势项和季节性的典型差分处理方法1.恒定趋势即总的趋势保持在同一水平，均值0。

引入算子，定义为：

=（1B）,即xt

展开阅读全文