STATISTICA 电子教程.docx

上传人:b****1 文档编号:10660205 上传时间:2023-05-27 格式:DOCX 页数:17 大小:192.94KB
下载 相关 举报
STATISTICA 电子教程.docx_第1页
第1页 / 共17页
STATISTICA 电子教程.docx_第2页
第2页 / 共17页
STATISTICA 电子教程.docx_第3页
第3页 / 共17页
STATISTICA 电子教程.docx_第4页
第4页 / 共17页
STATISTICA 电子教程.docx_第5页
第5页 / 共17页
STATISTICA 电子教程.docx_第6页
第6页 / 共17页
STATISTICA 电子教程.docx_第7页
第7页 / 共17页
STATISTICA 电子教程.docx_第8页
第8页 / 共17页
STATISTICA 电子教程.docx_第9页
第9页 / 共17页
STATISTICA 电子教程.docx_第10页
第10页 / 共17页
STATISTICA 电子教程.docx_第11页
第11页 / 共17页
STATISTICA 电子教程.docx_第12页
第12页 / 共17页
STATISTICA 电子教程.docx_第13页
第13页 / 共17页
STATISTICA 电子教程.docx_第14页
第14页 / 共17页
STATISTICA 电子教程.docx_第15页
第15页 / 共17页
STATISTICA 电子教程.docx_第16页
第16页 / 共17页
STATISTICA 电子教程.docx_第17页
第17页 / 共17页
亲,该文档总共17页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

STATISTICA 电子教程.docx

《STATISTICA 电子教程.docx》由会员分享,可在线阅读,更多相关《STATISTICA 电子教程.docx(17页珍藏版)》请在冰点文库上搜索。

STATISTICA 电子教程.docx

STATISTICA电子教程

   STATISTICAFORWINDOWS5.0是由美国StatSoft公司研制开发的具有极强专业性的统计软件。

它有极强的统计分析功能,拥有的统计方法十分丰富,几乎涵盖目前统计学专著中所介绍的所有方法;具有很好的统计绘图功能,能输出形式多样、美观清晰的二维、三维统计图;具有方便的数据管理技术,既可以直观地进行数据的输入、修改、编辑和保存,也可以随意与其它数据库文件进行交换或格式变换;对我们中国人来说,另一优点是它具有极佳的汉字兼容性,数据库的变量名、结果输出文档、统计图标题标目等内容,均可用汉字显示,从而为科研过程和论文撰写带来极大的便利;此外它所需的空间较小。

   本教程的基本框架译自美国StatSoft公司提供的网上英文读物,并结合我国实际,以STATISTICA软件的统计模块为蓝本,在介绍软件使用的同时,着重阐述了各种统计学方法的运用指南,使读者在掌握统计软件的使用后,能对各种统计方法有更深层次的了解和掌握。

 

统计学意义(P值)

结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。

专业上,P值为结果可信程度的一个递减指标,P值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。

P值是将观察结果认为有效即具有总体代表性的犯错概率。

如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。

即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。

(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。

)在许多研究领域,0.05的P值通常被认为是可接受错误的边界水平。

方差分析

基本思想

              ●方差分析的目的

              ●平方和的分解

              ●多因素方差分析

              ●交互作用

方差分析的目的

一般来说,方差分析的目的是检验均数间差异的显著性意义。

统计学基本概念对显著性检验的基本知识作了简要的介绍。

如果只比较两个均数,方差分析的结果与区组t-检验(比较两个不同观察对象组)或配对样本t-检验(比较同一组观察对象中两个变量)的结果是一样的。

如果你对这些检验不熟悉的话,详见基本统计一章。

为什么称为方差分析?

你可能会感到奇怪,一个比较均数差异的方法竟称为方差分析。

这种命名是因为在检验均数间差异是否具有统计学意义的过程中,我们实际上是通过比较方差而得到的。

平方和的分解

方差分析的核心就是方差可分解。

注意这里的方差是通过计算偏离总均数的平方和再除以n-1(样本量减1)而得到的。

这样,给定n值的情况下,方差就是离均差平方和,简称SS。

方差的分解按下表进行。

观察下列的数据:

项    目

第一组

第二组

1号对象

2号对象

3号对象

2

3

1

6

7

5

均数

离均差平方和

2

2

6

2

合计均数

合计离均差平方和

4

28

两组均数明显不同(2与6),每组的离均差平方和都等于2,加在一起为4。

如果忽略组别我们重复上述的计算,即我们在总均数的基础上计算总SS,得到的结果为28。

也就是说在组内变异基础上得到的方差比在总变异基础上得到的方差小得多。

出现上述情况的原因在于均数间存在较大的差异,这种差异可以解释SS的差异。

实际上,如果对上述的数据进行方差分析,可得到下列的结果:

误差类别

方差分析内容

SS

自由度

误差均方

F值

P值

处 理

误 差

24.0

4.0

1

4

24.0

1.0

24.0

0.008

可以看到,上表中的总SS(28)分解为各组内误差效应的变异SS(2+2=4)与处理效应的变异SS(28-4=24).

误差SS与处理SS。

组内变异(SS)通常指的是误差方差,表明了当前的设计中不能解释或说明的方差。

处理SS可以解释为由组间均数的差别所导致的,换句话说,不同组的处理因素不同,解释了这个变异,因为我们知道处理方式的差异使均数产生了变异。

统计学意义检验。

统计学意义的基本思想在统计学基本概念中已讨论过了,同时也解释了许多统计学检验其实是可解释方差与不可解释方差之比的原因。

方差分析就是一个很好的例子。

方差分析中,检验是在组间变异(效应均方或MSeffect)与组内变异(误差均方或Mserror)的方差比较的基础上进行的。

即使在无效假设前提下(总体中组间均数不存在差异),小样本均数仍有小的随机波动,因此组内变异方差应与组间变异方差大致相等。

F检验是用来检验两个方差的比率是否明显大于1。

在上例中,检验结果表明组间变异方差与组内变异方差的比值超过1,具有统计学意义,我们就可以判断:

两组均数的差异具有显著性。

方差分析的基本逻辑思想概要。

简要地说,方差分析的目的是检验均数(组间或变量间)差别是否具有统计学意义。

这是通过分析方差而达到的,即通过将总变异分解为由随机误差造成的变异(组内SS)与由均数差异造成的变异(组间SS)两个部分。

如果后者大于前者,并且具有统计学意义,我们将拒绝无效假设,接受备择假设:

即总体中均数间存在差异。

                 

多因素方差分析

上述简单的例子中,可以使用成组t检验而得到相同的结论。

的确如此,如果用这种方法进行两组均数的比较,得到的结果是一致的。

但是方差分析是更具弹性与高效性的统计技术,可以用于较为复杂的研究。

多因素。

世界本质是复杂、多元的,单个变量能够完全解释某一现象的例子极少。

例如探讨怎样长出较大的西红柿,我们需要考虑到植物的基因构成、土壤条件、光、温度等因素。

在这种需要考虑多个因素的实验中。

使用方差分析而不使用t-检验(在t-检验中是进行多次的两组比较)的一个重要原因在于前者效率更高,以较少的样本提供较多的信息。

因素的控制。

如果引入第三个分类因素,如性别。

每一组中含有3名男子与3名女子,用2×2表设计如下:

性别

第一组

第二组

男性

2

3

1

6

7

5

均数

2

6

女性

4

5

3

8

9

7

均数

4

8

在计算前,很显然可以将总变异分成3个来源:

(1)误差(组内)变异;

(2)实验(组间)变异;(3)性别导致的变异。

(注意:

还有另一变异来源——交互作用,后面将简要介绍这个问题。

)如果没有将性别作为一个研究因素而用简单的t-检验进行计算,结果又会怎样呢?

如果忽略了性别因素计算组间SS(SS=10+10=20),会发现组间SS比包含了性别变异的SS大了许多(组间联合SS等于2+2+2+2=8),这种差异是由于女性均数都高于男性造成的,如果我们忽略了性别这个因素,这种均数的差异增大了方差。

控制误差方差有利于增加检验的敏感性(效力)。

这个例子也说明了方差分析优于简单的两组均数比较t-检验的另一个原则:

方差分析中我们可以控制其他因素而对每一个因素进行检验;这就是为什么方差分析比简单的t-检验具有更强的统计学效力(即在较少的观察对象中就可找到有意义的效应)的原因。

交互作用

方差分析优于简单t-检验的另一优点在于:

方差分析可以检查变量间的交互作用,检验现实中更为复杂的假设。

为了解释这一点,让我们看下面的一个例子。

主效应,两因素交互作用。

假设一个样本为成就驱动型学生,另一个样本为成就回避型学生,然后我们将每一样本随机分为两半,其中的一半进行挑战性测验,另一半给予简易性测验,我们测量学生对测验的用功程度。

调查结果的均数如下:

测验性质

成就驱动型学生

成就回避型学生

挑战性

简易性

10

5

5

10

如何描述结果呢?

(1)挑战性测验使学生更用功,

(2)成就驱动型学生比成就回避型学生更用功,这样的结论合适吗?

上述的描述均没有抓住本质。

表述上述结果的适宜方式为:

挑战性测验仅使成就驱动型学生学习更用功,简易性测验仅使成就回避型学生更用功。

也就是说,对待成就的类型与测验的难易在作用的效果上存在交互作用。

统计学上,这是一个两因素交互作用。

上面的

(1)

(2)就是所谓的主效应。

高阶交互作用。

上述两因素交互作用可以很容易地用语言表述出来,但是表述高阶交互作用就比较困难了。

假如我们在上面的成就研究中增加了一个性别因素,我们得到如下的均数资料:

性别

测验性质

成就驱动型学生

成就回避型学生

男性

挑战性

简易性

10

5

5

10

女性

挑战性

简易性

1

6

6

1

我们又如何解释研究结果呢?

将所有效应的均数用图形表示就能够简便地解释复杂的效应(下图)。

因此我们说女性在对待成就类型与测验难度这两个因素上存在交互作用:

成就驱动型的女性在挑战性测验上比在简易性测验上用功,成就回避型的女性在简易性测验上比在挑战性测验上用功。

而男性中,交互作用恰好相反。

正如大家所看到的,交互作用的描述越来越复杂。

表达交互作用的基本方法。

表达所有交互作用的基本方法是说一个效应被另一个效应所修饰。

用上面的两因素交互作用的例子来说,就是测验难度这个主效应被对待成就类型所修饰。

而对于上述三因素的交互作用,我们可认为测验难度与对待成就类型的两因素交互作用被性别所修饰。

如果有四因素交互作用,我们说三因素的交互作用被第四个变量所修饰,即第四变量的不同水平产生不同类型的交互作用。

据证实,研究领域中的五因素或更高因素的交互作用较少。

相关分析

●什么是相关

●简单线性相关

●如何解释相关系数

●相关的显著性检验

●极端值

●极端值的定量处理办法

●非同质组的相关

●变量间的非线性关联

●测量非线性关联

●相关系数矩阵的探索性分析

●缺失数据的对象删除与配对删除

●如何辨别缺失值的配对删除引起的误差

●如缺失数据的配对删除与均值替代

●假关联

●相关系数可加吗

●如何判断两个相关系数具有显著性

目的(什么是关联)

  关联是测量2个或多个变量之间关系的一种方法。

量表至少必须为间隔型,但也可得到处理其他类型数据的相关系数。

相关系数范围在-1~1之间,-1表示完全负相关,1表示完全正相关,0表示不相关。

最常用的相关系数类型是Pearson相关系数(Pearsonr),也称为线性或时间-产出相关。

 

简单线性相关(Pearsonr)

   Pearson相关(下文均称为相关)要求被测量的变量都至少是间隔型的,它决定了两变量值互成比例的程度,相关程度值(如相关系数)不因测量单位的变化而变化;如身高与体重的关系,不管是用英寸(inches)和磅(pounds),还是用厘米(centimeters)和千克(kilograms),所得的结果都是一致的。

成比例意味着线性相关,即能用一条直线来描述的话(上斜或下斜),两者则高度相关。

  这条线称为回归线或最小平方线,因为它是由所有的点到直线的距离的平方和最小而得到的。

最小平方和这个概念与相关系数对各种不同数据的排列的对应有着重要的作用。

(见下文)。

     

如何解释相关系数

   上文提到,相关系数(r)表示的是两变量之间的线性关系。

如果将相关系数平方,得到的结果(R2决定系数)则表示两变量共同方差比例(相关的强度或大小),为了估计变量之间的关联,了解相关的强度或大小与相关统计学显著性显得很重要。

 

相关的显著性检验

   每个相关的显著性水平是相关可信性的最基本的信息。

正如上文说过(见基本概念),对于一定大小的相关系数,其显著性随样本量的大小而改变。

统计学意义检验是在变量Y的残差值(如到回归线的距离)的分布服从正态分布以及对于自变量X取任何值时,残差值的变异程度都一样的假设基础上进行的。

不过,MonteCarlo实验提示,如果样本量足够大的话,并不需要完全满足上述假设。

要准确地系统阐述MonteCarlo实验结果的建议是不可能的。

但许多学者都遵循下述准则:

如果样本量超过50的话,误差不会很大,如果样本量超过100的话,可以根本不用考虑正态假设。

但存在许多普通而严重问题威胁着相关系数信息的有效性,下段将简要介绍。

       

极端值

   极端值是非典型、不常出现的观察值。

由于回归线不是由最小距离和,而是由最小距离平方和决定的,极值对回归线的斜率和相关系数的值的大小都会有很大的影响。

只要有一个极值就能够改变回归线的斜率和相关系数。

见下例的插图,仅一个极值就使原本接近于0相关系数变为高度相关。

不言而喻,我们不能仅仅根据相关系数值而妄下结论。

(通常建议在进行相关分析前先考察其散点图)

注意如果样本量相当小,那么入选或排除不像上例中那么典型的极值时,将会严重影响回归线(和相关系数)。

这就是下一个例子用插图所显示的,我们排除了称为极端值的点,这些点有些人认为不是极端值而是极大值或极小值。

   通常认为极端值是我们都想控制的随机误差,但是,至今仍没有公认的办法自动去除极端值(见下段),因此我们只得观察每一个重要相关的散点图。

显然,极端值不仅可以人为地增加相关系数,也可以减少正确的相关系数。

  

极端值的定量处理办法

   一些学者用定量的方法来排除极端值。

比如他们将超过组中值或样本均值±标准差的大小加以排除。

在一些研究领域,这种排除绝对是必要的。

如在认知心理学反应时间的研究中,大多数人反应时间都在300-70毫秒,只有几个令人疑惑的反应时间在10-15秒间就可以将图形完全改变。

由于对极值的定义是主观的,如何判定极值必须按照各自的知识基础(参考典型的实验和认可的实践以及各个领域的一般经验)。

在一些罕见例子中,各组或样本观察值中出现相当频率的极值也可进行分析,并提供可解释的结果。

因为极值提示可能发生与样本典型观察期望值性质不同的现象,因此,一定数量的极值说明仍有一定频率的观察值与大多观察对象的典型值发生偏离。

非同质组的相关

   相关系数发生偏移的另一原因是计算相关系数的样本缺乏同质性。

假设计算相关系数的数据来自两个不同实验组但人们又忽略了这一点,其中一组的实验性操作增加了两个相关变量的值,这样每一组中的数据在散点图中都形成了明显的“阴云”。

 在这种情况下,由于两组非同质的数据的排列在一起而导致两者呈现高度相关,但并不能代表两者之间存在真正的关联,(如果单独观察每一组变量)其相关系数几乎等于0。

   如果怀疑在数据分析过程中存在这种现象,并且已知道如何鉴别数据中的亚类,最好先对每一亚类的数据进行单独的相关分析。

如果不知道如何识别假设的亚类,可用一些探索性的统计方法来辨别(如,聚类分析)。

    

变量间的非线性关联

   对于线性相关系数(Pearsonr)的另一潜在的问题是相关的类型。

上文讲过,Pearsonr仅仅是用来测量两变量线性相关关系;线性偏离会增加偏离回归线的总平方和,即使这些偏离能够体现两变量之间真正关系。

存在非线性关系的可能性是为什么散点图作为估计关联的必要步骤的另一原因。

下图显示了两变量存在强相关,但不能用线性方程描述出来。

测量非线性关联

   如果遇到非线性的强关联,该怎么办(从散点图中知道)?

这个问题的回答并不简单,因为没有类似Pearsonr这样易于使用的系数用于解决非线性关联。

如果曲线是单调的(递减或递增),可以将其中一个或两个变量都进行转化,进行曲线直线化,然后再次计算相关系数。

例如这种方法典型的例子即使将某一范围末尾值进行压缩的对数转化。

如果关联是单调的,另一种方法是使用仅对等级型变量敏感的非参数性的关联系数(如SpearmanR,见NonparametricsandDistributionFitting),这种情形就忽视了单调的可直线化曲线的特性。

非参数关联一般来说其敏感性较差,有时甚至得不到结果。

但是上述两种较为准确的方法并不能轻易使用,需要对数据进行大量的研究,因此必须:

 a.尽力寻找出最能描述曲线的特异方程,并进行数据拟合优度检验。

 b.另外可尝试将其中的一个变量分为多个等长的部分,将这些新变量当成分组变量,然后进行方差分析。

        

相关系数矩阵的探索性分析

   对多个变量的数据分析通常第一步是列出所有变量的相关矩阵,然后进行分析所期望(或意外)的显著性关联。

在结束这步后,要注意统计学显著性的基本性质(见基本概念);具体地说,如果进行多次检验,(在此,有多个关联),由于纯偶然性,就会得到许多显著性的结果。

例如理论上,相关系数在α=0.05水准下表示每20个系数中只有一个系数是由于偶然性得到的。

由于没有自动的方法剔出真正的相关。

因此必须对那些无法预料和以外的结果特别留意,要注意与其他结果一致性;对这种随机因素的控制最后要进行重复实验(尽管很昂贵)。

这个问题很普遍,存在于所有含有多次比较的分析中,这个问题在均数的两两比较与分解分析中已简要讨论。

 

缺失数据的对象删除(Casewise)与配对删除(Pairwise)

   在计算相关矩阵时,删除缺失数据的不负责任的办法是将所有含有缺失值的观察单位全部弃除,即所有的缺失值对象予以删除。

只有这样才可得到“真实”的相关矩阵,矩阵中所有相关系数都来自于相同的观察对象。

但是如果缺失值在观察样本中的分布是随机的,常常发现数据集中没有一个是有效的观察对象,因为每一个观察对象变量集中均至少含有一个缺失值。

在这种情况下,最常用的办法是使用所谓的矩阵缺失值的配对删除,这个矩阵中每一对变量的相关系数都是从两个变量都具有有效数据的观察对象中得到的。

通常这种方法没有什么不妥,特别是缺失值的百分率很低如10%,并且随机分布于各个观察单位与变量之间。

不过有时也会导致严重的错误。

   例如缺失值潜在的系统分布可产生系统偏差,相关矩阵中不同的相关系数在观察对象的不同亚群基础上得到的。

除了从这种“配对删除”的相关矩阵得出的错误的结论外,当将这种矩阵用于需要真实相关矩阵的其他分析时(如因子分析,聚类分析等),这种矩阵要求相关系数间有一定的一致性和传递性,真正的问题就产生了。

因此,如果使用缺失数据的配对删除方法,一定要检查缺失值在矩阵格子中的分布。

 

如何辨别缺失值的配对删除引起的误差

   如果配对删除缺失值不会对相关矩阵引起任何系统偏差,那么经过配对删除后对某个变量的描述性分析的统计量是都是相似的。

如果不同,就要怀疑是否存在偏差。

例如,如果计算与变量B关联时,变量A的均数(或标准差)比计算与变量C关联时小得多,那么我们有足够的理由怀疑这两个关联(A-B与A-C)是在数据亚集基础上得到的,相关矩阵中存在缺失值非随机分布导致的偏移。

如缺失数据的配对删除与均值替代

   另一种避免由于对象删除(casewise)而丢失数据的方法是用均值替代缺失值(用变量的均值替代变量中所有的缺失值),与配对删除比较,均值替代有其优点也有其缺点。

其主要的优点是得到内部一致的结果(真相关矩阵),主要的缺点在于:

   A.均值替代人为地减少了分值的方差,变量中方差减少的量与缺失值的数目成比例(如缺失值越多,数据中人为的平均值越多)。

   B.由于用人为的均值代替缺失值,均值替代可能严重影响相关系数的值。

  

假关联

  尽管相关系数不能证明因果关系(见基本概念),但是可辨别所谓的假关联;即关联的产生是由于另一个变量的影响。

如火灾中财产的损失与救火的消防队员的人数有关;不过关联并不意味着消防队员越少,损失越小。

存在第三变量影响着财产的损失与救火员的数目(火灾   的大小),如果控制了这个变量(如火灾的大小),这种关联要么不存在要么就反过来。

对于假关联的主要问题是我们不知道潜在变量是什么。

当我们知道从哪着手,便可使用偏相关来控制某一特定变量的影响。

相关系数可加吗?

   不能,例如多个样本中的相关系数的平均值并不能代表所有样本的平均关联,因为相关系数值并不是变量间关联大小的线性方程。

相关系数不能简单地平均。

通常,需要平均关联时,首先必须转化为可加的形式。

如,将相关系数平方得到可加的决定系数,或转化为所谓Fisherz值。

 

如何判断两个相关系数具有显著性

   有一种估计两样本中两相关系数显著性的检验方法。

检验的结果不仅有赖于样本量的大小还有赖于其系数的本身。

与上文原则一致,样本量越大,小效应也可证明具有显著性。

通常,因为相关系数的可信性随着本身的绝对值的增加而增加,所以大相关系数中相当小的差异有可能具有显著性。

例如,两个系数为0.15和0.25,相关系数0.1的差异可能无显著性,尽管在同一样本中,如果系数为0.80和0.90,0.1的差异可能有高度意义。

独立样本的t-检验 

●目的,假设

●数据排列

●t-检验图

●复杂的组间比较

目的,假设

      t-检验是比较两组均数差别最常用的方法。

例如,t-检验可用于比较药物治疗组与安慰剂治疗组病人的测量差别。

理论上,即使样本量很小时,也可以进行t-检验。

(如样本量为10,一些学者声称甚至更小的样本也行),只要每组中变量呈正态分布,两组方差不会明显不同,(见基本概念)。

如上所述,可以通过观察数据的分布或进行正态性检验估计数据的正态假设。

方差齐性的假设可进行F检验,或进行更有效的Levene’s检验。

如果不满足这些条件,只好使用非参数检验代替t-检验进行两组间均值的比较。

      t-检验中的P值是接受两均值存在差异这个假设可能犯错的概率。

在统计学上,当两组观察对象总体中的确不存在差别时,这个概率与我们拒绝了该假设有关。

一些学者认为如果差异具有特定的方向性,我们只要考虑单侧概率分布,将所得到t-检验的P值分为两半。

另一些学者则认为无论何种情况下都要报告标准的双侧t-检验概率。

数据的排列

   为了进行独立样本t-检验,需要一个自(分组)变量(如性别:

男女)与一个因变量(如测量值)。

根据自变量的特定值,比较各组中因变量的均值。

用t–检验比较下列男、女儿童身高的均值。

 

性别

身高

对象1

对象2

对象3

对象4

对象5

男性

男性

男性

女性

女性

111

110

109

102

104

 

男性身高均数=110

女性身高均数=103

t-检验图

在t-检验中用箱式图可以直观地看出均值与方差的比较。

见下图。

这些图示能够很快地估计并且直观地表现出分组变量与因变量关联的强度。

多组间的比较

   科研实践中,经常需要进行两组以上比较,或含有多个自变量并控制各个自变量单独效应后的各组间的比较,(如性别、药物类型与剂量),此时,需要用方差分析进行数据分析,方差分析被认为是t-检验的推广,(t**2[df]=F[1,df])。

在较为复杂的设计时,方差分析具有许多t-检验所不具备的优点。

(进行多次的t-检验进行比较设计中不同格子均值时)。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 表格类模板

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2