不拒绝Ho
(2)P值法是根据检验统计量的概率P值与显著性水平:
进行比较,以要判定应拒绝原假设还是不应拒绝原假设。
如果P值小于显著性水平〉,则拒绝原假设;如果P值大于显著性水平:
•,则不能拒绝原假设。
&1.5利用P值进行决策
P值:
当原假设为真是所得到的样本观察结果或更极端结果出现的概率。
P值决策原理:
得到检验统计量的概率P值后的决策就是要判定应拒绝原假设还是不应拒
绝原假设。
如果检验统计量的概率P值小于显著性水平:
•,则拒绝原假设;P值越小,拒绝原假设的理由就越充分。
反之,如果检验统计量的概率P值大于显著性水平:
•,则不应拒绝原假设。
8.2.1检验统计量的确定
检验统计量选择的影响因素:
样本量n、总体标准差c
1■样本量
在大样本情况下,样本量都服从正态分布,我们使用z统计量
2.总体标准差二是否已知
(1)总体标准差匚已知
样本统计量服从正态分布,采用z统计量。
(2)总体标准差二未知
使用样本标准差代替总体标准差,样本统计量服从t分布,采用t统计量。
当nv30且总体标准差二未知时,采用t统计量;当n>30时,根据使用者偏好选择z统计量还是t统计量。
一个总体参数检验的检验统计量的确定归纳为图8-7,见教材p195。
8.4.1关于检测结果的解释
通常统计学家建议我们在叙述中采用“不能拒绝Ho”而不采用“接受Ho”
这种说法。
8.4.2单侧检验中假设的建立
在实际应用中,我们通常把希望验证的命题放在备择假设,通过备择假设来确定原假设,即把原有的、传统的观点或结论放在原假设上。
我们需要注意的是:
如果没有拒绝原假设,并不意味着原假设是真实的、真理,也并不意味着备择假设就是错的,只是暂时没有充分的证据证明原假设不成立
(如同无罪假设);接受备择假设则一定意味着原假设是错误的。
关于何谓“原有的、传统的”,原假设,即原有理论、看法、状况、历史经验、以及被大多数人认可的事情,在没有充分证据的情况下,被假定为正确的事情。
关于何谓“新的、可能的”备择假设,即检验者感兴趣的那些新事物、可能的、猜测质疑的问题,希望用事实推翻原假设以得出新观点。
第十章方差分析
10.1.1方差分析及其有关术语
方差分析是比较多个总体的均值是否相等的统计方法,本质上主要是研究一个或多个分类自变量与一个数值型变量之间的关系(即分类自变量对数值型因变量的影响)。
10.1.2方差分析的基本思想和原理
2.误差分解
组内误差:
来自水平内部的数据误差,反映了一个样本内部数据的离散程度。
组内误差只含有随机误差。
(见教材P238)
组间误差:
来自不同水平之间的数据误差,是随机误差和系统误差的总和,反映了不同样本之间数据的离散程度。
在方差分析中,数据的误差是用平方和来表示的。
总平方和(SST):
反映全部数据误差大小的平方和。
教材P239
误差平方和(SSE):
反映组内误差大小的平方和。
教材P239因素平方和(SSA):
反映组间误差大小的平方和。
教材P239SST=SSE+SSA
10.1.3方差分析中的基本假定
(1)每个总体应服从于正态分布。
(2)各总体的方差必须相同。
(3)观测值是独立的。
10.2.2分析步骤
1.提出假设
2.构造检验的统计量
为构造检验的统计量,在方差分析中,需要计算三个误差平方和。
SSE:
每个组的各样本数据与其组均值的误差平方和,反映了每个样本各观测值的离散程度(随机误差的大小)。
对随机误差大小的度量,反映了除自变量对因变量的影响之外,其他因素对因变量的总影响,也即残差变量。
残差变量所引起的误差成为残差效应。
SSA:
各组均值与总均值的误差平方和,反映各样本均值之间的差异程度。
对随机误差和系统误差大小的测度,反映了自变量对因变量的影响,称为自变量效应或因子效应。
SST:
全部观测值与总均值的误差平方和。
对全部数据总误差程度的度量,反映了自变量和残差变量的共同影响,等于自变量效应与残差效应之和。
总平方和(SST)=组间平方和(SSA)+组内平方和(SSE)
为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的自由度。
计算结果成为均方或方差。
三个平方和所对应的自由度分别为:
SST的自由度为n-1,其中n为全部观测值的个数。
SSA的自由度为k-1,其中k为因素水平的个数。
SSE的自由度为n-k。
SSA的均方也称为组间均方或组间方差,记为MSA,其计算公式:
MSA=SSA/(k-1)SSE的均方也称为组内均方或组内方差,记为MSE,其计算公式:
MSE=SSE/(n-k)将上述MSA与MSE进行对比(MSA/MSE),即得到所需要的检验统计量F。
3.统计决策
如果F>Fa,则拒绝原假设,表明各水平的均值有显著差异,也即所检验的因素(行业)对观测值有显著影响。
如果FvFa,则不能拒绝原假设,没有证据表明各水平的均值有显著差异,也即不能认为所检验的因素(行业)对观测值有显著影响。
在进行决策时,除了使用以上方法进行判断之外,还可以直接利用方差分析表中的P值与显著性水平a的值进行比较。
如果PVa时,则拒绝原假设;如果P>a时,贝U不能拒绝原假设。
4.方差分析表
教材P246、P247,表10-4、表10-5,熟练掌握表中各字母及数值的代表意义、利用临界值或P值进行统计决策。
练习题:
10.7(P263),熟练应用。
第十一章一元线性回归
11.1.1变量间的关系
函数关系:
因变量随着自变量一起变化,并完全依赖于自变量。
一一对应的确定关系。
例如:
销售额与销售量
相关关系:
非完全确定关系、一个变量的取值不能由另一个变量唯一确定。
(比如:
家庭储蓄与家庭收入、父母身高与子女身高、教育程度与个人收入、产量与施肥量)。
11.1.2相关关系的描述与测度
相关分析就是对两个变量之间线性关系的描述与度量。
它要解决的问题包括:
(1)变量之间是否存在关系(YES/NO)
(2)存在什么样的关系(What)
(3)关系强度如何?
(4)样本能否代表总体关系
相关系数
相关系数:
根据统计数据计算的度量两个变量之间线性关系强度的统计量。
相关系数的性质:
1.r的取值范围是[-1,1]
若Ov心1,正线性相关;若-1汀v0,负线性相关;
r=+1,完全正线性相关;r=-1,完全负线性相关;
r=1,y的取值完全意外与x,二者为函数关系;r=0,无线性相关
2.r具有对称性。
%=5
3.r的数值大小与x和y的原点及尺度无关。
4.r仅仅是x与y之间线性关系的度量,不能用于描述非线性关系。
这意味着,
当r=0时,只能表示两变量之间不存在线性相关关系,但并不表示变量之间没有
任何关系,可能存在曲线相关关系。
5.r是两变量之间线性关系的度量,但是不一定意味着x与y—定有因果关系。
了解相关系数的性质有助于对其实际意义的解释。
根据实际计算出的r取值一般在-1与1之间;r取值越接近于_1,则说明两变量之间的线性相关越强;r取值越接近于0,则说明两变量之间的线性关系越弱。
经验法则:
r>0.8时,可视为高度相关
0.5rv0.8时,可视为中度相关
0.3兰|r|v0.5时,可视为低度相关
rv0.3时,可视为不相关
11.2一元线性回归
回归分析主要解决以下几个方面的问题:
(1)从一组样本数据出发,确定变量之间的数学关系式。
(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著,哪些是不显著的。
(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。
11.2.1一元线性回归模型
3■估计的回归方程
y?
=fVf?
x
11.2.2参数的最小二乘估计
最小二乘估计的思想原理
最小二乘法估计的基本出发点是:
应使每个样本点(Xj,yj与回归线上的对应点(Xj,E(yJ)在垂直方向上的利差平方和最小。
最小二乘法是利用样本数据,通过使应变量的观测值y与应变量的估计值?
之间的离差平方和达到最小的方法求得?
0和冈的值。
11.2.3回归直线的拟合优度
1■判定系数
判定系数是对估计的回归方程拟合优度的度量。
SST分解为两部分:
SSR和SSE。
SST=SSR+SSE
回归直线拟合的好坏取决于SSR及SSE的大小,或者取决于SSR(回归平方和)占SST(总平方和)的比例(SSR/SST)的大小。
SSR/SST越大,各观测点越靠近直线,回归直线拟合越好。
SSR/SST被称为判定系数。
公式见P261判定系数R2测度了回归直线对观测数据的拟合程度。
若所有观测点都落在直线上,那么估计的回归方程将给出一个完全的拟合。
在这种情况下,SSE=O,SSR=SST,则R2=1。
若y得变化与x完全无关,x完全无助于解释y的变差,那么估计的回归方程的拟合最差。
在这种情况下,SSE=1,SSR=O,则R2=0。
因此,R2的取值范围是[0,1]。
R2越接近于1,表明SSR占SST的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分也就越多,回归直线的拟合程度就越好;反之亦然。
相关系数(r)与判定系数(R2)的关系:
r2=R2
根据这个结论,不仅可以由相关系数直接计算判定系数,而且可以进一步理解相关系数的意义。
1.相关系数与回归系数的正负号相同。
2.相关系数一定程度上说明回归直线的拟合优度。
|r|~1,表明回归直线对观测
数据的拟合优度就越高。
判定系数的实际意义:
在因变量变差中,有多少是由自变量与因变量之间的线性关系来解释,或在
因变量变差中有多少是由自变量所决定的。
11.2.4显著性检验
1■线性关系的检验
线性关系检验是检验自变量x和因变量y之间的线性关系是否显著,或者说。
它们之间能否用一个线性模型y=由+Pix+&来表示。
将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著。
方差分析表中关于线性关系显著性检验的结果解释:
在方差分析表中给出了线性关系显著性检验的全部结果(教材P279)。
方差
分析表中给出了用于检验的显著性F,即SignificanceF,它是用于检验的P值。
如果Sig.Fv:
■,则拒绝原假设,表明自变量x与因变量y之间有显著性的线性关系;
如果Sig.F>,则不能拒绝原假设,表明没有证据证实自变量x与因变量y之间有显著性的线性关系。
2■回归系数的检验
检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著。
构造用于检验回归系数m的统计量to
参数估计表中关于线性关系显著性检验的结果解释:
在参数估计表中给出了用于检验的P值,检验时可直接将P值与给定的显著性水平:
•进行比较。
若Pv:
则拒绝原假设;若P>:
,则不能拒绝原假设。
在一元线性回归中,等价于线性关系的显著性检验,即F检