相关分析与回归分析.docx

上传人:b****0 文档编号:17907232 上传时间:2023-08-04 格式:DOCX 页数:8 大小:22.36KB
下载 相关 举报
相关分析与回归分析.docx_第1页
第1页 / 共8页
相关分析与回归分析.docx_第2页
第2页 / 共8页
相关分析与回归分析.docx_第3页
第3页 / 共8页
相关分析与回归分析.docx_第4页
第4页 / 共8页
相关分析与回归分析.docx_第5页
第5页 / 共8页
相关分析与回归分析.docx_第6页
第6页 / 共8页
相关分析与回归分析.docx_第7页
第7页 / 共8页
相关分析与回归分析.docx_第8页
第8页 / 共8页
亲,该文档总共8页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

相关分析与回归分析.docx

《相关分析与回归分析.docx》由会员分享,可在线阅读,更多相关《相关分析与回归分析.docx(8页珍藏版)》请在冰点文库上搜索。

相关分析与回归分析.docx

相关分析与回归分析

相关分析与回归分析

第九章相关分析与回归分析教学目的与要求相关分析是较常用的统计分析方法。

本章的目的在于提供从数量上研究现象之间相互联系方法。

该章主要讲述了相关分析、回归分析的基本理论和应用方法。

学习本章的要求是1、掌握相关关系与函数关系的区别2、能够利用相关系数对相关关系进行测定并且掌握相关系数的性质3、明确相关分析与回归分析各自特点以及它们的区别与联系4、建立回归直线方程计算估计标准误差理解估计标准误差的意义重点掌握1、相关分析的方法。

2、回归分析的分析方法应用。

教学方式用多媒体课件讲练结合。

课时安排理论6学时实训2学时第一节相关分析的意义、种类一一、相关关系的性质一相关关系的概念和特点1、概念相关关系是现象间客观存在的但其数值是不严格、不完全确定的相互依存关系。

如年龄与人的生命力之间消费品需求结构与居民收入水平之间家庭收入和消费支出之间施肥量与稻谷收获量之间广告费支出与商品销售额之间等等都存在着一定的关系。

现象间可测定关系一般分为两种一种为函数关系另一种为相关关系。

相关关系指现象之间客观存在但又不具有确定性的依存关系。

2、特点第一、现象之间确实存在数量上的相互依存关系。

现象之间数量上的相互依存关系表现在一个现象发生数量上的变化另一个与之相联系的现象也会相应地发生数量上的变化。

例如商品流通费用增加一般地讲商品销售额也会随之而增加。

反过来如果商品销售额?

黾右话闱榭鱿律唐妨魍ǚ延靡不嵯嘤Φ卦黾釉偃缟聿慕细叩娜艘话闾逯匾步现胤垂刺逯亟现氐娜艘话憷此瞪聿囊步细摺?

在表现现象相互依存关系的两个变量之中作为根据的变量叫做自变量随自变量变化发生对应变化的变量叫做因变量。

例如可以把身高作为自变量则体重就是因变量也可以把体重作为自变量此时身高就是因变量。

第二、现象之间数量上不确定、不严格的依存关系。

相关关系的全称为统计相关关系它属于变量之间的一种不完全确定的关系。

这意味着一个变量虽然受另一个或一组变量的影响却并不由这一个或一组变量完全确定。

例如身高为1.7米的人其体重有许多个值体重为60公斤的人其身高也有许多个值。

再如产品单位成本和劳动生产率的水平变动之间存在着一定的依存关系但是除了劳动生产率的水平变动以外它还会受到原材料消耗固定资产折旧能源耗用以及管理费用等诸因素变动的影响。

故身高与体重之间产品单位成本和劳动生产率的水平变动之间均没有完全严格确定的数量关系存在。

二相关关系与函数关系的区别和联系1、区别函数关系是变量之间的一种严格、完全确定性的关系即一个变量的数值完全有另一个或一组变量的数值所决定、控制。

函数关系通常可以用数学公式确切地表示出来。

例如圆周长L和圆半径r之间存在函数关系其关系式为2L是个常数圆的半径r值发生变化圆周长就有一个确定的值与之相对应。

又如商品销售额商品销售量商品单价。

在商品价格不变的条件下商品销售发生变化就有一个确定的商品销售额与之相对应。

但相关关系一般不是完全确定的。

它们既存在着密切的关系但又不能由一个或几个变量的数值精确地求出另一个变量的值这个变量实际上就是随机变量。

因此相关关系难以像函数关系那样用数学公式去准确表达。

造成这种情况的原因是影响一个变量的因素是很多的。

其中有些因素是属于人们一时还没有认识和掌握的也有一些因素是已经认识但暂时还无法控制和测量。

另外有些因素虽然可以控制和测量但在测量这些变量的数值时或多或少地都会有误差。

所有这些偶然因素的综合作用造成了变量之间的不确定性关系所以相关关系与函数关系是有区别的。

2、联系相关关系与函数关系也是有联系的。

由于客观上常会出现观察或测量上的误差等原因函

数关系在实际工作中往往通过相关关系表现出来。

当人们对某些现象内部规律有较深刻认识时相关关系可能变为函数关系。

为此在研究相关关系时又常常使用函数关系作为工具用一定的函数关系表现相关关系的数量联系。

二、相关关系的种类一根据相关关系的程度划分可分为不相关、完全相关和不完全相关1、不相关。

如果变量间彼此的数量变化互相独立则其关系为不相关。

自变量x变动时因变量y的数值不随之相应变动。

例如产品税额的多少与工人的出勤率、家庭收入多少与孩子的多少之间都不存在相关关系。

2、完全相关。

如果一个变量的变化是由其他变量的数量变化所唯一确定此时变量间的关系称为完全相关。

即因变量y的数值完全随自变量x的变动而变动它在相关图上表现为所有的观察点都落在同一条直线上这种情况下相关关系实际上是函数关系。

所以函数关系是相关关系的一种特殊情况。

3、不完全相关。

如果变量间的关系介于不相关和完全相关之间则称为不完全相关。

如妇女的结婚年龄与受教育程度之间的一种关系。

大多数相关关系属于不完全相关是统计研究的主要对象二根据相关关系的方向划分可分为正相关和负相关1、正相关。

指两个因素或变量之间的变化方向一致都是呈增长或下降的趋势。

即自变量x的值增加或减少因变量y的值也相应地增加或减少这样的关系就是正相关。

例如工业总产值增加企业税利总额也随之增加家庭消费支出随收入增加而增加等。

2、负相关。

指两个因素或变量之间变化方向相反即自变量的数值增大或减小因变量随之减小或增大。

如劳动生产率提高产品成本降低产品成本降低企业利润增加等。

三根据自变量的多少划分可分为单相关和复相关1、单相关。

两个因素之间的相关关系叫单相关即研究时只涉及一个自变量和一个因变量。

2、复相关。

三个或三个以上因素的相关关系叫复相关即研究时涉及两个或两个以上的自变量和因变量。

例如只研究工业总产值的变动对税利总额的影响就是单相关若研究产品产值、产品成本、劳动生产率等诸因素对税利总额的影响就是复相关。

再如只研究生产设备能力这一个因素对劳动生产率的影响就是单相关若同时研究生产设备能力、工人技术水平两个因素对劳动生产率的影响就是复相关。

单相关是复相关的基础。

再存在多个自变量因素时可抓住最主要的因素研究其相关关系把多变量的复相关化成单相关来研究和测定。

四根据变量间相互关系的表现形式划分直线相关或线性相关和曲线或非线性相关1、?

毕呦喙鼗蛳咝韵喙于,毕喙毓叵档淖员淞縳发生变动因变量y值随之发生大致均等的变动从图像上近似地表现为直线形式这种相关通称为直线或线性相关。

例如销售量与销售额之间就呈直线相关关系。

2、曲线或非线性相关。

在两个相关现象中自变量x值发生变动因变量y也随之发生变动这种变动不是均等的在图像上的分布是各种不同的曲线形式这种相关关系称为曲线或非线性相关。

曲线相关在相关图上的分布表现为抛物线、双曲线、指数曲线等非直线形式。

例如从人的生命全过程看年龄与医疗费支出呈非线性相关。

三、相关分析和回归分析的任务对现象之间数量关系的研究统计上是从两个方面进行的一方面是分析现象之间数量变化的密切程度这就是相关分析另一方面是找出现象之间数量变化的规律这就是回归分析。

一相关分析的主要内容1、揭示现象之间是否存在相关关系。

2、确定相关关系的表现形式。

3、确定现象变量间相关关系的密切程度和方向。

二回归分析的主要内容1、建立相关关系的回归方程。

利用回归方法配合一个表明变量之间数量上的方程式而且根据自变量x的变动来预测因变量y的变动。

2、测定因变量的估计值与估计值的误差程度。

通过计算估计标准误差指标可以反映因变量估计值的准确程度

从而将误差控制在一定范围内。

第二节相关系数一、相关关系的判断在进行相关分析之前首先要对社会现象之间是否存在一定的依存关系以及存在什么样的依存关系做出判断。

判断的方法主要有一定性判断法二相关图表法在定性判断的基础上把具有相关关系的两个量的具体数值按照一定顺序平行排列在一张表上以观察它们之间的相互关系这种表就称为相关表把相关表上一一对应的具体数值在直角坐标系中用点标出来而形成的散点图则称为相关图。

利用相关图和相关表可以更直观、更形象地表现变量之间的相互关系。

二、相关系数一相关系数的概念相关图可以帮助我们直观了解相关关系但这只是初步的判断是相关分析的开始。

为了说明现象之间相关关系的密切程度就要计算相关系数。

相关系数是直线相关条件下说明两个现象之间相关关系密切程度的统计分析指标。

二相关系数的测定与应用计算相关系数使用相关表的材料我们先说明根据简单相关表计算相关系数的方法。

首先计算三个指标。

1、自变量数列的标准差221xxnnxxxx代表自变量数列的标准差X代表自变量及其产量值nxxx21、X代表自变量数列的平均值nxXn代表自变量数列的项数2、因变量数列的标准差221yynnyyyy代表因变量数列的标准差y代表因变量及其变量值nyyy21、y代表因变量数列的平均值nyyn代表因变量数列的项数它和自变量数列的项数相等3、两个数列的协方差yyxxn1nyyxx2xyxy代表两个数列的协方差xx代表自变量数列各变量值与平均值的离差yy代表因变量数列各变量值与平均值的离差根据上述三个指标就可以计算相关系数通常用r代表相关系数。

它直接来源于数理统计中关于相关系数的定义。

222111yynxxnyyxxnryxxy该公式的分子和分母都有n1所以上述公式可以简化为22yyxxyyxxr9.1我们用前边举过的表10—1为例来说明相关系数的计算过程。

例3根据表9—1可进一步计算的表9—3。

将表9—3的计算结果代入9.1式得9798.089838181yyxxyyxxr这表明该企业工人的工龄长短与其日产量大小之间存在着高度正相关关系。

表9—3相关系数计算表工人序号工龄年产量件/日7xxx68yyyyyxx2xx2yy1234567891011124556

677889910555860606266697474788080-3-2-2-1-10011223-13-10

-8-8-6-216610121239201686006620243694411001144916910064

6436413636100144144合计84816——18138898此外由9.1式还可以推导出计算相关系数的简化式2.92222yxyxxyyynxxnyxxynr式中n为变量次数由表9—1也可以计算的表9—4。

表9—4相关系数简化计算表工人序号工龄x产量y2x2yxy123456789101112455667788991055586060626669747478

8080162525363649496464818110030253364360036003844435647615476

5476608464006400220290300360372462483592592702720800合计84816622563865893将表9—4中数字代入9.2式得

9798.08165638612846261281684589312222222yynxxnyxxynr这与9.1式的计算结果完全相同。

三相关关系的分析相关系数的性质如下1、关系数的取值范围在-1和1之间即–1?

r?

1.2、算结果若r为正则表明两变量为正相关若r为负则表明两变量为负相关。

3、关系数r的数值越接近于1–1或1表示相关系数越强越接近于0表示相关系数越弱。

如果r1或–1则表示两个现象完全直线性相关。

如果0则表示两个现象完全不相关不是直线相关。

4、断两变量线性相关密切程度的具体标准为3.0r称为微弱相关、5.03.0r称为低度相关、8.05.0r称为显著相关、18.0r称为高度相关第三节回归分析—简单直线回归一、回归分析与相关分析的区别和联系一回归分析的概念相关关系能说明现象间有无关系但它不能说明一个现象发生一定量的变化时另一个

变量将会发生多大量的变化。

也就是说它不能说明两个变量之间的一般数量关系值。

回归分析是指在相关分析的基础上把变量之间的具体变动关系模型化求出关系方程式就是找出一个能够反映变量间变化关系的函数关系式并据此进行估计和推算。

通过回归分析可以将相关变量之间不确定、不规则的数量关系一般化、规范化。

从而可以根据自变量的某一个给定值推断出因变量的可能值或估计值。

回归分析包括多种类型根据所涉及变量的多少不同可分为简单回归和多元回归。

简单回归又称一元回归是指两个变量之间的回归。

其中一个变量是自变量另一个变量是因变量。

根据变量变化的表现形式不同回归分析也可分为直线回归和曲线回归。

对具有直线相关关系的现象配之以直线方程进行回归分析即直线回归对具有曲线相关关系的现象配之以曲线方程进行回归分析则称为曲线回归。

本章仅介绍简单直线回归即一元直线回归。

二回归分析与相关分析的区别与联系1、回归分析与相关分析的区别1相关分析所研究的两个变量是对等关系。

回归分析所研究的两个变量不是对等关系必须根据研究目的先确定其中一个是自变量另一个是因变量。

2对两个变量x和y来说相关分析只能计算出一个相关系数计算中改变x和y的地位不影响相关系数的数值回归分析则不同有时可以根据研究目的不同分别建立两个不同的回归方程。

即以x为自变量y为因变量则可以得出y倚x的回归方程若以y为自变量x为因变量则可以得出x倚y的回归方程。

3相关分析对资料的要求是两个变量都必须是随机变量。

回归分析对资料的要求是自变量是可以控制的变量给定的变量而因变量是随机变量。

4相关分析只研究变量间是否存在关系以及关系的密切程度。

回归分析研究的是变量间存在的是什么关系比相关关系分析更进一步。

2、回归分析与相关分析的联系1相关分析是回归分析的基础和前提。

如果缺少相关分析没有从定性上分析说明现象间是否具有相关关系没有对相关关系的密切程度作出判断那么就不能进行回归分析。

即便勉强进行了回归分析也是没有实际意义的。

2回归分析是相关分析的深入和继续。

仅仅说明现象间具有密切的相关关系是不够的只有进行了回归分析拟合了回归方程才可能进行回归预测这样相关分析才有实际的意义。

因此如果仅有回归分析而缺少相关分析将会因为缺乏必要的基础和前提而影响回归分析的可靠性。

如果仅有相关分析而缺少回归分析就会降低相关分析的意义。

只有把两者结合起来才能达到统计分析的目的。

二、简单直线回归方程的确定一直线回归方程简单直线回归方程又称一元线性回归方程。

它是根据成对的两种变量的数据寻找一直线方程代替两变量的变化趋势根据自变量的变动来推算因变量发展趋势和水平的方法。

它是研究相互关联的两种经济现象数量变动依存关系的一种方法。

二配合直线方程的前提条件任何一个数学方程的运用都是有条件的直线回归方程也不例外。

为使配合的直线方程最佳应当遵循下列条件1、两个变量之间确实存在显著的相关关系2、两种变量之间确实存在着直线相关关系三确定直线回归方程1、基本原理当两变量x、y之间存在直线相关关系时可以用直线方程bxayc近似代替x与y的关系。

方程中的参数a是回归直线的起点值表现为当0x时回归直线的y坐标即y轴上的一个点数学上叫截距。

参数b是回归直线的斜率即回归系数。

它代表自变量x每增加一个单位时因变量y的平均增加值。

a和b数值确定了直线回归方程也就确定了。

确定a、b的数值可用最小平方法原理如下。

要使所选直线能够真正反映x、y的变化趋势必须满足以下条件1根据方程cyabx求出理论cy值与实际y值的离差平方和为最小2实际y值与理论值cy的离差总和为零。

即满足cyy0?

2cyy最小值?

显然满足?

就必然

能够满足?

的条件。

因此要求Q2bxay最小值2、参数a、b的确定利用数学求极值的方法可以当bQ0时?

有极小值。

即02bxayaQ02bxaybQ整理得2xbxaxyxbnay9.3解得xbyaxxnyxxynb229.4式中y、x分别为变量y和x实测平均值。

将表9—4的相应数据代入9.4式得659.347763.468763.4846261281684589312222xbyaxxnyxxynb

将所得a、b的值代入bxayc即得回归直线方程xyc763.4659.34这表明工龄愈长则日产量愈高。

二者之间的具体变动关系为工龄每增加一年日产量平均增加4.763件。

3、回归方程的作用根据回归方程可以推算出已知值的估计值以便估计误差。

例如利用回归方程推求工龄为8年时其日产量为763.728763.4659.34件即约为73件。

不仅可以推出已知的估计值。

而且可以利用回归方程预测未知的值如当工龄为3年时其日产量估计值约为50件。

三、回归误差及计算一回归误差的概念估计标准误差就是用来说明回归方程推算结果准确程度的统计分析指标或者说是反映回归直线回归误差大小的统计分析指标。

二估计标准误差的计算四、估计标准误差的作用在相关分析中估计标准误差是结合回归直线使用的一个指标。

它有三个作用一说明以回归直线为中心的所有相关点的离散程度。

估计标准误差数值大则说明平均误差大相关点与回归直线的离散程度大反之则说明离散程度小。

这个数值的大小反映了利用回归直线进行估计或预测的准确程度。

二说明回归直线的代表性大小。

这是从另一个角度来说明它的作用。

估计标准误差大则回归直线的代表性小它的实用价值也小估计标准误差小则回归直线的代表性大它的实用价值也大。

从上述作用来看估计标准误差和相关系数一样也具有说明相关关系密切程度的作用。

不同的是相关关系数越大越好估计标准误差越小越好。

相关系数用相对数表现密切程度的概念比较明确估计标准误差用绝对数表现关系密切的程度表示的不那么明显它也不能说明是正相关还是负相关。

三估计标准误差的第三个作用是在抽样调查条件下是计算回归抽样误差的一个根据。

就像总体方差是计算平均指标抽样误差的根据一样计算回归抽样误差时应该使用总体的估计标准误差。

但这个材料常常是没有的要用样本的估计标准误差来代替。

五、回归误差与相关系数的关系回归误差与相关系数都具有说明现象之间的相关关系密切程度的作用但两者有所区别。

相关关系与说明的现象之间的密切程度成正比关系而回归误差概念比较明确回归误差用绝对数表示它所说明的密切程度并不那么明显也不能说明是正相关还是负相关。

两指标在数量上存在着如下的联系222221yyyyySSrr代表相关系数2y代表因变量数列的方差2yS代表回归误差的平方现以表10—3资料说明如下已知833.741289822nyyy572.389.122y则9758.0833.74572.3833.74222yyysr计算结果与前面相同。

这也是相关系数的一种计算方法。

但这种方法一般不使用因为它要求先配合回归直线解除直线回归方程计算回归误差然后才能进行相关系数的计算。

从认识的一般程度来讲首先要知道现象之间相互关系是否密切。

如果回归直线价值不大就不必进行下一步的计算了。

所以只有证明了相关关系比较密切回归直线有实用价值方去配合回归直线用它来估计和预测。

实际工作中常常根据相关系数r去推算回归误差y。

2222211rSSryyyy222211rSSryyyy仍以上例说明已知.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2