第六讲 线性相关和回归.docx

上传人:b****2 文档编号:3536850 上传时间:2023-05-06 格式:DOCX 页数:11 大小:158.42KB
下载 相关 举报
第六讲 线性相关和回归.docx_第1页
第1页 / 共11页
第六讲 线性相关和回归.docx_第2页
第2页 / 共11页
第六讲 线性相关和回归.docx_第3页
第3页 / 共11页
第六讲 线性相关和回归.docx_第4页
第4页 / 共11页
第六讲 线性相关和回归.docx_第5页
第5页 / 共11页
第六讲 线性相关和回归.docx_第6页
第6页 / 共11页
第六讲 线性相关和回归.docx_第7页
第7页 / 共11页
第六讲 线性相关和回归.docx_第8页
第8页 / 共11页
第六讲 线性相关和回归.docx_第9页
第9页 / 共11页
第六讲 线性相关和回归.docx_第10页
第10页 / 共11页
第六讲 线性相关和回归.docx_第11页
第11页 / 共11页
亲,该文档总共11页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

第六讲 线性相关和回归.docx

《第六讲 线性相关和回归.docx》由会员分享,可在线阅读,更多相关《第六讲 线性相关和回归.docx(11页珍藏版)》请在冰点文库上搜索。

第六讲 线性相关和回归.docx

第六讲线性相关和回归

Stata软件基本操作和数据分析入门

第六讲线性相关和回归

在实际研究中,经常要考察两个指标之间的关系,即:

相关性。

现以体重与身高的关系为例,分析两个变量之间的相关性。

要求身高和体重呈双正态分布,即:

在身高和体重平均数的附近的频数较多,远离身高和体重平均数的频数较少。

样本相关系数计算公式(称为Pearson相关系数):

(1)

1.考察随机模拟相关的情况。

显示两个变量相关的散点图程序simur.ado(本教材配套程序,使用见前言)。

命令为simur样本量总体相关系数

如显示样本量为100,=0的散点图

本例命令为simur1000

如显示样本量为200,=0.8的散点图

本例命令为simur2000.8

 

如显示样本量为200,=0.99的散点图

本例命令为simur2000.99

如显示样本量为200,=-0.99的散点图

本例命令为simur200-0.99

 

例1.测得某地15名正常成年男子的身高x(cm)、体重y(kg)如试计算x和y之间的相关系数r并检验H0:

=0vsH1:

0。

=0.05

数据格式为

X

Y

171.0

58.0

176.0

69.0

175.0

74.0

172.0

68.0

170.0

64.0

173.0

68.5

168.0

56.0

172.0

54.0

170.0

62.0

172.0

63.0

173.0

67.0

168.0

60.0

171.0

68.0

172.0

76.0

173.0

65.0

Stata命令pwcorr变量1变量2…变量m,sig

本例命令pwcorrxy,sig

pwcorrxy,sig

|xy

-------------+------------------

x|1.0000

|

|

y|0.59941.0000

|0.0182

|

Pearson相关系数=0.5994,P值=0.0182<0.05,因此可以认为身高与体重呈正线性相关。

注意:

Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布,通常在检查中要求X服从正态分布并且Y服从正态分布。

如果不满足双正态分布时,可以计算Spearman相关系数又称为非参数相关系数。

Spearman相关系数的计算基本思想为:

用X和Y的秩代替它们的原始数据,然后代入Pearson相关系数的计算公式并且检验与Pearson相关系数类同。

Stata实现

spearmanxy

Numberofobs=15

Spearman'srho=0.6552

TestofHo:

xandyareindependent

Prob>|t|=0.0080

stata计算结果与手算的结果一致。

结论为身高与体重呈正相关,并且有统计学意义。

直线回归

例2为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:

3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。

资料如下:

60个男孩的身高资料如下

年龄

3岁

4岁

5岁

6岁

7岁

8岁

92.5

96.5

106.0

115.5

125.5

121.5

97.0

101.0

104.0

115.5

117.5

128.5

96.0

105.5

107.0

111.5

118.0

124.0

96.5

102.0

109.5

110.0

117.0

125.5

97.0

105.0

111.0

114.5

122.0

122.5

92.0

99.5

107.5

112.5

119.0

123.5

96.5

102.0

107.0

116.5

119.0

120.5

91.0

100.0

111.5

110.0

125.5

123.0

96.0

106.5

103.0

114.5

120.5

124.0

99.0

100.0

109.0

110.0

122.0

126.5

平均身高

95.4

101.8

107.6

113.1

120.6

124.0

由于男孩的身高与年龄有关系,不同的年龄组的平均身高是不同的,由平均身高与年龄作图可以发现:

年龄与平均身高的点在一条直线附近。

考虑到样本均数存在抽样误差,故有理由认为身高的总体均数与年龄的关系可能是一条直线关系

,其中y表示身高,x表示年龄。

由于身高的总体均数与年龄有关,所以更正确地标记应为

表示在固定年龄情况下的身高总体均数。

上述公式称为直线回归方程。

其中为回归系数(regressioncoefficient),或称为斜率(slope);称为常数项(constant),或称为截距(intercept)。

回归系数表示x变化一个单位y平均变化个单位。

当x和y都是随机的,x、y间呈正相关时>0,x、y间呈负相关时<0,x、y间独立时=0。

一般情况而言,参数和是未知的。

对于本例而言,不同民族和不同地区,和往往是不同的,因此需要进行估计的。

由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:

实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数和进行估计。

得到样本估计的回归方程

二、直线回归方程的建立

直线回归分析的Stata实现:

数据结构:

x

y

3

92.5

3

97

3

96

3

96.5

3

97

3

92

3

96.5

3

91

3

96

3

99

4

96.5

4

101

4

105.5

4

102

4

105

4

99.5

4

102

4

100

4

106.5

4

100

5

106

5

104

5

107

5

109.5

5

111

5

107.5

5

107

5

111.5

5

103

5

109

6

115.5

6

115.5

6

111.5

6

110

6

114.5

6

112.5

6

116.5

6

110

6

114.5

6

110

7

125.5

7

117.5

7

118

7

117

7

122

7

119

7

119

7

125.5

7

120.5

7

122

8

121.5

8

128.5

8

124

8

125.5

8

122.5

8

123.5

8

120.5

8

123

8

124

8

126.5

多重线性回归命令为

regress因变量自变量1自变量2……自变量m

直线回归命令regress因变量自变量

本例为regressyx,得到下列结果:

Source|SSdfMSNumberofobs=60

-------------+------------------------------F(1,58)=777.41

Model|5997.7157115997.71571Prob>F=0.0000

Residual|447.467619587.71495895R-squared=0.9306

-------------+------------------------------AdjR-squared=0.9294

Total|6445.1833359109.240395RootMSE=2.7776

------------------------------------------------------------------------------

y|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

x|5.854286.209965427.880.0005.4339946.274577

_cons|78.184761.20920264.660.00075.7642880.60524

------------------------------------------------------------------------------

得到回归系数b=5.854286,常数项a=78.18746,回归系数的检验统计量tb=27.88,P值<0.0001,可以认为Y与X呈直线回归关系。

来源

平方和SS

自由度df

均方MS

F

P值

回归

5997.71571

1

5997.71571

777.41

<0.0001

残差

447.467619

58

7.71495895

合计

6445.18333

59

为决定系数(本例Stata计算结果R-squared=0.9306),因此0R21,因此残差平方和SSE越小,决定系数R2就越接近1。

特别当所有的残差为0时,SSE=0,相应的决定系数R2=1。

决定系数R2表示y被x所解释的部分所占的百分比,R2越接近于1说明x对y的解释越充分。

残差=应变量观察值(y)-预测值(

Stata的残差计算命令

在输入回归命令regressyx后,再

输入predicte,residual计算残差并用变量e表示残差

输入skteste残差的正态性检验

输入predictyy计算预测值。

残差正态性检验(H0:

残差正态分布,=0.05)

skteste

Skewness/KurtosistestsforNormality

-------joint------

Variable|Pr(Skewness)Pr(Kurtosis)adjchi2

(2)Prob>chi2

-------------+-------------------------------------------------------

e|0.4590.4411.180.5534

P值=0.5534>>0.05,可以认为残差呈正态分布。

所建立的回归方程是否有意义,仅凭借假设检验的结论或R2的大小还不能充分说明问题。

残差

的大小直接反应回归方程的优劣,经常采用图示的方法,以e做纵轴,

为横轴作图来考察残差的变化,如果残差比较均匀地散布在e=0的周围,没有明显的散布趋势和明显的离群点,则说明所建回归方程比较理想,否则要借助统计软件做进一步诊断。

graph残差预测值

本例grapheyy

说明残差比较均匀地散布在e=0的周围,没有明显的散布趋势和明显的离群点,故说明所建回归方程比较理想。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2