三.例题分析
【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。
近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。
为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。
下面是该银行所属的25家分行2002年的有关业务数据
分行编号
不良贷款(亿元)
各项贷款余额(亿元)
本年累计应收贷款(亿元)
贷款项目个数(个)
本年固定资产投资额(亿元)
1
0.9
67.3
6.8
5
51.9
2
1.1
111.3
19.8
16
90.9
3
4.8
173.0
7.7
17
73.7
4
3.2
80.8
7.2
10
14.5
5
7.8
199.7
16.5
19
63.2
6
2.7
16.2
2.2
1
2.2
7
1.6
107.4
10.7
17
20.2
8
12.5
185.4
27.1
18
43.8
9
1.0
96.1
1.7
10
55.9
10
2.6
72.8
9.1
14
64.3
11
0.3
64.2
2.1
11
42.7
12
4.0
132.2
11.2
23
76.7
13
0.8
58.6
6.0
14
22.8
14
3.5
174.6
12.7
26
117.1
15
10.2
263.5
15.6
34
146.7
16
3.0
79.3
8.9
15
29.9
17
0.2
14.8
0.6
2
42.1
18
0.4
73.5
5.9
11
25.3
19
1.0
24.7
5.0
4
13.4
20
6.8
139.4
7.2
28
64.3
21
11.6
368.2
16.8
32
163.9
22
1.6
95.7
3.8
10
44.5
23
1.2
109.6
10.3
14
67.9
24
7.2
196.2
15.8
16
39.7
25
3.2
102.2
12.0
10
97.1
1)解:
用excel计算的相关矩阵如下表:
对不良贷款与贷款余额之间的相关系数r=0.8436进行显著性检(=a0.05)
①提出假设:
H0:
r=0;H1:
r¹0
②计算检验的统计量
③根据显著性水平a=0.05,查t分布表得t2/a(n-2)=2.0687
④由于|t|=7.5344>t2/a(25-2)=2.0687,拒绝H0,不良贷款与贷款余额之间存在着显著的正线性相关关系
2)各相关系数检验的统计量
9.2一元线性回归分析
涉及一个自变量的回归
因变量y与自变量x之间为线性关系
被预测或被解释的变量称为因变量(dependentvariable),用y表示
用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示
因变量与自变量之间的关系用一条线性方程来表示
9.2.1一元线性回归模型
一.描述因变量y如何依赖于自变量x和误差项e的方程称为回归模型
二.一元线性回归模型可表示为y=b0+b1x+e
1)y是x的线性函数(部分)加上误差项
2)线性部分反映了由于x的变化而引起的y的变化
3)误差项e是随机变量
①反映了除x和y之间的线性关系之外的随机因素对y的影响
②是不能由x和y之间的线性关系所解释的变异性
4)b0和b1称为模型的参数
三.基本假定
1)误差项ε是一个期望值为0的随机变量,即E(ε)=0。
对于一个给定的x值,y的期望值为E(y)=b0+b1x
2)对于所有的x值,ε的方差σ2都相同
3)误差项ε是一个服从正态分布的随机变量,且相互独立。
即ε~N(0,σ2)
①独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关
②对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关
四.回归方程(regressionequation)
1)描述y的平均值或期望值如何依赖于x的方程称为回归方程
2)一元线性回归方程的形式如下E(y)=b0+b1x
①方程的图示是一条直线,也称为直线回归方程
②b0是回归直线在y轴上的截距,是当x=0时y的期望值
③b1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值
五.估计的回归方程(estimatedregressionequation)
1)总体回归参数b0和b1是未知的,必需利用样本数据去估计
2)用样本统计量和代替回归方程中的未知参数b0和b1,就得到了估计的回归方程
3)一元线性回归中估计的回归方程为
4)其中:
是估计的回归直线在y轴上的截距;是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值
9.2.2参数的最小二乘估计
一.原理
1)使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。
即
2)用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小
二.和的计算公式:
三.例题分析
【例】求不良贷款对贷款余额的回归方程
解:
回归方程为:
y=-0.8295+0.037895x
回归系数=0.037895表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元
四.用Excel进行回归分析
第1步:
选择“工具”下拉菜单
第2步:
选择“数据分析”选项
第3步:
在分析工具中选择“回归”,然后选择“确定”
第4步:
当对话框出现时
在“Y值输入区域”方框内键入Y的数据区域
在“X值输入区域”方框内键入X的数据区域
在“置信度”选项中给出所需的数值
在“输出选项”中选择输出区域
在“残差”分析选项中选择所需的选项
9.2.3回归直线的拟合优度评价
一.变差
1)因变量y的取值是不同的,y取值的这种波动称为变差。
变差来源于两个方面
①由于自变量x的取值不同造成的
②除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响
2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示
二.离差平方和的分解(三个平方和的关系)
1)
2)总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
三.三个平方和的意义
1)总平方和(SST):
反映因变量的n个观察值与其均值的总离差
2)回归平方和(SSR):
反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和
3)残差平方和(SSE):
反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和
四.判定系数r2(coefficientofdetermination)
1)回归平方和占总离差平方和的比例
2)反映回归直线的拟合程度
3)取值范围在[0,1]之间
4)r2®1,说明回归方程拟合的越好;r2®0,说明回归方程拟合的越差
5)判定系数等于相关系数的平方
五.例题分析
1)【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义
2)解:
判定系数的实际意义是:
在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。
也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。
可见不良贷款与贷款余额之间有较强的线性关系
六.估计标准误差(standarderrorofestimate)
1)实际观察值与回归估计值离差平方和的均方根
2)反映实际观察值在回归直线周围的分散状况
3)对误差项e的标准差s的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量
4)反映用估计的回归方程预测y时预测误差的大小
5)计算公式为
9.2.4残差分析
一.残差(residual)
1)因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示
2)反映了用估计的回归方程去预测而引起的误差
3)确定有关误差项e的假定是否成立
4)检测有影响的观测值
二.用残差证实模型的假定
1)残差图(residualplot)
①表示残差的图形(关于x的残差图关于y的残差图标准化残差图)
②用于判断误差e的假定是否成立
③检测有影响的观测值
④形态及判别
⑤标准化残差(standardizedresidual)
a.残差除以它的标准差后得到的数值。
计算公式为
b.ei是第i个残差的标准差,其计算公式为
⑥杠杆率点(leveragepoint)
a.如果自变量存在一个极端值,该观测值则称为高杠杆率点(highleveragepoint)
b.在一元回归中,第i个观测值的杠杆率用hi表示,其计算公式为
c.如果一个观测值的杠杆率,就可以将该观测值识别为有高杠杆率的点
d.一个有高杠杆率的观测值未必是一个有影响的观测值,它可能对回归直线的斜率没有什么影响
⑦标准化残差图:
用以直观地判断误差项服从正态分布这一假定是否成立
a.若假定成立,标准化残差的分布也应服从正态分布
b.在标准化残差图中,大约有95%的标准化残差在-2到+2之间
三.用残差检测异常值和有影响的观测值
1)异常值(outlier)
①如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点
a.如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果
b.如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型
c.如果完全是由于随机因素而造成的异常值,则应该保留该数据
②在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔出
③识别
a.异常值也可以通过标准化残差来识别
b.如果某一个观测值所对应的标准化残差较大,就可以识别为异常值
c.一般情况下,当一个观测值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值
2)有影响的观测值
①如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是有影响的观测值
②一个有影响的观测值可能是
a.一个异常值,即有一个的值远远偏离了散点图中的趋势线
b.对应一个远离自变量平均值的观测值
c.或者是这二者组合而形成的观测值
不存在影响值的趋势
有影响的观测值
存在影响值的趋势
9.2.5显著性检验
一.线性关系的检验
1)检验自变量与因变量之间的线性关系是否显著
2)将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著
3)回归均方:
回归平方和SSR除以相应的自由度(自变量的个数p)
4)残差均方:
残差平方和SSE除以相应的自由度(n-p-1)
5)检验的步骤
①提出假设H0:
b0=0(线性关系不显著);H1:
b1¹0
②计算检验统计量F:
③确定显著性水平a,并根据分子自由度1和分母自由度n-2找出临界值Fa
④作出决策:
若F>Fa,拒绝H0;若F6)例题分析
①提出假设。
H0:
b1=0不良贷款与贷款余额之间的线性关系不显著
②计算检验统计量F:
③确定显著性水平a=0.05,并根据分子自由度1和分母自由度25-2找出临界值Fa=4.28
④作出决策:
F>Fa,拒绝H0,线性关系显著
二.回归系数的检验
1)检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著
2)理论基础是回归系数的抽样分布
3)在一元线性回归中,等价于线性关系的显著性检验
4)样本统计量的分布
①是根据最小二乘法求出的样本统计量,它有自己的分布
②的分布具有如下性质
③分布形式:
正态分布
④数学期望:
⑤标准差:
⑥由于s未知,需用其估计量sy来代替得到的估计的标准差
5)检验步骤
①提出假设
H0:
b1=0(没有线性关系)H1:
b1¹0(有线性关系)
②计算检验的统计量
③确定显著性水平a,并进行决策
④útú>t2/a,拒绝H0;útú6)例题分析
①对例题的回归系数进行显著性检验(a=0.05)
②解:
提出假设H0:
b1=0H1:
b1¹0
计算检验的统计量
t=7.533515>t2/a=2.201,拒绝H0,表明不良贷款与贷款余额之间的线性关系是显著的
9.2.6利用回归方程进行估计和预测
根据自变量x的取值估计或预测因变量y的取值
估计或预测的类型
(一)点估计y的平均值的点估计y的个别值的点估计
(二)区间估计y的平均值的置信区间估计y的个别值的预测区间估计
一.点估计
1)对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值
2)点估计值有
①y的平均值的点估计
a.利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计
b.在前面的例子中,假如我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计。
根据估计的回归方程得
②y的个别值的点估计
a.利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计值,就是个别值的点估计
b.比如,如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估计。
根据估计的回归方程得
3)在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同
二.区间估计
1)点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计
2)对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间
3)区间估计有两种类型
①置信区间估计(confidenceintervalestimate)
a.利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的估计区间,这一估计区间称为置信区间(confidenceinterval)
b.E(y0)在1-a置信水平下的置信区间为,式中:
sy为估计标准误差
【例】求出贷款余额为100亿元时,不良贷款95%的置信区间
解:
根据前面的计算结果,已知n=25,sy=1.9799,t2/a(25-2)=2.0687
置信区间为
当贷款余额为100亿元时,不良贷款的平均值在2.1141亿元到3.8059亿元之间
②预测区间估计(predictionintervalestimate)
a.利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,这一区间称为预测区间(predictioninterval)
b.y0在1-a置信水平下的预测区间为
【例】求出贷款余额为72.8亿元时,不良贷款95%的置信区间
解:
根据前面的计算结果,已知n=25,sy=1.9799,t2/a(25-2)=2.0687
置信区间为
贷款余额为72.8亿元的那个分行,其不良贷款的预测区间在-2.2766亿元到6.1366亿元之间。
4)影响区间宽度的因素
①置信水平(1-a)区间宽度随置信水平的增大而增大
②数据的离散程度(s)区间宽度随离散程度的增大而增大
③样本容量区间宽度随样本容量的增大而减小
④用于预测的xp与`x的差异程度区间宽度随xp与`x的差异程度的增大而增大
9.3多元线性回归分析
9.3.1多元回归模型(multipleregressionmodel)
一.一个因变量与两个及两个以上自变量的回归
二.描述因变量y如何依赖于自变量x1,x2,…,xp和误差项e的方程,称为多元回归模型
三.涉及p个自变量的多元回归模型可表示为
1)b0,b1,b2,¼,bp是参数
2)e是被称为误差项的随机变量
3)y是x1,,x2,¼,xp的线性函数加上误差项e
4)e包含在y里面但不能被p个自变量的线性关系所解释的变异性
四.基本假定
1)误差项ε是一个期望值为0的随机变量,即E(e)=0
2)对于自变量x1,x2,…,xp的所有值,e的方差