统计学数学模型.docx

资源描述

统计学数学模型.docx

《统计学数学模型.docx》由会员分享，可在线阅读，更多相关《统计学数学模型.docx（8页珍藏版）》请在冰点文库上搜索。

统计学数学模型.docx

统计学数学模型

一、多元回归

1、方法概述：

在研究变量之间的相互影响关系模型时候，用到这类方法，具体地说：

其可以定量地描述某一现象和某些因素之间的函数关系，将各变量的已知值带入回归方程可以求出因变量的估计值，从而可以进行预测等相关研究。

2、分类

分为两类：

多元线性回归和非线性线性回归；其中非线性回归可以通过一定的变化转化为线性回归，比如：

y=lnx 可以转化为 y=u u=lnx来解决；所以这里主要说明多元线性回归应该注意的问题。

3、注意事项

在做回归的时候，一定要注意两件事：

（1）回归方程的显著性检验（可以通过sas和spss来解决）

（2）回归系数的显著性检验（可以通过sas和spss来解决）

检验是很多学生在建模中不注意的地方，好的检验结果可以体现出你模型的优劣，是完整论文的体现，所以这点大家一定要注意。

4、使用步骤：

（1）根据已知条件的数据，通过预处理得出图像的大致趋势或者数据之间的大致关系；

（2）选取适当的回归方程；

（3）拟合回归参数；

（4）回归方程显著性检验及回归系数显著性检验

（5）进行后继研究（如：

预测等）这种模型的的特点是直观，容易理解。

这体现在：

动态聚类图可以很直观地体现出来！

当然，这只是直观的一个方面！

二、聚类分析

聚类有两种类型：

（1） Q型聚类：

即对样本聚类；

（2） R型聚类：

即对变量聚类；

聚类方法：

（1）最短距离法

（2）最长距离法（3）中间距离法（4）重心法（5）类平均法（6）可变类平均法（7）可变法（8）利差平均和法

在具体做题中，适当选取方法；

3、注意事项

在样本量比较大时，要得到聚类结果就显得不是很容易，这时需要根据背景知识和相关的其他方法辅助处理。

还需要注意的是：

如果总体样本的显著性差异不是特别大的时候，使用的时候也要注意！

4、方法步骤

（1）首先把每个样本自成一类；

（2）选取适当的衡量标准，得到衡量矩阵，比如说：

距离矩阵或相似性矩阵，找到矩阵中最小的元素，将该元素对应的两个类归为一类，

（4）重复第2步，直到只剩下一个类；

补充：

聚类分析是一种无监督的分类，下面将介绍有监督的“分类”。

我简单说明下，无监督学习和有监督学习是什么无监督学习：

发现的知识是未知的而有监督学习：

发现的知识是已知的或者这么说吧：

有监督学习是对一个已知模型做优化，而无监督学习是从数据中挖掘模型他们在分类中应用比较广泛（非数值分类）

如果是数值分类就是预测了，这点要注意

三、数据分类

1、方法概述数据分类是一种典型的有监督的机器学习方法，其目的是从一组已知类别的数据中发现分类模型，以预测新数据的未知类别。

这里需要说明的是：

预测和分类是有区别的，预测是对数据的预测，而分类是类别的预测。

2、类别方法：

（1）神经网路

（2）决策树（这里不再阐述，有兴趣的同学，可以参考数据挖掘和数据仓库相关书籍）

3、注意事项

1》神经网路适用于下列情况的分类：

（1）数据量比较小，缺少足够的样本建立数学模型；

（2）数据的结构难以用传统的统计方法来描述（3）分类模型难以表示为传统的统计模型

这里主要介绍以上三点，其他的情况大家可以自己总结！

2》神经网路的优点：

分类准确度高，并行分布处理能力强，对噪声数据有较强的鲁棒性和容错能力

能够充分逼近复杂的非线性关系，具备联想记忆的功能等。

3》神经网路缺点：

需要大量的参数，不能观察中间学习过程，输出结果较难解释，会影响到结果的可信度，需要较长的学习时间，当数据量较大的时候，学习速度会制约其应用。

4、步骤

这里只做简略说明，具体步骤，大家可以查阅《神经网路》《数据挖掘》等相关书籍

（1）初始化全系数

（2）输入训练样本（3）计算实际输出值（4）计算实际输出值和期望输出值之间的误差（5）用误差去修改权系数（6）判断是否满足终止条件，如果满足终止，否则进入第二步 .

四、判别分析

1、概述其是基于已知类别的训练样本，对未知类别的样本判别的一种统计方法，也是一种有监督的学习方法，是分类的一个子方法！

具体是：

在研究已经过分类的样本基础上，根据某些判别分析方法建立判别式，然后对未知分类的样本进行分类！

2、分类

根据判别分析方法的不同，可分为下面几类：

（1）距离判别法

（2） Fisher判别法（3） Bayes判别法（4）逐步判别法

关于这几类的方法的介绍，大家可以参考《多元统计学》，其中比较常用的是bayes判别法和逐步判别法

3、注意事项：

判别分析主要针对的是有监督学习的分类问题。

共有四种方法，这里重点注意其优缺点：

（1）距离判别方法简单容易理解，但是它将总体等概率看待，没有差异性；

（2） Bayes判别法有效地解决了距离判别法的不足，即：

其考虑了先验概率——所以通常这种方法在实际中应用比较多！

（3）在进行判别分析之前，应首先检验各类均值是不是有差异（因为判别分析要求给定的样本数据必须有明显的差异），如果检验后某两个总体的差异不明显，应将这两个总体合为一个总体，再由剩下的互不相同的总体重现建立判别分析函数。

（4）这里说明下Fisher判别法和bayes判别法的使用要求：

两者对总体的数据的分布要求不同，具体的，Fisher要求对数据分布没有特殊要求，而bayes则要求数据分布是多元正态分布，但实际中却没有这么严格！

（5）这种方法可以利用spss，sas等软件来轻松实现

4、方法步骤这里以bayes判别法为例简要讲述，具体的方法和软件实现，可以去数学中国网站下载或者参考《多元统计学》

（1）计算各类中变量的均值xj及均值向量xh，各变量的总均值xi及均值向量x

（2）计算类内协方差及其逆矩阵

（3）计算bayes判别函数中，各个变量的系数及常数项并写出判别函数

（4）计算类内协方差矩阵及各总协方差矩阵做多个变量的全体判别效果的检验

（5）做各个变量的判别能力检验

（6）判别样本应属于的类别

1.5主成分分析

1、概述主成分分析是一种降维数的数学方法，具体就是，通过降维技术奖多个变量化为少数几个主成分的统计分析方法。

在建模中，主要用于降维，系统评估，回归分析，加权分析等等。

2、分类（无）

3、注意事项

在应用主成分分析时候，应该注意：

（1）综合指标彼此独立或者不相互干涉

（2）每个综合指标所反映的各个样本的总信息量等于对应特征向量的特征值。

通常要选取的综合指标的特征值贡献率之和应为80%以上

（3）其在应用上侧重于信息贡献影响力的综合评价

（4）当主成分因子负荷的符号有正也有负的时候，综合评价的函数意义就不明确！

4、方法步骤大家可以参考《多元统计学》这本书籍，在这里就不做阐述，也可以从数学中国网站的统计学板块下载！

六、因子分析

1、概述其是也是将变量总和为数量较少的几个因子，是降维的一种数学技术！

它和主成分分析的最大区别是：

其是一种探索性分析方法，即：

通过用最少个数的几个不可观察的变量来说明出现在可观察变量中的相关模型（有点类似于前面讲述的分类和聚类的区别，大家好好体会下）它提供了一种有效的利用数学模型来解释事物之间的关系，体现出数据挖掘的一点精神！

2、分类因子分析是R型，即对变量研究

3、注意事项

（1）其不是对研究总体的变量的降维，而是根据原始变量信息构造新的变量，作为共同因子，这点区别于主成分分析

（2）它通过旋转可以使得因子变量具有可解释性（这块可能不容易理解，大家可以去找因子分析的相关书籍查阅，搞清楚这块，对于你解释模型会起到很大的作用）

（3）这里说明下，因子分析和主成分分析的区别和联系 <1>两者都是降维数学技术，前者是后者的推广和发展

<2>主成分分析只是一般的变量替换，其始终是基于原始变量研究数据的模型规律；而因子分析则是通过挖掘出新的少数变量，来研究的一种方法，有点像数据挖掘中的未知关联关则发现！

4、方法步骤

（略）大家可以去论坛上下载相关电子资源，也可以参考《多元统计学》

七、残差分析

1、概述

在实际问题中，由于观察人员的粗心或偶然因素的干扰。

常会使我们所得到的数据不完全可靠, 即出现异常数据。

有时即使通过相关系数或F检验证实回归方程可靠，也不能排除数据存在上述问题。

残差分析的目的就在于解决这一问题。

所谓残差是指实际观察值与回归估计值的差。

2、分类无

3、应用

（1）通过残差分析来排除异常数据

（2）通过残差分析来检验模型的可靠性

还有很多应用，大家在使用过程中据情况选取，灵活应用！

八、典型相关分析

1、概述

前面介绍的方法主要是一个变量和多个变量之间的关系，而典型相关分析研究的是多个变量和多个变量之间的关系，或者是一组变量和一组变量之间关系！

其可以揭示两组变量之间的关系，从而供大家研究两个现象之间的关系。

例如：

蔬菜的产出水平和影响产出水平的变量之间的关系！

2、分类

多对多的变量关系研究！

3、注意事项

（1）其可以很好地解决组合相关性的问题

（2）其还局限于两组变量的研究，而且要求这两组变量都是连续变量且需服从多元正态分布

九、时间序列

1、概述

时间序列预测法是一种定量分析方法，它是在时间序列变量分析的基础上，运用一定的数学方法建立预测模型，使时间趋势向外延伸，从而预测未来市场的发展变化趋势，确定变量预测值。

其基本特点是：

假定事物的过去趋势会延伸到未来；预测所依据的数据具有不规则性；撇开市场发展之间的因果关系。

2、分类

时间序列的变动形态一般分为四种：

长期趋势变动，季节变动，循环变动，不规则变动。

方法分类：

（1）平均数预测（简单算术平均法，加权算术平均法，几何平均数法）

（2）移动平均数预测（一次移动平均法，二次移动平均法）（3）指数平滑法预测（一次，二次，三次指数平滑法）（4）趋势法预测（分割平均法，最小二乘法，三点法）（5）季节变动法（简单平均法，季节比例法）

3．注意事项

（1）季节变动法预测需要筹集至少三年以上的资料

（2）移动平均法在短期预测中较准确，长期预测中效果较差；

（3）移动平均可以消除或减少时间序列数据受偶然性因素干扰而产生的随机变动影响。

（4）一次移动平均法适用于具有明显线性趋势的时间序列数据的预测；一次移动平均法只能用来对下一期进行预测，不能用于长期预测，必须选择合理的移动跨期，跨期越大对预测的平滑影响也越大，移动平均数滞后于实际数据的偏差也越大。

跨期太小则又不能有效消除偶然因素的影响。

跨期取值可在3~20间选取。

（5）二次移动平均法与一次移动平均法相比，其优点是大大减少了滞后偏差，使预测准确性提高；二次移动平均只适用于短期预测。

而且只用于的情形。

6）最小二乘法即适用于直线趋势的预测，也适用于曲线趋势的预测。

还有一些注意事项，这里就不再一一罗列 4．方法步骤（略）

展开阅读全文