常见的机器学习数学知识点资料.docx-资源下载

常见的机器学习数学知识点资料.docx

1、常见的机器学习数学知识点资料常见的机器学习&数据挖掘知识点原文：一只鸟的天空(常见的机器学习&数据挖掘知识点之Basis SSE(Sum of Squared Error, 平方误差和)SSE=i=1n(XiX)2 SAE(Sum of Absolute Error, 绝对误差和)SAE=i=1n|XiX| SRE(Sum of Relative Error, 相对误差和)SREi=1nXiXX MSE(Mean Squared Error, 均方误差)MSE=ni=1(XiX)2n RMSE(Root Mean Squared Error, 均方根误差)，又称SD(Standard Devi

2、ation, 标准差)RMSE=ni=1(XiX)2n MAE(Mean Absolute Error, 平均绝对误差)MAE=ni=1|XiX|n RAE(Root Absolute Error, 平均绝对误差平方根)RAE=ni=1|XiX|n MRSE(Mean Relative Square Error, 相对平均误差)MRSEni=1XiXXn RRSE(Root Relative Squared Error, 相对平方根误差)RRSEni=1XiXXn Expectation(期望)&Variance(方差)期望是描述一个随机变量的“期望值”，方差反映着随机变量偏离期望的程度，偏离

3、程度越大哦，方差越大，反之则相反。对于离散随机变量X，其期望为：E(X)=i=1xip(xi)其中p(x)为随机变量的X的分布率(概率分布).其方差为：D(X)=i=1xiE(X)2p(xi)对于连续变量X，其期望为：E(X)=+xf(x)dx其中f(x)为随机变量的X的概率密度分布.其方差为：D(X)=+xE(X)2f(x)dx对于Yg(X)(g是连续函数)，则Y的期望为：X是离散随机变量：E(Y)=E(g(x)=i=1g(xi)p(xi)X是连续随机变量：E(Y)=E(g(x)=+g(xi)f(x)dx常见分布的期望与方差：分布/数字特征期望方差两点分布qpq二项分布npnpq泊松分布均匀

4、分布a+b2112(ba)2指数分布112正态分布2 标准差：标准差为方差的平方根，即：V(X)=D(X) JP(Joint Probability, 联合概率)o 二维离散随机变量X,Y 联合概率分布(分布率)P(x,y)=PX=xi,Y=yi=pijpij0ijpij=ijpij=1 联合分布函数F(x,y)=PXx,Yy=xyP(x,y)o 二维连续随机变量X,Y 联合概率密度f(x,y) 联合分布函数F(x,y)=xyf(u,v)dudvf(x,y)0+f(x,y)dxdy=F(+,+)=1 MP(Marginal Probability, 边缘概率)o 二维离散随机变量 X的边缘分布

5、率pi.=PX=xi=j=1pij,j=1,2,3,. Y的边缘分布率p.j=PY=yi=i=1pij,i=1,2,3,. X的边缘分布函数FX(x)=F(x,+)=PXx=PXx,Y+ Y的边缘分布函数FY(y)=F(+,y)=PYy=PX+,Yyo 二维连续随机变量 X的边缘分布率fX(x)=+f(x,y)dy Y的边缘分布率fY(y)=+f(x,y)dx X的边缘分布函数FX(x)=F(x,+)=x+f(u,y)dydu Y的边缘分布函数FY(y)=F(y,+)=y+f(x,v)dxdv Independence(独立性)若对一切x,y，都有：PXx,Yy=PXxPYy即：F(x,y)=

6、FX(x)FY(y)则随机变量X, Y是互相独立的.对于离散随机变量，等价于：PX=xi,Y=yj=PX=xiPY=yj,i,j=1,2,.对于连续随机变量，等价于：f(x,y)=fx(x)fy(y) CP(Conditional Probability, 条件概率)对于离散随机变量，定义为:若PY=yj0：PX=xi|Y=yj=PX=xi,Y=yjPY=yj=pijp.j,i=1,2,.而PY=yj=p.j=i=1pij因此：PX=xi|Y=yj=PX=xi,Y=yjPY=yj=piji=1pij,i=1,2,.上式即为在Y=yj条件下X的条件分布律.同理：PY=yj|X=xi=PX=xi,

8、relation Coefficient, 相关系数)对于(X,Y)为二维随机变量，若EXE(X)YE(Y)存在，则称它为随机变量X与Y的协方差，记为cov(X,Y)或XY，即：cov(X,Y)=EXE(X)YE(Y)当D(X)0,D(Y)0时，XY=cov(X,Y)D(X)D(Y)称为随机变量X,Y的相关系数或标准协方差.特别地，cov(X,X)=D(X)cov(Y,Y)=D(Y)因此方差是协方差的特例.若X,Y相互独立，则cov(X,Y)=0，从而XY=0. 同时|XY|1. 若|XY|1，则随机变量X,Y线性相关.+1代表正线性相关，1代表负线性相关，绝对值越大则表明它们之间越相关，若为

9、0，则表示它们互相独立. Covariance(协方差矩阵)若X是由随机变量组成的n列向量，E(Xi)=i，那么协方差矩阵定义如下：=EX1E(X1)X1E(X1).EXnE(Xn)X1E(X1).EX1E(X1)XnE(Xn).EXnE(Xn)XnE(Xn)=EX11X11.EXnnX11.EX11Xnn.EXnnXnn Quantile (分位数)对随机变量X，其分布函数为F(x)，任意给定,01，P(X0，它是一个步长，对于具体取多大的值，一般按照经验进行取，可以从10, 1,0.1,0.01,0.001不断进行尝试而取一个合理的值。而可以刚开始取一个较大值，后面越来越小，这样刚开始步子

10、就大一点，到逐渐接近最优点的时候，放慢脚步，如果这时候过大，就会造成一直在最优点附近震荡。3. 最后，按照步骤2进行迭代更新W，直到目标函数值不再变化，或者变化的范围小于事先设定的阈值。所以，梯度下降算法的一个缺点就是需要确定的值，但是该值并不好确定，需要不断进行尝试和依靠经验。 SGD(Stochastic Gradient Descent, 随机梯度下降) 在梯度下降法中，参数的每一次更新都要使用训练集中的全部的样本(批量梯度下降算法)，这样速度便相对较慢，于是每次更新时随机选择一个样本进行更新参数，这样便能提高计算速度，但每次更新的方向并不一定朝着全局最优化方向. 正规方程求解方法该方

11、法利用极值点的偏导数为0，即令：WJ(W)=XTXWTXTy=0得到正规方程：XTXW=XTy求解W：W=(XTX)1XTy该方法的时间复杂度为O(n3)，因为需要对矩阵求逆运算，其中n为(XTX)1的特征数量，如果n值很大，那么求解速度将会很慢。对此，Andrew Ng的经验建议是：如果n10000，那么使用梯度下降算法进行求解。同时，如果(XTX)是奇异矩阵，即含有0特征值，那么其便不可逆，一个解决方法便是L2正则，后面将会讲到。 MLE(Maximum Likelihood Estimation, 极大似然估计)在我们已经知道到随机变量的一系列观察值，即试验结果已知(样本)，而需要求得满

12、足该样本分布的参数，于是我们需要采取某种方法对进行估计，在最大似然估计中，我们假定观察的样本是该样本分布下中最大可能出现的，把最大可能性所对应的参数对真实的进行参数估计。o 对于离散随机变量设总体X是离散随机变量，其概率分布P(x;)(注意：与P(x,)的区别，前者中是一个常数，只是值暂时不知道，也就是它是一个确定值，而后者中是一个随机变量)，其中是未知参数. 设X1,X2,.,Xn分别都是取自总体X的样本，我们通过试验观察到各样本的取值分别是x1,x2,.,xn，则该事件发生的概率，即它们的联合概率为：P(X1=x1,X2=x2,.,Xn=xn)假设它们独立同分布，那么联合概率为：P(X1=

13、x1,X2=x2,.,Xn=xn)=i=1nP(xi;)因为xi,i1,2,.,n都是已知的确定的值，那么上式的值取决于，从直观上来说，一件已经发生的事件，那么该事件发生概率应该较大，我们假设该事件的发生概率是最大的，即x1,x2,.,xn的出现具有最大的概率，在这种假设下去求取值.定义似然函数为：()=(x1,x2,.,xn;)=i=1nP(xi;)它是关于的函数.极大似然估计法就是在参数的取值范围内选取一个使得()达到最大值所对应的参数，用来作为的真实值的估计值，即：=argmax(x1,x2,.,xn;)这样，对求解总体X的参数极大似然估计问题转化为求似然函数()的最大值为题，那么求去最

14、大值问题可以使用导函数进行求解.为了便于求解，对似然函数进行ln运算，因为ln为递增函数，那么ln()与()在同一处取得最大值，于是,ln()=lni=1nP(xi;)=i=1nlnP(xi;)对上式进行求导操作，并令导函数为0:dln()d=0解该方程，得到作为真实值的估计.o 对于连续离散随机变量：设总体X是连续随机变量，其概率密度函数为f(x;)，对样本X1,X2,.,Xn观察得到的样本值分别为x1,x2,.,xn，那么联合密度函数为：i=1nf(xi;)则，似然函数为：()=i=1nf(xi;)例：1、父人女虫禾立 2、口田今木人门同理，按照先前的处理与求解方式，即

15、极大似然估计法，求取theta值.前面所说的使用已知知识对先验概率进行矫正，得到后验概率，便可以用到似然函数，即后验概率先验概率似然函数.o 极大似然估计步骤：1. 由总体分布导出样本的联合概率函数(或联合密度)；2. 把样本联合概率函数(或联合密度)中自变量看成为已知数，而参数作为自变量未知数，得到似然函数()；3. 4. 风字框（风凤）王王字旁（球玩）将似然函数转化为对数似然函数，然后求取对数似然函数的最大值，一般使用求导方法；5. 最后得到最大值表达式，用样本值代入得到参数的极大似然估计值. (4)牧童骑（黄牛），歌声振林越，意欲捕鸣蝉，忽然（闭口立）。一幅画一个家一座山

16、一朵云一片云QP(Quadratic Programming, 二次规划)我们经常用到线性规划去求解一部分问题，然后很多问题是非线性的，而二次规划是最简单的非线性规划，简称QP问题，何为二次规划，即其目标函数是二次函数，而约束条件是线性约束的最优化问题. 用数学语言描述，其标准形式为：minf(x)=12xTGx+gTx定时时间房间帮忙早晚送给干净伙伴起立得到得意s.t.aTix=bi,iEaTjxbj,jI地（土地）（大地）（田地）（种地）（天地）女女字旁（好妈奶）心心字底（想思念）zh?ng( 长高 ) l （快乐） zh（一只） kng（有空）（1）春

17、雷跟柳树（说话），（春雨）给柳树洗澡了，（春风）给柳树梳头，柳树跟（孩子们）玩耍了，玩着玩着，小（朋友）们，（长高）了。其中，G是nn的对称矩阵(Hessian矩阵)，E,I分别对应等式约束和不等式约束指标集合，g,x,ai|iE,aj|jI都是n维列向量o o 人字头：全、会、合o 双人旁：得、往、很o o 开关多少恨爱好坏答问雪（雪白）（雪花）（白雪）（下雪）（雪人）若G正半定，那么QP问题存在全局最优解(凸二次规划)；o o 例：我替爸爸拿拖鞋。我给妈妈洗手绢。若G正定，那么QP问题存在唯一的全局最优价(凸二次规划)；o o o 一把尺一双手一个人一群人一堆土课件|教案

18、|试卷|无需注册o o 刂立刀旁（别剑到）灬四点底（热熟）o 宀宝盖头（宝家宁）土提土旁（地场城）又大又圆又大又红又大又甜又蹦又跳若G不定，那么可能存在非全局的最优解；凸二次规划即二次规划目标函为维凸函数. L1 /L2 Regularization(L1/L2正则)我们在做数据挖掘或机器学些的时候，在训练数据不够时，或者出现过度训练时，往往容易过拟合，即训练时效果特别好，而测试时或者在新数据来临时，模型效果较差，即为模型的泛化能力比较差。随着训练过程不断进行，该模型在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大因为

19、训练出来的网络过拟合了训练集，对训练集外的数据(测试数据或者新数据)却不work。如下图所示：避免过拟合的方法有很多：early stopping, 数据集扩增(Data augmentation), 正则化(Regularization),Dropout等.o o 一（包）菜子一（畦）秧苗一（片）沙滩两（条）腿o 慢（快）（南）（北）（古）（今）闲（忙）o o o 红火红红火火日夜日日夜夜（5）、“把”字句与“被”字句互改。2、近义词L1L1正则是一个稀疏规则算子，其是在代价函数(优化目标函数)后面加上参数w绝对值和乘以n，目标函数即为：开关多少恨爱好坏答问原和园

20、园和圆进和近话和画阳和洋称和秤一条路一里路一只鹅一群鹅一根木(4)牧童骑（黄牛），歌声振林越，意欲捕鸣蝉，忽然（闭口立）。例：李老师正忙着改作业呢！F=F0+nw|w|（14）自己学会（生活）的本领，才能成为（真正）的狮子。其中F0为原目标函数，那么新目标函数的导数为：Fw=F0w+nsgn(w)上式中sgn(w)是w的符号函数，0是更新步长，它是一个常数，0是正则项数，它是一个常数，那么参数w的梯度下降算法更新方程为：w:=wF0wnsgn(w)上面的更新方程比原来的多了nsgn(w)这一项. 当w为正时，更新后w变小，为负时则相反，即将w往0值靠，这样对于那些接近0值的参数

21、，那么就可能为0，这样很多w就会趋近于0，这样便起到了稀疏作用，也就是为何叫做”稀疏规则算子”了，这样相当于降低了模型的复杂度，提高模型泛化能力，防止过拟合.任何正则化算子，如果它在等于0处不可微，并且可以分解为一个“求和”的形式，那么这个正则化算子就可以实现稀疏. 也就是这么说，w的L1范数正则是绝对值，而|w|在w=0处是不可微. 其实L0范数正则(L0范数是指向量中非0的元素的个数)，也可以达到稀疏目的，但是现实中为什么不用L0正则呢，因为L0范数正则的优化是一个NP难问题，所以L1范数正则具有更好的优化特性.在w的更新式子中，当w为0时，|w|是不可导的，所以需要按照原始的未经正则化的

22、方法去更新w，即为了方便我们定义sgn(0)=0，这样便统一了所有情况.L1正则的稀疏性特性可能用来进行特征选择，只选择那些重要的，区分能力强的特征，而去掉那些不重要的，区分能力不强的特征. 虽然如果加上这些特征，可能会使得在模型训练时效果更好，但是可能会造成过拟合，从而模型的泛化能力不强.在线性回归中使用L1正则的叫做LASSO(Least Absolute Shrinkage and Selectionator Operator L1正则最小二乘回归).o L2L2范数正则化是在代价函数(优化目标函数)后面加上平方和正则项，即：F=F0+2nww2注意：常数项的w是不带入正则项中的，为了便

23、于区分，将其用b表示.其中F0为原始目标函数，在正则项前面乘以12是为了在求导过程中方便，因为平方项在求导过程中会产生一个2倍，这样便能约掉常数项. 那么新目标函数的导数为：Fw=F0w+nwFb=F0b这样参数的更新方程为:w:=wF0wnw=(1n)wF0wb:=bF0b其中，0是更新步长，它是一个常数，0是正则项数，它是一个常数从w更新方程中可以看出，在不使用L2正则项时，求导结果中的w前的系数为1，而现在前面的系数为(1n)，因为,n都是正数，因此前面的系数小于0，它的效果就是减小w，这就是为何L2正则又被称为“权值衰减”(weight decay).通过L2正则来降低模型的复杂度，提

24、高模型的泛化能力，防止过拟合，并且L2正则本书是一个凸二次函数，这样便有利于优化.在前面所说的正规方程中，若XTX不可逆，则无法进行求解，那么如果加上L2正则项，就变成：W=(XTX+I)1XTy这样(XTX+I)肯定是可逆的.最后通过一张图直观上来区别L1与L2正则，如图:FromPRML上图中使用的模型是线性回归，该模型中有两个特征，要优化的参数分别是w1和w2，左图的正则化是L2，右图是L1. 蓝色线就是优化过程中遇到的等高线，一圈代表一个目标函数值，圆心就是样本观测值(假设一个样本)，半径就是误差值，受限条件就是红色边界(就是正则化那部分)，二者相交处，才是最优参数. 可见右边的最优参数只可能在坐标轴上，所以就会出现0权重参数，使得模型稀疏.从另一个角度上来看，正则化其实就是对模型的参数设定一个先验，这是贝叶斯学派的观点，也是一种理解。L1正则是Laplace先验，L2是高斯先验.o L2.5该正则化集合了L1与L2正则，具有它们两者的优点.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？