统计机器学习方法.docx

上传人:b****2 文档编号:2389362 上传时间:2023-05-03 格式:DOCX 页数:29 大小:44.53KB
下载 相关 举报
统计机器学习方法.docx_第1页
第1页 / 共29页
统计机器学习方法.docx_第2页
第2页 / 共29页
统计机器学习方法.docx_第3页
第3页 / 共29页
统计机器学习方法.docx_第4页
第4页 / 共29页
统计机器学习方法.docx_第5页
第5页 / 共29页
统计机器学习方法.docx_第6页
第6页 / 共29页
统计机器学习方法.docx_第7页
第7页 / 共29页
统计机器学习方法.docx_第8页
第8页 / 共29页
统计机器学习方法.docx_第9页
第9页 / 共29页
统计机器学习方法.docx_第10页
第10页 / 共29页
统计机器学习方法.docx_第11页
第11页 / 共29页
统计机器学习方法.docx_第12页
第12页 / 共29页
统计机器学习方法.docx_第13页
第13页 / 共29页
统计机器学习方法.docx_第14页
第14页 / 共29页
统计机器学习方法.docx_第15页
第15页 / 共29页
统计机器学习方法.docx_第16页
第16页 / 共29页
统计机器学习方法.docx_第17页
第17页 / 共29页
统计机器学习方法.docx_第18页
第18页 / 共29页
统计机器学习方法.docx_第19页
第19页 / 共29页
统计机器学习方法.docx_第20页
第20页 / 共29页
亲,该文档总共29页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

统计机器学习方法.docx

《统计机器学习方法.docx》由会员分享,可在线阅读,更多相关《统计机器学习方法.docx(29页珍藏版)》请在冰点文库上搜索。

统计机器学习方法.docx

统计机器学习方法

从统计学角度看待机器学习

?

统计学习总览

李航的《统计学习方法》绝对是干货十足的书,可惜实在是太干了,字字珠玑,几乎每段话都能当作笔记进行整理。

读起来仿佛在吃加强版的压缩饼干,虽然能量十足但未免太难吃了。

根据文中内容,现在的机器学习,狭义上就是指代统计机器学习。

统计学习是数据驱动,从数据中学习概率统计模型,然后利用模型对新数据进行分析和预测。

统计学习关于数据的基本假设——同类数据具有一定的统计规律。

以随机变量(组)描述数据特征,以概率分布描述数据的统计规律。

统计学习的目的是——寻找什么样的模型,怎么学习这个模型,以及学习这个模型的效率。

从而对数据进行分析和预测。

统计学习基本步骤——数据假设、模型假设、策略选择、优化求解、选择模型、应用模型。

数据——独立同分布。

模型(参数空间、复杂度)——所有可能模型集合,假设空间(输入=>模型=>输出,一种映射,如条件概率或决策函数)。

策略(损失函数、风险函数、经验函数)——确定模型选择的准则(最大似然,最小二乘拟合)。

算法(优化问题)——实现策略的方法(直接求解,迭代求解,梯度下降)。

输入实例=>特征向量、输入输出对=>样本。

通过训练误差。

测试误差来评估模型——欠拟合和过拟合,偏倚方差两难问题。

通过正则化和交叉验证来选取模型。

通过泛化误差上界来评定模型好坏。

====================================================================================

?

统计学习

统计学习定义:

关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。

机器学习:

往往是指代统计机器学习。

统计学习对象:

数据驱动,并假设同类数据具有一定的统计规律性。

统计学习目的:

分析和预测数据。

统计学习目标:

学习什么样的模型,如何学习模型,并有效率的学习。

统计学习的分类:

监督学习、半监督学习、无监督学习、增强学习等。

统计学习数据表示:

以变量或者变量组来表示。

分为连续变量和离散变量。

统计学习的方法步骤(监督学习为例):

数据假设、模型假设、策略选择、优化求解、选择模型、应用模型

1.有限训练数据集合,并假设数据独立同分布——数据。

2.确定假设空间,即可能的模型集合——模型。

3.确定模型选择的准则——策略。

4.实现求解模型的方法——算法。

5.通过学习选择最优模型——选择。

6.利用模型进行预测和分析——应用。

统计学习的研究:

包括统计学习方法、统计学习理论、统计学习应用。

1.统计学习方法的研究——开发新的学习方法。

2.统计学习理论的研究——学习方法的有效性和效率,以及基本理论问题。

3.统计学习应用的研究——如何将统计方法应用到实际问题中去。

统计学习的重要性:

我们都懂得,混口饭吃嘛,装装牛x啥的。

====================================================================================

?

监督学习

监督学习内容:

分类、回归、标注等。

实例表示:

通常以特征向量的形式表示,每一个特征是一个维度。

监督学习基本假设:

输入输出的随机变量x和y遵循联合概率分布p(x,y),并假设这个分布存在。

并且数据由这个分布独立同分布产生。

假设空间:

1.概率模型——p(y|x)。

2.决策函数——f(x)。

监督学习模型:

1.概率模型——f通常是由一个参数向量决定的条件概率分布族。

2.决策模型——f通常是由一个参数向量决定的函数族。

监督学习策略:

1.损失函数:

0-1损失函数,平方损失函数,绝对损失函数,对数损失函数or对数似然损失函数。

2.风险函数,期望损失:

损失函数*联合概率的积分。

3.经验风险:

损失函数和/n。

4.最小化:

经验风险最小化,结构风险最小化。

监督学习算法:

优化问题:

梯度下降,进化计算。

?

模型评估和选择:

训练误差:

训练数据平均损失。

测试误差:

测试数据平均损失。

过拟合:

正则化和交叉验证:

简单交叉验证,s折交叉验证,留一交叉验证。

?

模型分类:

篇二:

统计机器学习研究

第38卷第6期

2010年11月

河南师范大学学报(自然科学版)

journalofhenannormaluniversity(naturalscience)

vol.38no.6

nov.2010

文章编号:

1000-2367(2010)06-0035-06

收稿日期:

2010-03-10

基金项目:

国家自然科学基金项目(60850004,60727002,60774003);国家重点基础研究发展规划(973)项目

(2005cb321902);国防基础研究项目(a2120061303);河南师范大学青年科学基金(2010qk01,2010qk21)

统计机器学习研究

李钧涛1,杨瑞峰2,左红亮1

(1.河南师范大学数学与信息科学学院,河南新乡453007;2.新乡学院数学系,河南新乡453003)摘要:

通过将正则化框架引入到统计学习中来,介绍了几种当前流行的统计学习机器,分析了他们的性能,并探讨了快速求解算法.关键词:

统计学习;机器学习;支持向量机

中图分类号:

tp273文献标志码:

a

基于数据的机器学习(machinelearning)是现代人工智能的一个核心研究领域,它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能[1-5].狭义地,可以把机器学习理解为从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测[1-2].针对有限样本下机器学习问题,vapnik等人提出了统计学习理论(statisticallearningtheory)[3-4].随着来自不同领域的学者对统计学习理论更加深入的研究和广泛的应用,它已发展成为一门涵盖模式识别、函数逼近论、生物医学、数据挖掘、线性及非线性优化等众多学科交叉的边缘学科.

1统计机器学习的发展

vapnik等人从20世纪六、七十年代开始致力于统计学习的研究,到90年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视[5,6].随后,著名统计学家tibshirani,hastie,friedman,wahba,计算机学家christianini,shawe-tay-lor,人工智能学者poggio,mukherjee等人也纷纷开展相应的研究,获得了大量的创新性成果.统计学习理论为解决有限样本学习问题提供了一个统一的框架,可以说是目前针对小样本统计估计和预测学习的最佳理论.

在这种新理论体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果.统计学习理论的一个核心概念就是vc维,它是描述学习机器的学习能力的一个重要指标,在此概念基础上发展出了一系列关于统计学习的一致性、收敛速度、泛化性能等重要结论.支持向量机(supportvectormachine)是统计学习理论中最年轻的内容,也是最实用的部分.其核心内容在1992到1995年间被提出[7],目前仍处在不断发展的阶段

[8-11].支持向量机是建立在统计学习的vc维理论和结构风险最小原理基础上的,它根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的泛化能力.使分类间隔最大化,即对泛化能力的控制是支持向量机的核心思想之一.给定训练样本(x1,y1),(x2,y2),?

(xn,yn),其中xi∈rp是输入向量,yi∈{1,-1}是二值输出响应,支持向量机求解下面的最优化问题:

minw0,w12‖w‖22+c∑ni=1ξi,

(1)约束条件为yi(w0+xtiw)1-ξi,ξi0,i=1,2,…,n,其中,c>0是一个常数,它控制对错分样本的惩罚程度.利用lagrange乘子法,求解支持向量机等价于求解如下的二次规划问题:

maxα∑ni=1αi-12∑ni,j=1yiyjαiαj(xi·xj),

(2)约束条件为0αic,i=1,2,?

n,∑ni=1αiyi=0.非零系数αi对应的向量xi是最靠近最优超平面的向量,被称为支持向量.通过把原问题转化为对偶问题,支持向量机计算的复杂度不再取决于空间维数,而是取决于样本中的支持向量数.这些特点使得支持向量机可以有效地处理高维问题.

对于非线性问题,支持向量机首先通过用内积函数(mercer核函数)定义的非线性变换将输入空间变换到一个高维特征空间,然后在这个空间中寻求(广义)线性的最优分类面.支持向量机在解决小样本、非线性及高维模式中有着独特的优势:

(1)它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值;

(2)它最终求解的是一个二次型寻优问题,从理论上说,得到的将是全局最优解,解决了在神经网络方法中无法避免的局部极值问题[12-13];(3)它将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,巧妙地解决了维数问题,其算法复杂度与样本维数无关。

支持向量机以精美的边界解释性和良好的学习性能,在生物信息学领域得到了广泛的关注[14].然而,标准支持向量机的分类性能都高度依赖于额外的基因选择方法.tibshirani等人在1996提出了能进行自动变量选择的学习机器lasso[15].随后的统计学习理论与应用都表明,同时进行基因选择和分类能够改进学习机器的性能[16-17].特别地,根据这种思想,zhu等人在2004年提出了1-范数支持向量机[14],shevade和keerthi在2006年提出稀疏逻辑回归[18],cawley和talbot在2006年提出带有bayesian正则化的系数逻辑回归

[19].

2正则化学习框架

机器学习的目的是根据给定的训练样本寻求输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测.学习问题可以用数学语言描述为:

给定n个独立同分布的观测样本(x1,y1),(x2,y2),?

(xn,yn),在预测函数集合{f(x,w)}中求一个最优的函数f(x,w*),使得期望风险最小.学习问题的涉及面很广,最基本的学习问题有3类:

模式识别(分类问题)、回归估计和概率密度估计.其中,最为广泛研究的是分类与回归问题.有时候也把分类问题看做是回归问题的一种特例.针对分类与回归问题,大量的统计学习机器已经被发展,例如,支持向量机、adaboost,lasso,逻辑回归、弹性网络、非凸惩罚类方法等.这些流行的学习机器可以根据损失+惩罚的准则[20],被统一地归纳为如下的正则化框架^β(λ)=argminβl(y,f(x))+j(λ,β),(3)其中l(y,f(x))表示非负的损失函数,体现对特定训练样本的分类误差,j(λ,β)表示满足j(0)=0惩罚函数,体现模型的复杂性,λ被称为正则化参数,它的取值权衡着训练精度与模型复杂性,从而决定着学习机器的泛化性能.不同类型的学习问题往往具有不同形式的损失函数,常见的损失函数有如下几种:

平方误差损失函数:

l(y,f(x))=(y-f(x))2.

指数损失函数:

l(y,f(x))=exp(-yf(x)).

logistic损失函数:

l(y,f(x))=ln(1+exp(-yf(x))).

hinge损失函数:

l(y,f(x))=[1-yf(x)]+=max{1-yf(x),0}.

q-范数hinge损失函数(1<q<∞):

l(y,f(x))=[1-yf(x)]q+=(max{1-yf(x),0})q.

ε-不敏感损失函数:

l(y,f(x))=|y-f(x)|ε=max(0,|y-f(x)|-ε).

具有固定节点t的huber损失函数:

lh(y,f(x))=(y-f(x))2,如果|y-f(x)t,2t|y-f(x))|-t2,其他情况.具有固定节点0<t<1的huberizedhinge损失函数lhh(yf(x))=0如果yf(x)>1,(1-yf(x))2/(2t),如果1-t<yf(x)11-yf(x)-t/2,其他情况.

在正则化框架下,一个核心的问题就是对学习机器的系数进行适当的惩罚.从统计学的角度考

虑,惩罚项的收缩可以有效地控制学习机器系数的大小和变化,从而改进滤波模型的精度,并产生模型稀疏性、群体变量选择等性能.令w=(w1,w2,?

wp)是学习机器的系数向量.在统计学习中,流行的惩罚函数有:

2-范数惩罚:

j2(λ,w)=λ‖w‖2=λ∑pj=1w2j.1-范数惩罚:

j1(λ,w)=λ‖w‖1=λ∑pj=1|wj|.弹性网络惩罚:

j(λ2,λ1,w)=λ2‖w‖2+λ1‖w‖1.q-范数惩罚(q>0):

j(λ,w)=λ∑pj=1|wj|q.

oscar惩罚:

j(λ1,λ2,w)=λ∑pj=1|wj|+λ2∑j<k|wj-wj-1|}.分块1-范数惩罚:

j(λ,w)=λ∑kj=1|gk|‖wj‖2=λ∑kj=1|gk|∑|gk|l=1|wjl|2,其中k表示系数被分成的子块的个数,|gk|表示第k个系数群(子块)中含有系数的个数,wk表示与第k个子群相应的系数向量.光滑截尾绝对偏差(scad)惩罚:

j(λ,w)=∑pj=1pλ(|wj|),pλ(|wj|)=λ|wj|,如果|wjλ,-(|wj|2-2aλ|wj|+λ2)2(a-1),如果λ<|wjaλ,(a+1)λ2

2,其他情况.

其中,a>2,λ>0是模型参数.需要指出的是,这是一种非凸的惩罚.结合上述的不同损失函数与惩罚函数,可以构造各种学习机器,例如,结合hinge损失与2-范数惩罚构成了标准的支持向量机,而结合hinge损失与1-范数惩罚构成了1-范数支持向量机;结合平方误差损失与2-范数惩罚构成了脊回归,而结合平方误差损失与1-范数惩罚构成了lasso.由于不同的损失函数和惩罚函数各有其优点,从而使得构造的学习机器也具有不同的性能.由损失+惩罚准则建立起来的正则化框架易知,可以从改进损失和改进惩罚这两个角度出发,来构造满足实际问题求解需要的新型统计学习机器.

3流行的统计学习机器及算法

利用上节中给出的正则化框架,本小节列举一些当前流行的统计学习机器,分析他们的性能,并讨论其相应的求解算法.标准支持向量机是最早提出的统计学习分类方法,已经被成功地应用于人工智能的各个方面.给定训练样本(x1,y1),(x2,y2),?

(xn,yn),其中xi∈rp是输入向量,yi∈{1,-1}是二值输出响应,标准支持向量机(1})可以被重新描述为如下的最优化问题[3]:

w^(svm)=argminw0,w∑ni=1[1-yi(w0+xtiw)]++λ‖w‖2.(4)

根据对偶理论,支持向量机等价于二次规划问题

(2),因此,所有求解二次规划的算法都可以用来求解标准支持向量机(4).其中,最出名的是smo算法.smo算法的优点是:

在对二次规划求解时,每次优化只处理两个数据样本的优化问题,很容易给出其解析解,从而完全避免了二次规划数值解法的复杂迭代过程,不但节省了计算时间,而且不会牵涉到迭代算法造成的误差积累.

最小二乘支持向量机也被称为脊回归,是一种被广泛应用的回归方法.给定训练样本(xi,yi)和从输入空间rp到特征空间z的非线性映射ψ0(xi),其中xi∈rp是输入向量,yi∈r是输出响应,i=1,2,?

n,最小二乘支持向量机求解如下的最优化问题:

w^(lssvm)=argminw0,w∑ni=1(yi-w0-wtψ0(xi))2+λ‖w‖2.(5)

通过求导和简单变换,最小二乘支持向量机在对偶空间里等价于一个含有n+1个变量的线性方程组,因此,可以通过矩阵求逆运算来求解.当样本个数很多时,在线算法和smo算法[21,22]也被发展来处理矩阵求逆问题.lasso估计子是tibshirani在1996年提出的一种能产生稀疏模型的线性回归估计子[15].给定训练样本(xi,yi),其中xi∈rp是输入向量,yi∈r是输出响应,i=1,2,?

n,lasso求解如下的最优化问题:

w^(lasso)=argminw0,w∑ni=1(yi-wtxi)2+λ‖w‖1.

(6)

由于1-范数惩罚函数在原点是奇异的,因此1-范数惩罚能把许多回归系数准确地收缩到零,从而产生稀疏的滤波模型.这种稀疏性在“大p,小n”问题(例如微阵列基因表达数据分析)中是特别有用的,从而使得该方法在机器学习与生物信息学等领域得到了广泛的关注.许多算法都可以用来求解lasso问题,其中最引人瞩目的是efron等人在2004年提出最小角回归算法

(lars).该算法提出利用线性连接来寻求lasso问题的完全正则化解路,为正则化参数选择开辟了新的途径[23].

1-范数支持向量机是能自动进行变量选择的一种二分类方法.1-范数支持向量机的基本原理和lasso相似,但其用hinge损失函数代替了平方误差损失函数[14].给定训练样本(x1,y1),(x2,y2),?

(xn,yn)和再生核hilbert空间中的一族基函数hj(xi),其中xi∈rp是输入向量,yi∈{1,-1}是二值输出响应,1-范数支持向量机求解如下的最优化问题:

w^(lsvm)=argminw0,w∑ni=1[1-yi(w0+∑qj=1wih(xi))]++λ‖w‖1.(7)

通过简单的变量替换,1-范数支持向量机等价于一个线性规划问题,因此,所有求解线性规划的方法都可以用来求解1-范数支持向量机.需要指出的是,zhu等人在2004年发展了分段线性解路算法,减少了模型选择问题的计算复杂性[14].

弹性网络是zou和hastie在2005年提出的一种新型回归方法[17].给定训练样本(xi,yi),其中xi∈rp是输入向量,yi∈r是输出响应,i=1,2,?

n,弹性网络求解如下的最优化问题w^(en)=(1+λ2)argminw{‖y-wtxi‖2+λ2‖w‖2+λ1‖w‖1)},(8)其中λ1>0,λ2>0是正则化参数.作为一种新的正则化方法,弹性网络不仅能通过1-范数惩罚产生稀疏的模型,还能通过1-范数和2-范数的共同惩罚,激励群体变量选择效应.通过使用回归方法来进行分类,弹性网络已经被成功地应用到微阵列分类.由于弹性网络在增广空间中等价于一个具有n+p个样本的lasso估计子,因此求解lasso的算法都可以用来求解弹性网络.但需要指出的是,当p远远大于n时(比如,微阵列基因表达数据),如何减少计算量是一个特别需要注意的问题.friedman等人提出求解增广线性模型的顺向坐标下降算法为快速求解该问题开辟了道路[24].双正则化支持向量机是能进行群体变量选择的一种二分类方法.双正则化支持向量机的基本原理和弹性网络相似,但是用hinge损失函数代替了平方误差损失函数.给定训练样本(x1,y1),(x2,y2),?

(xn,yn),其中xi∈rp是输入向量,yi∈{1,-1}是二值输出响应,双正则化支持向量机求解如下的最优化问题:

w^(drsvw)=argminw0,w∑ni=1[1-yi(w0+xtiw)]++λ2‖w‖2+λ1‖w‖1.(9)wang等人了证明双正则化支持向量机能激励群体变量选择效应,而且其系数路关于单正则化参数是分段线性的,并发展了相应的解路算法[10].

混杂huberized支持向量机基本原理和双正则化支持向量机相似,唯一的区别是其用huberizedhinge损失函数代替hinge损失函数.给定与双正则化支持向量机相同的条件,混杂huberized支持向量机求解如下最优化问题:

w^(hhsvw)=argminw0,w∑ni=1lhh(yi(w0+xtiw))+λ2‖w‖2+λ1‖w‖1.(10)

其中,lhh(yi(w0+xtiw))是带有固定节点t的huberziedhinge损失函数.由于该损失函数与hinge损失函数形状相似,因此具有类似于标准支持向量机的分类性能.但由于huberizedhinge损失函数是可微的,这给求解带来了很大的方便.wang等人给出了求解混杂huberized支持向量机的解路算法[11].其他类型的统计学习机器.通过引入加权惩罚的思想,李钧涛和贾英民提出了自适应huberized支持向量机[25],并发展了与其对应的解路算法.该学习机器能减少重要变量对应系数的收缩偏好,从而激励一种自适应的群体变量选择效应.进一步,通过把二分类中的弹性网络惩罚和自适应弹性网络惩罚推广到多类分类中去,他们还提出了huberized多类支持向量机[26]和自适应多类支持向量机[27].此外,fan等人在2001年指出非凸惩罚类方法也能取得良好的学习性能并发展了基于scad惩罚的变量选择方法[28].zhang等人结合hinge损失和非凸的scad惩罚,提出了scad支持向量机,并将其应用到微阵列的基因选择中去,获得了较好的实验结果[29].通过使用非凸的ramp损失代替hinge损失,collobert等人在2006提出了一种新的非凸支持向量机,并给出该支持向量机求解的凹凸程序[30].通过用两个非平行的分类超平面代替单分类超平面,jayadeva等人在2007年提出了双支持向量机[31],从而减少了大数据问题的计算复杂性.

4结束语

以支持向量机为代表的统计学习机器克服了传统人工智能与控制领域难以解决的瓶颈问题

参考文献

[1]王珏,周志华,周傲英.机器学习及其应用[m].北京:

清华大学出版社,2006.

[2]曾华军,张银奎.机器学习[m].北京:

机械工业出版社,2003.

[3]vapnikv.thenatureofstatisticallearningtheory[m].newyork:

springer,1995.

[4]许建华,张学工.统计学习理论[m].北京:

电子工业出版社,2004.

[5]张学工.关于统计学习理论与支持向量机[j].自动化学报,2000,26

(1):

32-42.

[6]shawe-taylorj,bartlettp,williamsonr,etal.structuralriskminimizationoverdata-dependenthierarchies[j].ieeetransactionsoninformationtheory,1998,44(5):

1926-1940.

[7]cortesc,vapnikv.supportvectornetworks[j].machinelearning,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2