机器学习3周志华.pptx

上传人:wj 文档编号:10491905 上传时间:2023-05-26 格式:PPTX 页数:23 大小:3.33MB
下载 相关 举报
机器学习3周志华.pptx_第1页
第1页 / 共23页
机器学习3周志华.pptx_第2页
第2页 / 共23页
机器学习3周志华.pptx_第3页
第3页 / 共23页
机器学习3周志华.pptx_第4页
第4页 / 共23页
机器学习3周志华.pptx_第5页
第5页 / 共23页
机器学习3周志华.pptx_第6页
第6页 / 共23页
机器学习3周志华.pptx_第7页
第7页 / 共23页
机器学习3周志华.pptx_第8页
第8页 / 共23页
机器学习3周志华.pptx_第9页
第9页 / 共23页
机器学习3周志华.pptx_第10页
第10页 / 共23页
机器学习3周志华.pptx_第11页
第11页 / 共23页
机器学习3周志华.pptx_第12页
第12页 / 共23页
机器学习3周志华.pptx_第13页
第13页 / 共23页
机器学习3周志华.pptx_第14页
第14页 / 共23页
机器学习3周志华.pptx_第15页
第15页 / 共23页
机器学习3周志华.pptx_第16页
第16页 / 共23页
机器学习3周志华.pptx_第17页
第17页 / 共23页
机器学习3周志华.pptx_第18页
第18页 / 共23页
机器学习3周志华.pptx_第19页
第19页 / 共23页
机器学习3周志华.pptx_第20页
第20页 / 共23页
亲,该文档总共23页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

机器学习3周志华.pptx

《机器学习3周志华.pptx》由会员分享,可在线阅读,更多相关《机器学习3周志华.pptx(23页珍藏版)》请在冰点文库上搜索。

机器学习3周志华.pptx

三、线性模型,线性模型,分类,回归,线性模型(linearmodel)试图学得一个通过属性的线性组合来进行预测的函数,简单、基本、可理解性好,线性回归,(linearregression),对,进行最小二乘参数估计,使得离散属性的处理:

若有“序”(order),则连续化;否则,转化为k维向量令均方误差最小化,有,线性回归,分别对,和,求导:

令导数为0,得到闭式(closed-form)解:

多元(multi-variate)线性回归使得,把,和,吸收入向量形式,,数据集表示为,多元线性回归同样采用最小二乘法求解,有,令,,对,求导:

令其为零可得然而,麻烦来了:

涉及矩阵求逆!

若若,满秩或正定,则不满秩,则可解出多个,此时需求助于归纳偏好,或引入正则化,(regularization),第6、11章,线性模型的变化,对于样例,若希望线性模型的预测值逼近真实标记,,则得到线性回归模型令预测值逼近y的衍生物?

若令则得到对数线性回归(log-linearregression),实际是在用,逼近y,广义(generalized)线性模型一般形式:

单调可微的联系函数,(linkfunction),令,则得到对数线性回归,二分类任务,找z和y的联系函数,性质不好,需找“替代函数”(surrogatefunction),线性回归模型产生的实值输出期望输出理想的“单位阶跃函数”(unit-stepfunction)常用,单调可微、任意阶可导,对数几率函数(logisticfunction)简称“对率函数”,对率回归以对率函数为联系函数:

变为即:

几率(odds),反映了x作为正例的相对可能性,“对数几率”,无需事先假设数据分布可得到“类别”的近似概率预测可直接应用现有数值优化算法求取最优解,(logodds,亦称logit)“对数几率回归”(logisticregression)简称“对率回归”注意:

它是,分类学习算法!

求解思路,若将y看作类后验概率估计可写为于是,可使用“极大似然法”,则第7章,(maximumlikelihoodmethod)给定数据集最大化“对数似然”(log-likelihood)函数,令,,则,可简写为,求解思路,再令则似然项可重写为于是,最大化似然函数等价为最小化高阶可导连续凸函数,可用经典的数值优化方法如梯度下降法/牛顿法BoydandVandenberghe,2004,线性模型做“分类”,回归广义线性模型;通过“联系函数”例如,对率回归,分类如何“直接”做分类?

线性判别分析,(LinearDiscriminantAnalysis),由于将样例投影到一条直线(低维空间),因此也被视为,一种“监督降维”技术降维,第10章,LDA的目标给定数据集第i类示例的集合第i类示例的均值向量第i类示例的协方差矩阵,两类样本的中心在直线上的投影:

和,两类样本的协方差:

和,尽可能小尽可能大,同类样例的投影点尽可能接近异类样例的投影点尽可能远离于是,最大化,LDA的目标,类内散度矩阵(within-classscattermatrix),类间散度矩阵(between-classscattermatrix),LDA的目标:

最大化广义瑞利商(generalizedRayleighquotient),w成倍缩放不影响J值,仅考虑方向,实践中通常是进行奇异值分解然后,求解思路,令,,最大化广义瑞利商等价形式为,运用拉格朗日乘子法,有,的方向恒为,,不妨令,于是,附录,推广到多类假定有N个类全局散度矩阵类内散度矩阵类间散度矩阵,特征值所对应的特征向量组成的矩阵,多分类LDA有多种实现方法:

采用例如,的闭式解是,中的任何两个的N-1个最大广义,训练N(N-1)/2个分类器,存储开销和测试时间大训练只用两个类的样例,训练时间短,训练N个分类器,存储开销和测试时间小训练用到全部训练样例,训练时间长,多分类学习拆解法:

将一个多分类任务拆分为若干个二分类任务求解,预测性能取决于具体数据分布,多数情况下两者差不多,纠错输出码(ECOC)多对多(ManyvsMany,MvM):

将若干类作为正类,若干类作为反类,一种常见方法:

纠错输出码编码:

对N个类别做M次划分,每次将一部分类别划为正类,一部分划为反类解码:

测试样本交给M个分类器预测,(ErrorCorrectingOutputCode)M个二类任务;(原)每类对应一个长为M的编码距离最小的类为最终结果长为M的预测结果编码,纠错输出码,ECOC编码对分类器错误有一定容忍和修正能力,编码越长、纠错能力越强对同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强,DietterichandBakiri,1995,Allweinetal.2000,类别不平衡(class-imbalance)不同类别的样本比例相差很大;“小类”往往更重要基本思路:

基本策略“再缩放”(rescaling):

然而,精确估计m-/m+通常很困难!

常见类别不平衡学习方法:

过采样(oversampling)例如:

SMOTE欠采样(undersampling)例如:

EasyEnsemble阈值移动(threshold-moving),前往第四站,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2