数据分析与R语言_004资料下载.pdf

上传人:wj 文档编号:5967495 上传时间:2023-05-05 格式:PDF 页数:22 大小:716.16KB
下载 相关 举报
数据分析与R语言_004资料下载.pdf_第1页
第1页 / 共22页
数据分析与R语言_004资料下载.pdf_第2页
第2页 / 共22页
数据分析与R语言_004资料下载.pdf_第3页
第3页 / 共22页
数据分析与R语言_004资料下载.pdf_第4页
第4页 / 共22页
数据分析与R语言_004资料下载.pdf_第5页
第5页 / 共22页
数据分析与R语言_004资料下载.pdf_第6页
第6页 / 共22页
数据分析与R语言_004资料下载.pdf_第7页
第7页 / 共22页
数据分析与R语言_004资料下载.pdf_第8页
第8页 / 共22页
数据分析与R语言_004资料下载.pdf_第9页
第9页 / 共22页
数据分析与R语言_004资料下载.pdf_第10页
第10页 / 共22页
数据分析与R语言_004资料下载.pdf_第11页
第11页 / 共22页
数据分析与R语言_004资料下载.pdf_第12页
第12页 / 共22页
数据分析与R语言_004资料下载.pdf_第13页
第13页 / 共22页
数据分析与R语言_004资料下载.pdf_第14页
第14页 / 共22页
数据分析与R语言_004资料下载.pdf_第15页
第15页 / 共22页
数据分析与R语言_004资料下载.pdf_第16页
第16页 / 共22页
数据分析与R语言_004资料下载.pdf_第17页
第17页 / 共22页
数据分析与R语言_004资料下载.pdf_第18页
第18页 / 共22页
数据分析与R语言_004资料下载.pdf_第19页
第19页 / 共22页
数据分析与R语言_004资料下载.pdf_第20页
第20页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

数据分析与R语言_004资料下载.pdf

《数据分析与R语言_004资料下载.pdf》由会员分享,可在线阅读,更多相关《数据分析与R语言_004资料下载.pdf(22页珍藏版)》请在冰点文库上搜索。

数据分析与R语言_004资料下载.pdf

生物物种预测:

天气预报决策:

yesorno分类的传统模型分类(判别分析)与聚类有什么差别?

2DATAGURU专业数据分析网站2012.6.28常见分类模型与算法线性判别法距离判别法贝叶斯分类器决策树支持向量机(SVM)神经网络3DATAGURU专业数据分析网站2012.6.28线性判别法(Fisher)例子:

天气预报数据G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)x1=c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8,0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8)x2=c(3.2,0.4,2.0,2.5,0.0,12.7,-5.4,-2.5,1.3,6.8,6.2,7.5,14.6,8.3,0.8,4.3,10.9,13.1,12.8,10.0)a=data.frame(G,x1,x2)plot(x1,x2)text(x1,x2,G,adj=-0.5)4DATAGURU专业数据分析网站2012.6.28线性判别法的原理用一条直线来划分学习集(这条直线一定存在吗?

)然后根据待测点在直线的哪一边决定它的分类5DATAGURU专业数据分析网站2012.6.28MASS包与线性判别函数lda()library(MASS)ld=lda(Gx1+x2)ld6DATAGURU专业数据分析网站2012.6.28分类判断z=predict(ld)newG=z$classnewG111111211112222122222Levels:

12cbind=(G,z$x,newG)y=cbind(G,z$x,newG)y7DATAGURU专业数据分析网站2012.6.28距离判别法原理:

计算待测点与各类的距离,取最短者为其所属分类马氏距离(薛毅书p445,为什么不用欧氏距离?

),计算函数mahalanobis()8DATAGURU专业数据分析网站2012.6.28算法情形一(薛毅书p445)9DATAGURU专业数据分析网站2012.6.28算法情形二(薛毅书p447)例子(薛毅书p449)10DATAGURU专业数据分析网站2012.6.28贝叶斯分类器原理(薛毅书p455)11DATAGURU专业数据分析网站2012.6.28结果对于总体协方差矩阵相同的情形12DATAGURU专业数据分析网站2012.6.28结果对于总体协方差矩阵不同的情形13DATAGURU专业数据分析网站2012.6.28程序与例子薛毅书P457利用贝叶斯分类器判断垃圾邮件14DATAGURU专业数据分析网站2012.6.28多分类的情况多分类下的距离判别法(薛毅书p452)多分类下的贝叶斯(薛毅书p460)15DATAGURU专业数据分析网站2012.6.28决策树decisiontree什么是决策树输入:

学习集输出:

分类规则(决策树)16DATAGURU专业数据分析网站2012.6.28例子用SNS社区中不真实账号检测的例子说明如何使用ID3算法构造决策树。

为了简单起见,我们假设训练集合包含10个元素。

其中s、m和l分别表示小、中和大。

17DATAGURU专业数据分析网站2012.6.28信息增益设L、F、H和R表示日志密度、好友密度、是否使用真实头像和账号是否真实,下面计算各属性的信息增益。

18DATAGURU专业数据分析网站2012.6.28根据信息增益选择分裂属性因此日志密度的信息增益是0.276。

用同样方法得到H和F的信息增益分别为0.033和0.553。

因为F具有最大的信息增益,所以第一次分裂选择F为分裂属性,分裂后的结果如下图表示:

19DATAGURU专业数据分析网站2012.6.28递归+分而治之在上图的基础上,再递归使用这个方法计算子节点的分裂属性,最终就可以得到整个决策树。

这个方法称为ID3算法,还有其它的算法也可以产生决策树对于特征属性为连续值,可以如此使用ID3算法:

先将D中元素按照特征属性排序,则每两个相邻元素的中间点可以看做潜在分裂点,从第一个潜在分裂点开始,分裂D并计算两个集合的期望信息,具有最小期望信息的点称为这个属性的最佳分裂点,其信息期望作为此属性的信息期望。

20DATAGURU专业数据分析网站2012.6.28R语言实现决策树:

rpart扩展包以鸢尾花数据集作为算例说明iris.rp=rpart(Species.,data=iris,method=class)plot(iris.rp,uniform=T,branch=0,margin=0.1,main=“ClassificationTreenIrisSpeciesbyPetalandSepalLength)text(iris.rp,use.n=T,fancy=T,col=blue)21Rule1:

ifPetal.Length=2.45&

Petal.Width=2.45&

Petal.Width=1.75,thenitisvirginica(0/1/45)Rule3:

ifPetal.Length2.45,thenitissetosa(50/0/0)DATAGURU专业数据分析网站FAQ时间22

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2