数据挖掘PPT全套课件.pptx

资源描述

数据挖掘PPT全套课件.pptx

《数据挖掘PPT全套课件.pptx》由会员分享，可在线阅读，更多相关《数据挖掘PPT全套课件.pptx（679页珍藏版）》请在冰点文库上搜索。

数据挖掘PPT全套课件.pptx

数据挖掘:

绪论,第1章绪论,l数据电子商务网站的日志银行帐务数据顾客购物的数据,为什么要进行数据挖掘?

商业观点,为什么要进行数据挖掘?

科学观点,l医学、科学、工程技术界正快速积累大量数据（GB/hour）地表、海洋和大气的全球观测数据基因组数据l数据挖掘技术可以帮助处理这些数据干旱和飓风等生态扰动与全球变暖关系？

海洋表面温度对地表降水量和温度影响？

蛋白质结构预测、多序列比对、生物化学通路建模、种系发生学,什么是数据挖掘?

l定义数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。

数据挖掘技术用来探查大型数据库，发现先前未知的有用模式.,什么是数据挖掘?

什么不是？

l什么是数据挖掘?

把搜索引擎得到的相似数据合并在一起（e.g.Amazonrainforest,A,）利用网络数据分析哪些歌星在中国的名气最高,l什么不是数据挖掘?

在电话本里搜索电话号码利用搜索引擎如“Google”搜索“Amazon”,l数据挖掘利用了来自如下一些领域的思想：

（）统计学的抽样、估计、假设检验（）人工智能、模式识别、机器学习的搜索算法建摸技术、学习理论（）最优化、进化算法、信息论、信号处理、,可视化、信息检索（）数据库技术、并行计算、分布式计算l传统的方法可能不适合数据量巨大数据维度高数据异种性（具有序列和三维结构的DNA数据）,数据挖掘的起源,人工智能、机器学习和模式识别,统计学,数据挖掘,数据库技术、并行技术、分布式技术,数据挖掘的任务,l预测使用已知变量预测未知变量的值.l描述导出潜在联系的模式（相关、趋势、聚类、异常）.,数据挖掘的任务,l分类预测l聚类描述l关联分析描述l异常检测预测,分类例子,categoricatlegoricoanltinuousclass,TestSet,TrainingSet,Model,LearnClassifier,聚类,Intraclusterdistancesareminimized,Interclusterdistancesaremaximized,关联分析:

定义,l用来发现描述数据中强关联特征的模式，所发现的模式通常用蕴涵规则或特征子集的形式表示。

由于搜索空间是指数规模的，关联分析的目标是以有效的方式提取最有趣的模式;找出具有相关功能的基因组、识别一起访问的Web页面、理解地球气候系统不同元素之间的联系.,RulesDiscovered:

Diaper-MilkDiaper,Milk-Beer,数据挖掘的挑战,l可伸缩l高维性l异种数据和复杂数据l数据的所有权和分布l非传统数据,可伸缩,高维性,异种数据和复杂数据,BIND数据库主要记录蛋白质互作在内的生物分子间的相互作用信息，并将其中的信息分为经过人工检查的可信信息和高通量数据信息。

DIP数据库DIP数据库是专门存储蛋白质相互作用信息的数据库。

该数据库中也包含人工检查的可靠信息和自动计算方法所获取的高通量数据。

MIPS数据库MIPS数据库是一个跨物种的综合性数据库，包含多种数据库信息。

其中的CYGD数据库提供了比较完整酵母蛋白质互作信息。

而MIPS哺乳动物数据库MPPI则提供了经过人工检查的哺乳动物蛋白质互作信息。

BioGrid数据库BioGrid数据库是一个包含多物种蛋白质互作信息的数据库。

数据库中包含来自多个物种的互作信息，其中即包括物理互作信息也包括遗传互作信息。

数据的所有权和分布,内容安排,l数据l探索数据l分类：

基本概念、决策树与模型评估l分类：

其他技术l关联分析：

基本概念和算法l关联分析：

高级概念l聚类分析：

基本概念和算法l聚类分析：

附加问题与算法,数据挖掘:

数据,第2章数据,目录l2.1数据类型l2.2数据质量l2.3数据预处理（重点）l2.4相似性和相异性的度量（难点）,什么是数据?

l数据集可以看作数据对象的集合。

数据对象用一组刻画对象基本特性的属性描述,l数据对象记录、点、向量、模式、事件、案例、样本、观测、实,体.,l属性变量、特性、字段、特征、维,Attributes,Objects,属性与属性值,l属性的性质不必与度量它的属性值的性质相同，反之亦然相同的属性可能有不同的属性值例子:

高度可以用米或英尺来表示不同的属性可能映射到相同的值的集合例子:

雇员IDand年龄都用整型表示然而，谈论平均年龄是有意义的，平均ID是无意义的ID和年龄最大值不同,例2.4线段长度,属性的不同类型,l四种属性类型l分类的（定性的）标称举例:

雇员id、眼球颜色、性别序数举例：

矿石硬度、好，较好，最好l数值的（定量的）区间举例：

日历日期、摄氏、华氏温度比率举例：

绝对温度、货币量、计数、年龄、质量、长度、电流,属性类型描述例子,操作,标称标称值只提供足够的信息以区分对象.（=,）,雇员id、眼球颜色、性别,众数、熵、列,2,联相关、,检验,.重点,属性类型,变换,注释,标称,任何一对一变换,如果所有雇员的ID号都重新赋值，不会导致任何不同,序数,值的保序变换新值=f（旧值）f是单调的.,包括好、较好、最好的属性可以完全等价的用1,2,3或用0.5,1,10表示.,用值的个数描述属性-离散和连续属性l离散属性具有有限或无限可数个值例子:

ID号、计数、字母数经常用整数表示.l连续属性是取实数值的属性例子:

温度、高度、重量.连续属性用浮点变量表示.,数据集的类型,数据集的一般特性：

维度（dimensionality）维灾难（curseofdimensionality）维归约（dimensionalityreduction）稀疏性（sparsity）对于一些数据集，如具有非对称特征的数据集，一个对象大部分属性值为0，非零项一般不到1%分辨率（resolution）不同的分辨率下数据的性质不同。

数据集的类型,l记录数据数据矩阵（DataMatrix）文档词矩阵（DocumenttermData）事物数据（TransactionData）l基于图形的数据带有对象之间联系的数据具有图形对象的数据l有序数据空间数据（SpatialData）时序数据（TemporalData）时间序列数据（TimeSeriesData）序列数据（SequenceData）,记录数据,l记录（数据对象）的汇集，每个记录包含固定的数据字段（属性）集,记录数据-数据矩阵,l数据对象集可用mn的矩阵表示,记录数据-稀疏数据矩阵,l特殊的数据矩阵,只有非零值是重要的,例子：

文档-词矩阵,记录数据-事务数据,l每个记录（事务）涉及一个项的集合.例子：

一个杂货店。

顾客一次购买的商品的集合就构成一个事务，而购买的商品是项.这种类型的数据称作购物篮数据,基于图形的数据-带有对象之间联系的数据,公路交通网,基于图形的数据-具有图形对象的数据,l苯分子:

C6H6,具有图形对象的数据-信号转导通路,http:

/www.genome.jp/kegg/pathway/hsa/hsa04010.html,MAPK通路,具有图形对象的数据-代谢通路,Detail:

http:

/www.genome.jp/kegg-bin/show_pathway?

org_name=rn&mapno=00010&mapscale=1.0&show_description=show,葡萄糖代谢,有序数据-时序数据,l时序数据：

可以看作记录数据的补充，其中每个记录包含一个与之相关联的时间。

有序数据-时间序列数据,l时间序列数据：

是一种特殊的时序数据，其中每个记录都是一个时间序列。

特点：

时间自相关！

有序数据-时间序列数据,酵母细胞发育基因表达值,有序数据-序列数据,l序列数据：

没有时间，其它与时序数据相似。

有序数据-空间数据,l例子：

温度数据,特点：

空间自相关！

有序数据-空间数据,目录l2.1数据类型l2.2数据质量l2.3数据预处理（重点）l2.4相似性和相异性的度量（难点）,2.2数据质量,l数据质量问题:

噪声（Noise）离群点（outliers）遗漏值（missingvalues）重复数据（duplicatedata）,噪声,l噪声是测量误差的随机部分,Examples:

distortionofapersonsvoicewhentalkingonapoorphoneand“snow”on,televisionscreen,TwoSineWaves,TwoSineWaves+Noise,离群点,l噪声和离群点的区别,离群点可以是合法的数据对象或值，不像噪声，离群点本身可以是令人感兴趣的例子：

欺诈和网络攻击检测中，目标就是从大量正常对象或事件中发现不正常的对象和事件,遗漏值l产生遗漏值的原因信息未收集到例如：

有的人拒绝提供年龄和体重属性并不能用于所有对象例如：

填写学历后，填写专业，研究方向l处理遗漏值删除数据对象或属性估计遗漏值在分析时忽略遗漏值,重复数据,l数据集可能包含重复或几乎重复的数据对象例1:

许多人收到重复的邮件例2：

不同数据库收集的蛋白质互作数据和通路数据的重复例3：

重复序列，如rRNA基因、tRNA基因和某些蛋白质（如组蛋白、肌动蛋白等）的基因序列例4：

旁系同源基因去除重复数据代码：

x-c（gene1,gene2,gene1）unique（x）,目录l2.1数据类型l2.2数据质量l2.3数据预处理（重点）l2.4相似性和相异性的度量（难点）,2.3数据预处理（重点）,l聚集（重点）l抽样（重点）l维归约l特征子集选择l特征创建l离散化和二元化（重点）l变量变换,聚集,l将两个或多个对象合并成单个对象,l目的数据归约使数据集规模减少，从而耗时较多的数据挖掘算法更可行尺度变换建立高层数据视图。

如：

城市聚集成地区、省、国家数据性质更加稳定平均值、总数等聚集量具有更小的变异性,聚集-生物学例子,肝移植、肾移植、等疾病聚集起来，称为器官移植疾病！

抽样,l抽样是一种选择数据对象子集进行分析的常用方法,l在统计学和数据挖掘中，抽样的动机并不相同.统计学使用抽样是因为获得感兴趣的整个数据集的费用太高、太费时间数据挖掘使用抽样是因为处理所有的数据的费用太高、太费时间,抽样l有效抽样（样本有代表性）:

使用抽样样本与使用整个数据集的效果几乎一样如果它近似地具有与原数据集相同（感兴趣）的性质。

例子：

如果感兴趣的数据对象是均值，而抽样样本具有近似于原数据集的均值，则样本是有代表性的,抽样方法,l简单随机抽样无放回抽样有放回抽样l分层抽样每种类型的对象数量差别很大时，简单随机抽样不能充分地代表不太频繁出现的对象类型。

先分组，然后对每组抽样。

可以使每组抽样个数相同或从每组中抽取的对象数量正比于该组的大小,抽样与信息损失,8000points,2000Points,500Points,较大的样本容量增大了样本具有代表性的概率，但也抵消了抽样带来的许多好处。

反过来，使用较小容量的样本，可能丢失模式，或检测到错误的模式。

抽样-生物例子,抽样-生物例子,l我们检测了所有疾病基因对在通路中的距离，结果发现它们的平均距离d很小l这种现象是疾病基因特有的吗？

l我们利用抽样方法随机抽取了一些基因（数量与疾病基因数量相同），然后检测它们的平均距离。

重复抽样过程1000次。

l结果检测到有990次以上平均距离大于d计算出P值0.01抽样程序代码：

疾病基因对在通路中的距x-paste（c（gene）,1:

100,sep=）离更小的假设是成立的！

sample（x,6）,维归约,l目的:

减少数据挖掘算法运行的时间和空间数据更容易可视化删除不相关特征、降低噪音l技术主成分分析-PCA（PrincipleComponentAnalysis）程序代码：

prcomp（iris,1:

4）奇异值分解-SVD（SingularValueDecomposition）,PCA,特征创建l由原来的属性创建新的属性集，更有效地捕获数据集中的重要信息l三个一般的方法:

特征提取映射数据到新的空间特征构造,特征创建-映射数据到新的空间,TwoSineWaves,TwoSineWaves+Noise,Frequency,l傅立叶变换：

把时间序列转化为频率信息l小波变换,特征创建-特征构造,l例子：

每个人工制品由体积、质量和其它信息构成。

假定这些人工制品使用少量材料（木材、陶土、青铜、黄金）制造，并且我们希望根据制造材料对它们分类。

l密度=质量/体积将很直接地产生准确的分类。

l最常见的方法还是使用专家的意见构造特征,离散化和二元化l分类属性二元化如果有m个分类值，则将每个原始值唯一地赋予区间0,m-1中的一个整数。

如果属性是有序的，则赋值必须保持序关系然后，将这m个整数的每一个都变换成一个二进制数。

需要使用个二进位表示这些整数,例：

一个具有5个值awful,poor,ok,good,great的分类变量需要三个二元变量表示。

连续属性离散化l连续属性变为分类属性将连续属性值排序后，通过指定n-1个分割点把他们分成n个区间将一个区间中的所有值映射到相同的分类例：

对x=2.1，2.4，3，3.5，4，3.2离散化为三个分类值2.1，2.4，3，3.2，3.8，4设定区间（-,2.7,（2.7,3.5,（3.5,+）离散化为0，0，1，1，2，2,离散化l等宽将属性的值域划分成具有相同宽度的区间这种方法可能受离群点的影响而性能不佳l等频率将相同数量的对象放进每个区域lK均值聚类,离散化,数据,等宽离散化,等频率离散化,k均值离散化,变量变换,l变量变换是指用于变量的所有值的变换简单函数:

xk,log（x）,ex,|x|,1/x,sinx规范化和标准化l标准化（规范化）例：

比较两个人的不同：

因为年龄之差一般远小于收入之差，因此如果不对数据标准化，将导致收入之差将主导人的不同标准差方法：

均值和标准差受离群点影响大，可用中位点和绝对标准差代替,基因芯片标准化,目录l2.1数据类型l2.2数据质量l2.3数据预处理l2.4相似性和相异性的度量,相似性和相异性的度量,l相似度两个对象相似程度的数值度量.两个对象越相似，它们的相似度就越高l相异度两个对象差异程度的数值度量对象越相似，他们的相异度就越低,各种相似度和相异度测量方法l简单属性之间的相似度和相异度（重点）l数据对象之间的相异度欧氏距离.明可夫斯基距离.马氏距离l数据对象之间的相似度简单匹配系数、雅卡尔系数.（重点）余弦相似度.相关性,简单属性之间的相似度和相异度（重点）,pandqaretheattributevaluesfortwodataobjects.,数据对象之间的相异度-欧氏距离,DistanceMatrix,l欧氏距离（EuclideanDistance）,数据对象之间的相异度-明可夫斯基距离lMinkowskiDistance,lr=1.城市块（曼哈顿,出租车,L1范数）距离.lr=2.欧氏距离（L2范数）lr.上确界（Lmax或L范数）距离.,数据对象之间的相异度-明可夫斯基距离r=1,MinkowskiDistance,DistanceMatrix,城市块距离应用-衡量疾病之间的”距离”,数据对象之间的相异度-马氏距离,MahalanobisDistance,CovarianceMatrix:

B,A,C,A:

（0.5,0.5）B:

（0,1）C:

（1.5,1.5）,Mahal（A,B）=5Mahal（A,C）=4,数据对象之间的相似度,l两个仅包含二元属性的对象之间的相似性度量也称相似系数l两个对象的比较导致四个量,f00,=x取0并且y取0的属性个数,f01=x取0并且y取1的属性个数,f10f11,=x取1并且y取0的属性个数=x取1并且y取1的属性个数,二元属性的对象之间的相似性度量（重点）,l简单匹配系数（SimpleMatchingCoefficient）SMC=值匹配的属性个数/属性个数=（f11+f00）/（f01+f10+f11+f00）lJaccard（雅卡尔）系数J=匹配的个数/不涉及0-0匹配的属性个数=（f11）/（f01+f10+f11）,SMCvsJaccard:

例子,x=1000000000y=0000001001,SMC=（f11+f00）/（f01+f10+f11+f00）=（0+7）/（2+1+0+7）=0.7J=（f11）/（f01+f10+f11）=0/（2+1+0）=0,f00=7f01=2f10=1f11=0,数据对象之间的相似度-余弦相似度,cos（x,y）=（xl例:

x=3205000200y=1000000102,y）/|x|y|,xy=3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2=5|x|=（3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0）0.5=（42）0.5=6.481|y|=（1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2）0.5=（6）0.5=2.245cos（d1,d2）=0.3150,数据对象之间的相似度-相关性,l皮尔逊相关系数,应用-计算microRNA调控基因的强度,miRNA1,mRNA1miRNA和mRNA的表达负相关性，强烈的暗示他们之间的调控关系！

计算miRNA和mRNA的表达相关性（模拟）：

miRNA-c（23.5,10,10,5.1,1.2）mRNA-c（1.2,5.2,12,12.3,24.1）cor（miRNA,mRNA）,习题：

l数据（或属性）的类型有哪几种？

怎样区分这些类型？

每种类型举一个例子。

l标称属性的值只提供足够的信息以对象.序数属性的值提供足够的信息确定对象的.对于比率属性的值，进行和操作都是有意义的.l摄氏温度、年龄、质量、长度、基因表达量、一号染色体的基因起始位置，它们分别属于什么数据类型。

l数据集的类型主要有几类？

每种类型又包含哪些具体的数据集子类型。

l数据矩阵是一种特殊的记录数据类型。

与记录数据类型相比，特殊在哪里？

l目前有100多个代谢通路，如葡萄糖代谢、嘌呤代谢等，那么葡萄糖代谢属于带有对象之间联系的数据还是具有图形对象的数据？

l如下是酵母细胞在多个时间点上的全基因组表达情况。

该数据集属于哪种具体的数据集类型？

这种数据有什么特点。

l噪声和离群点的区别？

l产生遗漏值的原因有哪些?

怎样处理遗漏值？

l数据预处理主要有什么方法？

l聚集的主要目的有:

数据归约、使数据性质更加稳定、。

l（判断对错！

）OMIM数据库中每个疾病已知的疾病基因很少，因此难以利用他们来识别相应的通路。

为此我们可以利用特征选择的方法把疾病亚类汇集起来，如肝移植、肾移植、等疾病，称为器官移植疾病。

然后得到较多的基因，再进行识别通路。

l统计学使用抽样是因为（获得、处理）感兴趣的整个数据集的费用太高、太费时间。

数据挖掘使用抽样是因为（获得、处理）所有的数据的费用太高、太费时间。

l已知人类基因有2万个，我们检测了所有1000疾病基因对在通路中的距离，结果发现它们的平均距离（d）很小。

但我们不确定这种现象是否是疾病基因特有的。

试利用抽样方法来验证这种现象。

l连续属性离散化方法主要有、和。

l叙述等宽和等频离散化方法的原理。

l当数据有一些离群点时，采用均值和标准差进行数据标准化受离群点影响大。

这时可用和代替。

l对象之间相似度和相异度测量方法主要有哪些?

l明可夫斯基距离，当r=1时，该距离称为。

当r=2时，该距离称为。

l有两个数据对象，他们都是一维的数据（即简单属性），那么当他们是标称、序数、或连续属性时，他们之间的相似度和相异度怎样计算。

l如果利用基因表达谱来构建基因相关网络，可以把每个基因当作数据对象，然后计算对象间的表达相关度。

那么计算这种相关度可以使用测度。

阐述你选择这种测度的理由？

并叙述怎样利用这种测度来构建网络。

l疾病的发生、发展与通路密切相关。

目前已知的通路有100个。

研究人员发现皮肤癌与其中的30个通路相关，中风与其中的20个通路相关。

而且这两个疾病共享的通路有10个。

选择一种方法计算这两个疾病的相似性值？

SMC=（f11+f00）/（f01+f10+f11+f00）=（10+60）/（10+20+10+60）=0.7J=（f11）/（f01+f10+f11）=10/（10+20+10）=0.25,数据挖掘:

探索数据,第3章探索数据,什么是数据探索?

对数据进行初步研究，以便更好地理解它的特殊性质.l数据探索的主要目的有助于选择合适的数据预处理和数据分析技术有时可以通过对数据进行直观检查来发现模式l本章涵盖的主题主要是探测性数据分析的相关领域ExploratoryDataAnalysis（EDA）EDA由统计学家JohnTukey创建,鸢尾花（Iris）,l本章用到的数据集鸢尾花.150种鸢尾花的信息，每50种取自三个鸢尾花种之一三种花类型（classes）:

SetosaVirginicaVersicolour四个属性描述萼片长度和宽度（厘米）花瓣长度和宽度（厘米）,汇众统计（SummaryStatistics）,l汇总统计是量化的，用单个数或数的小集合捕获可能很大的值集的各种特性例子：

家庭平均收入大部分汇总统计只需要简单的计算就可得到结果,频率和众数（FrequencyandMode）,l频率定义为,l众数定义：

具有最高频率的值,百分位数（Percentiles）,l对于有序数据，考虑值集的百分位数更有意义.l给定一个有序的或连续的属性x和0与100之间的数p，第p个百分位数xp是一个x值，使得x的p%的观测值小于xp。

位置度量:

均值和中位数（MeanandMedian）,l均值和中位数定义,散布度量:

极差和方差（RangeandVariance）l极差：

最大值和最小值的差l方差：

l均值和方差对离群值很敏感，这样常常需要使用值集散布更稳健的估计.绝对平均偏差、中位数绝对偏差、四分位数极差,可视化,l数据可视化是指以图形或表格的形式显示信息.,成功的可视化需要将数据转化成可视的形式，使得能够借此分析或报告数据的特征和属性之间的关系。

可视化的目标是可视化信息的人工解释和信息的意境模型的形成,例子:

海洋表面温度,l以摄氏度为单位显示1982年7月的海洋表面温度（SST）这张图汇总大约250000格数据,可视化技术:

直方图（Histograms）,l直方图通常显示单个变量值的分布通过将可能的值分散到箱中，并显示落入每个箱中的对象数.高度表示对象数l例子:

花瓣宽度（10和20个箱）,二维直方图,l每个属性划分成区间，而两个区间集定义值的二维长方体l例子:

花瓣宽度和花瓣长度从这个二维直方图，我们能看出什么特点?

可视化技术:

盒状图（BoxPlots）,l盒状图由J.Tukey提出它是另一种显示一维数值属性分布的方法,例子：

盒的下端和上端分别指示第25和第75个百分位数，而盒中的,线指示第50个百分位数的值，底部和顶部的尾线分别指示第10和第90个百分位数，离群值用“+”显示outlier,10thpercentile,75thpercentile50thpercentile25thpercentile,90thpercentile,盒状图的例子,l盒状图相对紧凑，因此可以将许多盒状图放在一个图中。

疾病基因与各种类型基因的共表达情况,可视化技术:

散布图（ScatterPlots）,l散布图二维散布图，使用数据对象两个属性的值作为x和y坐标值，每个数据对象都都作为平面上的一个点绘制一般附加的属性可用如大小、颜色、形状等来表示散布图矩阵可同时考察许多散布图,散布图矩阵例子：

鸢尾花,可视化技术:

矩阵（MatrixPlots）,l矩阵主要用于数据矩阵可视化，将数据矩阵的每个元素与图像中的一个像素相关联这使得容易检查一个类的所有对象是否在某些属性上具有相似的属性值。

如果不

展开阅读全文