数据挖掘教案.docx-资源下载

数据挖掘教案.docx

1、数据挖掘教案上课时间第一周上课节次3节课型理论课题绪论教学目的使学生初步认识数据挖掘与数据仓库教学方法讲授重点、难点数据挖掘与数据仓库的定义及其应用价值时间分配教学内容板书或课件版面设计1.1初识数据挖掘1.1.1数据挖掘的产生数据挖掘产生的前提是需要从多年积累的大量数据中找出隐藏在其中的、有用的信息和规律。计算机技术和信息技术的发展使其有能力处理这样大量的数据。1.1.2数据挖掘的应用价值应用数据挖掘从大量数据中发现规律是面向某一应用的规律，具有具体的指导意义。早期数据挖掘主要应用于商业领域，随着人们对数据挖掘了解的逐步深入，其应用领域逐步扩大到科学研究、市场营销、金融分析和体育比赛等领

2、域。1.1.3数据挖掘的发展过程数据挖掘是20世纪80年代人工智能研究项目失败后，人工智能转入实际应用时提出的，是一个新兴的、面向商业应用的人工智能研究。1.1.4数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。1.2初识数据仓库1.2.1数据仓库的产生20世纪80年代出现了数据仓库的思想，数据仓库是面向主题的、集成的、包含历史的、不可更新的、面向决策支持的、面向全企业的、最明细的数据存储、数据快照式的数据获取。1.2.2数据仓库的应用价值传统数据库的处理方式和决策分析中的数据需求在决策处理的系

3、统吸纳供应问题、决策数据需求的问题以及决策数据操作的问题方面不相称，导致企业无法使用现有的业务处理来满足决策分析的需要，因此决策分析需要一个能够不受传统事务处理的约束、高效率处理决策分析数据的支持环境，这就是数据仓库存在的价值。1.2.3数据仓库的发展过程数据仓库是一种新的数据处理体系结构，是企业内部各部门业务数据和各种外部数据进行统一和综合的中央数据仓库，为企业决策支持系统提供所需的信息，是一种信息管理技术。目前世界上最大数据仓库是NRC公司建立的基于其Tera data数据库拥有24TB数据量的Wal-Mart数据仓库系统。1.2.4数据仓库的定义数据仓库是面向主题的、集成的、不可更新的、

4、随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。1.2.5数据仓库与数据挖掘的关系（1）数据仓库系统的数据可以作为数据挖掘的数据源（2）数据挖掘的数据源不一定必须是数据仓库系统1.3进一步理解的数据挖掘1.3.1数据挖掘的功能数据挖掘的目标是从数据中发现隐含的、有意义的知识，包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析7个方面的功能。（1）概念描述对某类对象的内涵进行描述，并概括这类对象的有关特征。其中，特征性描述用于描述某类对象的共同特征，区别性描述用于描述不同类对象之间的区别。（2）关联分析关联分析的目的在于找出数据中隐藏的关联网。（3）分类与

5、预测所谓分类就是依照分析对象的属性分门别类、加以定义、建立类组，其关键是确定对数据按照什么标准或什么规则进行分类。所谓预测就是利用历史数据就爱能力模型，再运用最新数据作为输入值，获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。（4）聚类分析又称为无指导的学习，其目的在于客观地按照被处理对象的特征分类，将有相同特征的对象归为一类。（5）趋势分析又称为时间序列分析，是从相当长的时间的发展中发现规律和趋势，是时序数据挖掘最基本的内容。（6）孤立点分析又称为孤立点挖掘，是指数据库中包含的一些与数据的一般行为或模型不一致的数据。（7）偏差分析又称为比较分析，是对差异和极端特例的描述，用于揭

6、示事物偏离常规的异常现象。1.3.2数据挖掘常用技术数据挖掘算法是数据挖掘技术的一部分，数据挖掘技术用于执行数据挖掘功能，一个特定的数据挖掘功能只适用于给定的领域。（1）聚类检测方法是最早的数据挖掘技术之一，在聚类检测技术中，不是搜寻预先分类的数据，也没有自变量和因变量之分，因此也称为无指导的知识发现或无监督学习。聚类生成的组叫簇，是数据对象的集合。聚类检测的过程就是使同一个簇内的任意两个对象之间具有较高的相似性，不同簇的两个对象之间具有较高的向异性。用于数据挖掘的聚类检测方法有：划分的方法、层次的方法、基于密度的方法、基于网络的方法和基于模型的方法等。（2）决策树方法主要应用于分类和预测，提

7、供了一种展示类似在什么条件下会得到什么值这类规则的方法。一个决策树表示一系列的问题，每个问题决定了继续下去的问题会是什么。决策树方法适合于处理费数值型数据。（3）人工神经网络方法人工神经网络方法主要用于分类、聚类、特征挖掘、预测等方面。它通过向一个训练数据集学习和应用所学知识，生成分类和预测的模式。对于数据是不定性的和没有任何明显模式的情况，应用人工神经网络比较有效。人工神经网络方法主要有：前馈式网络、反馈式网络和自组织网络。（4）遗传算法该算法模仿人工选择培育良种的思路，从一个初始规则集合开始，迭代地通过交换对象成员产生群体，评估并择优复制，优胜劣汰逐代积累计算，最终得到最有价值的知识集。繁

8、殖：从一个旧种群选择出生命力强的个体产生新种群的过程。交叉：选择两个不同个体的部分进行交换，形成新个体的过程。变异：对某些个体的某些基因进行变异。（5）关联分析方法包含关联发现（能够系统地、有效地得到关联规则，找出关联组合，在关联组合中，如果出现某一项，另一项也会出现）、序列模式发现（找到时间上连续的事件）和类似的时序发现模式（先找到一个事件顺序，再推测出其它类似的事件顺序）。（6）基于记忆的推理算法即使用一个模型的已知实例来预测未知的实例。1.3.3数据挖掘的过程1.4数据挖掘应用实例某些具有特定的应用问题和应用背景的领域是最能体现数据挖掘作用的应用领域。1.5数据挖掘的发展趋势1.5.1数

9、据挖掘研究方向（1）专门用于知识发现的形式化和标准化的数据挖掘语言。（2）数据挖掘过程中的便于用户理解的及人机交互的可视化方法。（3）网络环境下的数据挖掘技术。（4）加强对各种非结构化数据的挖掘。1.5.2数据挖掘应用的热点（1）网站的数据挖掘（2）生物信息或基因的数据挖掘（3）文本的数据挖掘教学后记本章节的重点是数据挖掘与数据仓库的定义，难点是它们的应用价值，学生对它们的应用领域及案例相对较为感兴趣。上课时间第二周上课节次3节课型理论课题数据仓库的定义、结构、说明及其清理教学目的使学生初步了解数据仓库教学方法讲授重点、难点数据仓库的定义及其结构时间分配教学内容板书或课件版面设计2.1数据

10、仓库的定义数据仓库是一个环境，而不是一件产品，提供用户用于决策支持的当前和历史的数据，这些数据时在传统的操作型数据库中很难或不能得到的。数据仓库的4个基本特征：（1）数据仓库的数据是面向主题的。（2）数据仓库的数据是集成的。（3）数据仓库的数据是不可更新的。（4）数据仓库的数据时随时间不断变化的。2.1.1数据仓库的数据是面向主题的面向主题性表示数据仓库中数据组织的基本原则，数据仓库中的所有数据都是围绕着某一主题组织和展开的。（1）主题的概念主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象，在逻辑意义上，它是对应企业中某一宏观分析领域所涉及的分析对象。面

11、向主题的数据组织方式，就是在较高上分析对象的数据的一个完整、一致的描述，能完整、统一地刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。（2）主题的划分原则在划分主题是，必须保证每个主题的独立性和完备性。主题确定后需要确定主题应该包含的数据。在主题的数据组织中应该注意，不同的主题之间可能出现相互重叠的信息，这种主题间的重叠是逻辑的，而不是同一数据内容的物理存储重复。2.1.2数据仓库的数据是集成的在数据进入数据仓库之前，必然要经过转换、统一与综合，这是数据仓库建设中最关键也是最复杂的一步。2.1.3数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用，不是用来进行日常操作

12、的，一般只保存过去的数据，而不随源数据的变化而实时更新，数据仓库中的数据一般不再修改。由于数据仓库的数据是不可更新的，因此也称其具有非易失性。这种不可更新性可以支持不同的用户在不同的时间查询相同的问题时获得相同的结果。2.1.4数据仓库的数据是随时间不断变化的数据仓库的数据随时间的不断变化主要体现在数据仓库随时间变化不断增加新的数据内容。数据仓库的数据初装完成后，再向数据仓库输入数据的过程称为数据追加。数据追加的内容仅限于上次向数据仓库输入后元数据库中变化了的数据。2.2数据仓库的结构数据仓库中的数据可分为多个级别，不同综合级别称之为“粒度”。2.2.1元数据元数据是“关于数据的数据”，可对数

13、据仓库中的各种数据进行详细的描述与说明，说明每个数据的上下文关系，使每个数据具有符合现实的真实含义，使最终用户了解这些数据之间的关系。（1）元数据在数据仓库中的作用为决策支持系统分析员和高层决策人员服务提供便利。解决面向应用的操作型环境和数据仓库的复杂关系。（2）元数据的使用元数据在数据仓库开发期间的使用。元数据在数据源抽取中的作用。元数据在数据清理与综合中的使用。（3）元数据的分类按元数据的类型可分为关于基本数据的元数据、用于数据处理的元数据和关于企业组织结构的元数据。按抽象级别可分为概念级、逻辑级和物理级的元数据。按元数据承担的任务可分为静态元数据和动态元数据。从用户的角度对元数据分类没有

14、一个统一的标准，往往与元数据的使用目的有关，一般可分为技术元数据和业务元数据两类。（4）元数据的内容数据源的元数据数据模型的元数据数据准备区元数据数据库管理系统元数据前台元数据2.2.2粒度的概念粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别，它影响存放在数据仓库中的数据量得大小，同时影响数据仓库所能回答查询问题的细节程度。粒度可分为按时间段综合数据的粒度和按采样率高低划分的样本数据库两种形式。（1）按时间段综合数据的粒度按时间段综合数据的粒度是对数据仓库中的数据的综合程度高低的一个度量，一般是按照不同的时间段来综合数据。它及影响数据仓库中的数据量的多少，也影响数据仓库所能回答询问的

15、种类。为了适应不同查询的需要，数据仓库中经常建立多重粒度。（2）样本数据库样本数据库的粒度级别不是根据综合程度的不同来划分的，而是根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别。样本数据库的抽取可以按照数据的重要程度不同来进行，样本数据库是建立在不同时点上的粒度。2.2.3分割问题分割也是数据仓库中的一个重要概念，它是指将数据分散到各自的物理单元中去，以便能分别独立处理，以提高数据处理效率。数据分割后俄数据单元称为分片。（1）分割的优越性容易重构容易重组自由索引顺序扫描容易恢复容易监控（2）数据分割的标准数据分割的标准石油开发人员选择的（有时间、商业领域、地理位置、组

16、织单位等），在数据仓库中，按时间总是必需的。（3）分割的层次一般分为系统层（由数据库管理系统和操作系统完成分割）和应用层（由应用程序完成分割）两层。2.2.4数据仓库中的数据组织形式（1）简单堆积结构这是数据仓库中最常用、最简单的数据组织形式，它从面向应用的数据库中每天的数据中提取出来，然后按照相应的主题集成为数据仓库中的记录。（2）轮转综合结构该结构将数据存储单位分为日、周、月、年几个级别，结构简捷，数据量比简单堆积结构大大减少，但损失了数据细节。（3）简单直接结构类似于简单堆积文件，但不是每天集成后放入数据仓库，而是间隔一定时间间隔。简单直接结构也可以认为是按一定的时间间隔对数据库的采样。

17、（4）连续结构通过两个或更多的连续的简单直接结构数据组织形式的文件，可以生成连续结构数据组织形式的文件。对于各种文件结构的最终实现，关系数据库中仍然要依靠“表”的结构。2.3数据仓库的说明数据仓库通过标准手册进行说明，标准手册中包含：描述什么是数据仓库描述对数据仓库输送数据的源系统如何使用数据仓库有了问题如何获得帮助谁负责什么数据仓库的迁入计划数据仓库数据如何与面向应用的数据相关联如何为决策分析系统使用数据仓库什么时候不向数据仓库中加数据数据仓库中没有什么类型的数据可利用的元数据的说明数据仓库的记录系统是什么2.4数据仓库的清理数据从数据仓库中“清除”有以下几种形式：（1）数据加入到失去原有细

18、节的一个轮转综合结构数据组织形式的文件中。（2）数据从高性能的介质转移到大容量介质上。（3）数据从数据仓库系统中真正清除。（4）数据从偶给你体系结构的一个层次转移到另一个层次。教学后记本章节的重点是数据仓库的定义，难点是数据仓库的结构，学生掌握情况一般，还需课后多查看相关资料。上课时间第三周上课节次3节课型理论课题数据仓库系统的设计、数据的访问及应用教学目的使学生学会设计数据仓库系统，并访问其数据教学方法讲授重点、难点数据仓库系统的设计与素具仓库数据的访问时间分配教学内容板书或课件版面设计2.5数据仓库系统的设计2.5.1数据仓库系统设计方案数据仓库是一个面向数据分析处理的数据环境，数据仓

19、库的数据是面向主体的、集成的、不可更新的、随时间不断变化的。（1）数据仓库系统设计与数据库系统设计的不同主要表现在面向的处理类型步步、面向的需求不同、系统设计的目标不同、两者的数据来源或系统的输入不同以及设计的方法和步骤不同等几个方面。（2）声明周期发SDLCSDLC有独立的手机需求和分析需求的阶段，一旦进入到构建数据库阶段，系统的需求就基本不变了。（3）螺旋式卡法方法CLDSCLDS方法没有独立的收集需求和分析需求的阶段，而是将对需求的过程贯穿整个设计的过程。（4）数据驱动创建数据仓库的工作实在原有的数据库的数据基础上进行的，这种从已有数据出发的数据仓库设计方法被称为“数据驱动”的系统设计方

20、案。其基本思路是：利用以前所取得的工作成果不再是面向应用利用数据模型数据仓库的系统设计是一个动态的返回和循环的过程。2.5.2数据仓库设计的三级数据模型数据模型是对现实世界进行抽象的工具，抽象的程度不同，性阿城的抽象级别层次就不同。数据仓库的数据模型中不包含纯操作型的数据。数据仓库的数据模型扩充了码结构，增加了时间属性作为码的一部分。数据仓库的数据模型中增加了一些导出数据。在数据仓库设计中存在着概念级数据模型、逻辑数据模型和物理数据模型三级。（1）概念数据模型是主观与客观之间的桥梁，最常用的表示方法是实体联系（E-R）法。（2）逻辑数据模型数据仓库中采用的路基数据模型就是关系模型，无论主题还是

21、主题之间的联系都用关系来表示。数据仓库的逻辑数据模型描述了数据仓库的主题的逻辑实现，即每个主题所对应的关系表的关系模式的定义。（3）物理数据模型数据仓库的物理数据模型就是逻辑数据模型在数据仓库中的实现。（4）高层数据模型、中间层数据模型和低层数据模型高层数据模型对数据抽象程度最大，使用的主要表达工具是E-R图。高层数据模型建好后，对高层数据模型中标识的每个主要的主题域或实体，都要建一个中间层数据模型，中间层数据模型有联接数据组（主要用于标识本主题域与其它主题域之间的联系）、基本数据组（基本不会发生变化的数据项）、二次数据组（基本不变化，但又有变化的可能的数据项）和类型数据组（经常变化的数据项）

22、四种基本构造。底层数据模型就是物理数据模型。2.5.3提高数据仓库的性能建立数据仓库过程中一个重要的问题就是如何提高系统的性能，提高系统性能主要就是提高系统的物理I/O性能。（1）粒度划分一般要将数据划分为：详细数据、轻度综合、高度综合三级或更多级粒度，不同粒度级别的数据用于不同类型的分析处理。划分粒度步骤：估算数据仓库中数据的行数和所需占用的空间大小。根据估算出的数据行数和所需占用的空间大小，决定是否要划分粒度及如何划分粒度。（2）分割数据仓库中的库中的数据分割与数据库中的数据分片概念相近。按时间进行数据分割是最普遍的。分割的标准一般要考虑数据量、数据分析处理的实际情况、简单易行以及粒度划分

23、侧率等几方面因素。（3）其它设计问题合并表建立时间序列将数据严格按处理顺序存放到一个或几个连续的物理块中，即所谓的建立数据序列。建立时间序列可以在同一次调页中处理更多的记录，将物理I/O的次数降到最低。引入冗余引入冗余的目的是减少连接操作，从而减少访问的代价，但引入冗余后需要注意维护数据各个副本间的一致性。表的物理分割生成导出数据建立广义索引2.5.4数据仓库设计步骤数据仓库系统开发时一个经过不断循环、反馈而使系统不断增长与完善的过程，其设计大体上可分为以下几个步骤：（1）概念模型设计（2）技术准备工作（3）逻辑模型设计（4）物理模型设计（5）数据仓库生成（6）数据仓库运行与维护2.6数据仓库

24、数据的访问在一些特殊情况下，有可能会出现数据从仓库流向操作性环境的这种数据“回流”现象，当出现“回流”情况时，对数据仓库数据的访问有数据仓库数据的直接访问和间接访问两种方式。2.6.1数据仓库数据的直接访问所谓直接访问即操作环境下的一个传统应用向属于数据仓库的数据提出访问请求，在数据仓库环境中查询到所需的数据，再传输到操作型环境中。2.6.2数据仓库数据的接按揭访问所谓间接访问即利用程序对数据仓库的数据进行定期的分析，将分析的结果产生新的文件，用来满足操作型应用的需要。数据仓库数据的访问大多采用间接访问方式。2.7数据仓库的应用主要应用领域：（1）全局应用主要用于企业在发展过程中形成的多种独立

25、应用的系统，或者用于一些大公司地理位置上分布的多个子公司或部门。（2）复杂应用需要将数据分为操作环境数据和分析环境数据量大部分。教学后记本章节重点是数据仓库系统的设计和数据仓库数据的访问，难点是数据仓库的应用。学生并未真正建立和使用过数据仓库，对其设计和使用都还只是停留在理论阶段。上课时间第四周上课节次3节课型理论课题数据预处理的目的以及数据的清理、集成和变换教学目的使学生掌握数据的基本处理方法教学方法讲授重点、难点数据的清理、集成和变换时间分配教学内容板书或课件版面设计3.1数据预处理的目的3.1.1原始数据中存在的问题原始数据主要存在以下几个方面问题：不一致重复不完整含噪声噪声是指一个

26、测量变量中的随机错误或偏离期望的孤立点值。维度高一个完整的数据挖掘系统应该提供数据预处理模块，此模块的功能是形成供数据挖掘算法使用的目标数据知识基。3.1.2 数据预处理的方法和功能数据预处理包含数据清洗、数据集成、数据变换和数据归约击中方法。（1）数据清洗过程即填充空缺值，识别孤立点，去掉原始数据中的噪声和无关数据。（2）数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储中。数据集成涉及多个数据源的数据匹配、数值冲突和数据冗余的问题。（3）数据变换是把原始数据转换成为适合数据挖掘的形式，包括对数据的汇总和聚集、概化、规范化，还可能需要进行属性的构造。（4）数据归约技术用于产生数据

27、的规约表示，是的数据的范围减小，但更适合于数据挖掘算法的需要，并能够得到和原始数据相同的分析结果。3.2数据清理从数据中选取合适的属性作为数据挖掘属性的过程有以下几个参考原则尽可能赋予属性名和属性值明确的含义。统一多数据源的属性值编码。去除唯一属性。去除重复属性。去除可忽略字段。合理选择关联字段3.2.1处理空缺值处理空缺值有以下几种方法：忽略该记录去掉属性手工填写空缺值使用默认值使用属性平均值使用同类样本平均值预测最可能的值3.2.2噪声数据的处理在测量一个变量时可能产生一些误差或者错误，是的测量值相对于真实值有一定的偏差，这种偏差成为噪声。去除噪声的方法有：（1）分箱分箱方法是一种简单常用

28、的预处理方法，通过考察相邻数据来确定最终值。所谓“箱子”，实际上就是按照属性值划分的子区间。在采用分箱技术时，需要确定的两个主要问题就是：如何分箱以及如何对每个箱子中的数据进行平滑处理。注意：分箱之前血药对记录按照目标属性值的大小进行排序。分箱方法有统一权重（等深分箱法）、统一区间（等宽分箱法）、最小熵和用户自定义区间等。分箱的目的是对各个箱子中的数据进行处理，所以完成分箱之后，要考虑的就是选择一种方法对数据进行平滑，使得数据尽可能接近。常使用的数据平滑方法有按平均值怕你规划、按边界值平滑和按中值平滑三种。（2）聚类聚类是将物理的或抽象对象的集合分组为由类似的对象组成的多个类的过程。聚类的结果

29、是生成一组由数据对象组成的集合，称为簇。同一簇中的所有对象具有相似性，并且一个对象与同簇中任何一个对象之间的相似性一定强于它于其它簇中任何一个对象之间的相似性。同一簇中的对象用相同的特征来标识，落在簇之外的值称为孤立点，这些孤立点被视为噪声。聚类的质心即聚类中的平均点。（3）回归回归试图发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数据，即通过建立数学模型来预测下一个数值，包括线性回归和非线性回归。线性回归也称为简单回归，是最简单的回归形式，用直线建模，将一个变量看作另一个变量的线性函数。多元回归是线性回归的扩展，也成为复回归，有两个火两个以上自变量。3.3数据集成和变换数据挖

30、掘所使用的数据通常来自于多个数据存储，所以经常需要把多个数据存储合并起来，这个过程称为数据集成。而为了是数据符合算法和数据挖掘目标的需要，还学需要对数据进行变换。3.3.1数据集成数据集成是将多文件或者多数据库中的异构数据进行合并，然后存放在一个一致的数据存储中，解决语义模型问题，主要工作涉及到数据的冲突问题和不一致数据的处理问题。在数据集成过程中，通常需要考虑模式匹配、数据冗余和数据值冲突问题。3.3.2数据变换（1）平滑平滑即去除噪声，还可以将连续的数据离散化，增加粒度。数据平滑的方法包括分箱、聚类、回归等。（2）聚集聚集即对数据进行汇总。聚集常用来构造数据立方体。（3）数据概化从原始数据集得到的数据包含一些低层概念的描述，而在数据挖掘中有时并不需要细化到这些概念，可以用它的高层概念替换，所以需要对数据进行概化。（4）规

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？