《数据挖掘导论》读书报告.docx

资源描述

《数据挖掘导论》读书报告.docx

《《数据挖掘导论》读书报告.docx》由会员分享，可在线阅读，更多相关《《数据挖掘导论》读书报告.docx（12页珍藏版）》请在冰点文库上搜索。

《数据挖掘导论》读书报告.docx

《数据挖掘导论》读书报告

时间：

2020年08月03日编稿：

作者二

第一篇：

《数据挖掘导论》读书报告

数据收集和数据存储技术的快速进步使得各组织机构可以积存海量数据。

然而，提取实用的信息已经成为巨大的挑战。

通常，由于数据量太大，无法使用传统的数据分析丁具和技术处理它们。

有时,即使数据集相对较小，但由于数据本身具有一些非传统特点，也不能使用传统的办法处理。

在另外一些情况下，面临的问题不能使用已有的数据分析技术来解决。

这样，就需要开辟新的办法。

数据挖掘是一种技术，它将传统的数据分析办法与处理大量数据的复杂算法相结合。

数据挖掘为探査和分析新的数据类型以及用新办法分析旧有数据类型提供了令人振奋的机会。

本章，我们概述数据挖掘，并列举本书所涵盖的关键主题。

数据挖掘技术可以用来支持广泛的商务智能应用，如顾客分析、定向营销、工作流治理、商店分布和欺诈检测等。

数据挖掘还能帮助零售商回答一些重要的商务问题，如“谁是最有价值的顾客？

”“什么产品可以交叉销售或提升销售？

”“公司明年的收入前景如何？

"这些问题催生了一种新的数据分析技术。

医学、科学与工程医学、科学与工程技术界的研究者正在快速积存大量数据，这些数据对获得有价值的新发觉至关重要。

例如，为了更深入地理解地球的气候系统，NASA己经部署了一系列的地球轨道卫星，不停地收集地表、海洋和大气的全球观测数据。

然而，由于这些数据的规模和时空特性，传统的办法常常不适合分析这些数据集。

数据挖掘开辟的技术可以帮助地球科学家回答如下问题：

“千旱和飓风等生态系统扰动的频度和强度与全球变暖之间有何联系？

”“海洋表面温度对地表落水量和温度有何影响？

”“如何准确地预测一个地区的生长季节的开始和结束？

”

什么是数据挖掘

数据挖掘是在大型数据存储库中，自动地发觉实用信息的过程。

数据挖掘技术用来探査大型数据库，发觉先前未知的实用模式。

数据挖掘还可以预测将来观测结果，例如，预测一位新的顾客是否会在一家百货公司消费100美元以上。

并非所有的信息发觉任务都被视为数据挖掘。

例如，使用数据库治理系统查寻个别的记录，或通过因特网的搜索引擎査寻特定的Web页面，则是信息检索领域的任务。

虽然这些任务非常重要，可能涉及使用复杂的算法和数据结构，但是它们主要依靠传统的计算机科学技术和数据的明显特征来创建索引结构，从而有效地组织和检索信息。

尽管如此，人们也在利用数据挖掘技术增强信息检索系统

的能力。

数据挖掘与知识发觉

数据挖掘是数据库中知识发觉（knowledgediscoveryindatabase,KDD）不可缺少的一部分，而KDD是将未加工的数据转换为实用信息的整个过程。

该过程包括一系列转换步骤，从数据的预处理到数据挖掘结果的后处理。

输入数据可以以各种形式存储（平展文件、电子数据表或关系表），并且可以驻留在集中的数据存储库中，或分布在多个站点上。

数据预处理（preprocessing）的目的是将未加工的输入数据转换成适合分析的形式。

数据预处理涉及的步骤包括融合来自多个数据源的数据，清洗数据以消除噪声和重复的观测值，挑选与当前数据挖掘任务相关的记录和特征。

由于收集和存储数据的方式多种多样，数据预处理可能是整个知识发觉过程中最费劲、最耗时的步骤。

“结束循环”（dosingtheloop）通常指将数据挖掘结果集成到决策支持系统的过程。

第二篇：

数据挖掘

第4章无监督学习

4.1基本概念

图4.1数据点的三个自然

4.2k-均值聚类

4.2.Ik-均值算法

图4.2k-均值算法

计算机组成原理（第三版）

图4.3k-均值算法的运行实例

4.2.2k-均值算法的硬盘版本

图4.4一个简单的k-均值算法硬盘版本

计算机组成原理（第三版）

34.2.3优势和劣势

图4.5存在和不存在异常值情况下的聚类

图4.6不理想的初始种子（聚类中心）

图4.7理想的初始种子（聚类中心）4

计算机组成原理（第三版）

图4.8自然（不规则）聚类和k-均值聚类

4.3聚类的表示

4.3.1聚类的普通表示办法

图4.9聚类的规则描述

4.3.2任意形状的聚类

图4.10两个自然聚类以及

计算机组成原理（第三版）

54.4层次聚类

图4.11层次聚类的一个例子

图4.12合并层次聚类算法

图4.13合并层次聚类算法的工作

4.4.1单链接办法

图4.14单链接办法的连锁反应

计算机组成原理（第三版）4.4.2全链接办法

图4.15采纳全链接办法聚类

4.4.3平均链接办法4.4.4优势和劣势

4.5距离函数

4.5.1数值的属性（NumericAttributes）4.5.2布尔属性和符号属性（BinaryandNominalAttributes）

图4.16两个只具有布尔属性数据点的混合矩阵

计算机组成原理（第三版）

74.5.3文本文档

4.6数据标准化4.7混合属性的处理4.8采纳哪种聚类算法

4.9聚类的评估

图4.17带有炳和纯度值的混合矩阵

计算机组成原理（第三版）4.10发觉数据区域和数据空洞

图4.18用决策树来区分数据区域和空洞区域

第三篇：

数据挖掘作

第二章

2.1使用STATISTIC分析软件中的关联规则对数据集bnkserv.sta中的各类银行服务举行关联分析。

使用Statistics菜单下的Data-Mining命令，挑选Sequence下的AssociationandLinkAnalysis模块。

通过一系列的变量等的设置，最终得到的频繁项集如表2.11所示：

表2.11

Summaryofsequentialrules（bnkserv）Min：

support=20.0%,confidence=10.0%Max.sizeofanitemset=10Body==>HeadSupport（%）Confidence（%）1（CKING）==>（SVG）54.1734563.150982（CKING）==>（SVG）,

（ATM）24.8529628.971553（CKING）,

（SVG）==>（ATM）24.8529645.876654（CKING）==>（ATM）36.1907142.188185（CKING）==>（CD）20.9861124.463896（SVG）==>（ATM）25.6914041.52508

从表2.11中我们可以看出,这13种银行服务经STATISTIC软件中的关联规则分析总共生成6个频繁项集，其中序列规则If（CKING）Then（SVG）的支持度和置信度是最大的，分别为54.17%、63.15%。

每一频繁项集的支持度和置信度一一对应，下面的图2.1-1和图2.1-2比较直观的将各频繁项集的最小支持度和最小置信度表现出来To

单击"ASCResult”窗口中的“Supportgraphn就可得到如图2.11所示的结果。

SupportbarchartMin：

support=20.0%,confidence=10.0%Max.sizeofanitemset=10图2.11

从该图中我们可以直观、清楚地看出各个规则支持度的大小。

例如，同其他规则相比较，If（CKING）Then（CD）的支持度是最小的。

单击“ASCResult”窗口中的“Confidencegraph”就可得到如图2.12所示的结果。

ConfidencebarchartMin：

support=20.0%,confidenee=10.0%Max.sizeofanitemset=10

图2.12从这个图中我们可以直观、清楚地看出各个规则置信度的大小。

例如，同其他规则相比较，If（CKING）Then（CD）的置信度是最小的。

通过对以上各银行服务组合的支持度和置信度的分析，我们发觉不同的银行服务组合在总的业务组合中所占的比例不同，据此我们可以猜测不同的银行服务组合所面向的客户群不同。

单击“Rulegraph”按钮得到图2.13,该图直观清楚的显示出各银行服务组合间的关联性。

RulegraphNodesize：

RelativesupportofeachitemColordarkness：

Relative

confidenceO.2450.632CDATMBodySVGCKINGCKINGSVGHeadATMCD图2.13我们以圆点的大小和颜色代表支持度和置信度的大小。

从图中我们可以得到与前面相同的结论：

CKING和SVG之间的序列关联是最强的；CKING和CD之间的序列关联最弱。

2.2使用STATISTIC分析软件中的关联规则对数据集gz3g.sta中的各3G业务举行关联分析。

使用Statistics菜单下的Data-Mining命令，挑选Sequence下的AssociationandLinkAnalysis模块。

通过一系列的变量等的设置，最终得到的频繁项集如表2.21所示第四篇：

数据挖掘试题

《数据挖掘》总复习题

1.数据挖掘系统可以依据什么标准举行分类？

答：

依据挖掘的数据库类型分类、依据挖掘的知识类型分类、依据挖掘所用的技术分类、依据应用分类

2.知识发觉过程包括哪些步骤？

答：

数据清理、数据集成、数据挑选、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层？

答：

一个映射序列，将低层概念映射到更普通的较高层概念。

4.多维数据模型上的OLAP操作包括哪些？

答：

上卷、下钻、切片和切块、转轴/旋转、其他OLAP操作

5.OLAP服务器类型有哪几种？

答：

关系OLAP服务器（ROLAP）、多维OLAP服务器（MOLAP）、混合OLAP服务器（HOLAP）、特别的SQL服务器6.数据预处理技术包括哪些？

答：

聚拢、抽样、维规约、特征子集挑选、特征创建、离散化和二元化、变量变换。

7.什么是数据清理？

答：

填写缺失的值，平滑噪声数据，识别、删除离群点，解决不一致性&什么是数据集成？

答：

集成多个数据库、数据立方体或文件9.什么是数据归约？

答：

得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果10.数据清理的内容包括哪些？

答：

缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原

OLAPon-lineanalyticalprocessingDMdatamining

KDDknowledgediscoveryindatabasesOLTPon-line

transactionprocessingDBMSdatabasemanagementsystem

DWTdiscretewavelettransform

（DMQL）——DataMiningQueryLanguage12.什么是数据挖

掘？

答：

简单地说，数据挖掘是从大量数据中提取或挖掘知识。

具体地说，数据挖掘就是从大量的、不完全的、有噪声的、含糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在实用的信息和知识的过程。

13.什么是关联规则？

答:

（关联规则是形如X-Y的蕴涵式，其中且，X和Y分别称为关联规则的先导和后继。

）假设I是项的集合。

给定一个交易数据库，其中每个事务（Transaction）t是I的非空子集，即，每一个交易都与一个唯一的标识符TID（TransactionID）对应。

关联规则在D中的支持度（support）是D中事务同时包含X、Y的百分比，即概率；置信度（confidence）是包含X的事务中同时又包含Y的百分比，即条件概率。

关联规则是有味的，假如满脚最小支持度阈值和最小置信度阈值。

这些阈值是依据挖掘需要人为设定。

（关联规则反映一个事物与其它事物之间的相互依存性和关联性，假如两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到。

）15.什么是概念描述？

什么是特征化？

什么是属性相关分析？

答：

概念描述：

用汇总的、简洁的和精确的方式描述各个类和概念可能是实用的。

特征化：

是目标类数据的普通特性或特征的汇总。

属性相关分析：

可能需要在分类和预测之前举行，它试图识别对于分类或预测过程无用的属性。

这些属性应当排除。

16.什么是数据仓库？

其主要特征是什么？

答：

数据仓库是一个提供决策支持功能的数据库，它与组织机构的操作数据库分别维护。

它同意将各种应用系统集成在一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。

特征：

面向主题、数据集成、随时光而变化、数据不易丢失（数据不易丢失是最明显特征）17.什么是数据集市？

答：

数据集市包含企业范围数据的一个子集，对于特定的用户群是实用的。

其范围限于选定的主题。

（是完整的数据仓库的一个逻辑子集，而数据仓库正是由所有的数据集市有机组合而成的）数据库中的知识发觉过程由哪几个步骤组成？

答：

数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示19.典型的数据挖掘系统有哪几个主要成分？

答：

数据库、数据仓库、万维网或其他信息库；数据库或数据仓库服务器；知识库；数据挖掘引擎；模式评估模块；用户界面

20.从软件工程的观点来看，数据仓库的设计和构造包含哪些步骤？

答：

规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。

21.在数据挖掘系统中，为什么数据清理十分重要？

答：

脏数据的普遍存在，使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。

22•脏数据形成的原因有哪些？

答：

滥用缩写词、数据输入错误、数据中的内嵌操纵信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码23.数据清理时，对空缺值有哪些处理办法？

答：

忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值24.什么是数据变换？

包括哪些内容？

答：

将数据转换或统一成适合于挖掘的形式。

包括：

光滑、聚拢、数据泛化、规范化、属性构造25.数据归约的策略包括哪些？

答：

数据立方体聚拢、性子集挑选、维度归约、数值归约、离散化和概念分层产生26.提高数据挖掘算法效率有哪几种思路？

答：

减少对数据的扫描次数；缩小产生的候选项集；改进对候选项集的支持度计算办法27.假定属性income的最小值与最大值分别为12000和980到区间[0.0,1.0],依据min-max规范化，income的值73600将变为_3631/551_。

28•假定属性income的平均值和标准差分别为54000和16000,使用Z-score规范化，值73600被转换为_1.225_。

29.假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化，-986被规范化为_-0.986—

30.从结构角度来看，有哪三种数据仓库模型。

答：

企业仓库、数据集市、虚拟仓库

31.什么是聚类分析？

它与分类有什么区别？

答：

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程区别：

分类有监督聚类无监督分类要靠学习聚类要靠启示式搜索32.与数据挖掘类似的术语有哪些？

答：

数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。

33.解释下列术语34.翻译下列术语

DataMining数据挖掘Datawarehousing数据仓库DataMart数据集市

drill-down下钻roll-up上卷OLAP联机分析处理Datacube数据立方体Associationrule关联规则Datacleaning数据清理Dataintegration数据集成Datatransformation数据变换Datareduction数据归约

35.可以对按季度汇总的销售数据举行_B_,来观看按月汇总的数据。

A上卷B下钻C切片D切块

36.可以对按城市汇总的销售数据举行—A_,来观看按国家总的数据。

A上卷B下钻C切片D切块

37.通过不太详细的数据得到更详细的数据，称为—B—。

A上卷B下钻C细化D维规约

3&三层数据仓库结构中，从底层到尾层分别是_仓库数据服务器、OLAP服务器、前端客户层—。

42.常用的四种兴趣度的客观度量。

答：

简单性确定性有用性新颖性43.四种常用的概念分层类型。

答：

模式分层、集合分组分层、操作导出的分层、基于规则的分层45.如何理解现实世界的数据是“肮脏的”？

答：

不完整的、含噪声的、不一致的、重复的46.多维数据仓库有哪几种概念模型？

答：

星形模式、雪花形模式或事实星座形模式。

4&在多路数组聚拢算法中，如何尽量少地占用内存？

答：

将最小的平面放在内存中，将最大的平面每次只是提取并计算一块。

49.给出方体的维数，会计算各D方体有多少，总的方体个数有多少？

2\50・什么是离群点？

离群点都需要删除吗？

为什么？

答：

离群点：

一些与数据的普通行为或模型不一致的孤立数据。

不需要。

通常离群点被作为“噪音"或异常被丢弃，但在欺诈检测中却可以通过对罕见事件举行离群点分析而得到结论。

【51.所有模式都是有味的吗？

答：

一个模式是有味的，假如

（1）它易于被人理解；

（2）在某种程度上，对于新的或测试数据是有效的；（3）具有潜在效用；（4）新颖的；（5）符合用户确信的某种假设。

】

第五篇：

数据挖掘实习报告

通过半年的实习，我在这里得到了一次较全面的、系统的锻炼,也学到了许多书本上所学不到的知识和技能。

以下是我这次的实习鉴定。

经历了实习，对社会也有了基本的实践，让我学到了书本以外的知识，实习期间，我努力尽量做到理论与实践相结合，在实习期间能够遵守工作纪律，不迟到、早退，仔细完成领导交办的工作。

在实习鉴定中，我参与了整个数据分析工作，从数据猎取到数据清洗、数据报表的制定到模型的建立以及模型监控等等，让我充分学习了数据分析岗位的实际操作。

在实习初期，项目经理安排了我参与数据猎取的相关工作，主要是编写SQL代码在linux上用Perl语言调用猎取数据。

起初觉得自己对SQL语言了解较多，以为这份工作非常简单。

但实际操作起来才知道，在数据量达到几百兆甚至上GB级别的时候，所学的SQL根本解决不了问题。

经向项目经理学习，这才知道了如何使用分层次操作等速度较快的SQL技巧。

通过这两个月的实习充分认识到所学知识远远不够。

完成数据猎取阶段之后，项目经理开始安排数据清洗以及数据报表制定的相关工作。

接到这份工作之初，对数据清洗并没有太多的认识，以为无数都是按照《数据挖掘》教材中步骤举行就可以的。

但经过项目经理指导之后才知道数据清洗之前首先要对项目业务举行一定的了解，惟独清楚了业务数据的来源、数据的实际意义才知道哪些数据可以称为极端值，哪些数据又是不正常的，制定报告或者交给模型分析师时需要去除的等等。

同时，在制定数据报表的同时学习了无数excel函数的使用，透视表的使用，PPT报告的书写等等。

在实习的后三个月，开始接触了模型的分析与监控。

在学习《机器学习》以及《数据挖掘》书本时，总会想到各种各样的分类模型，也总会认为模型准确率高的模型才会是好模型。

在运用统计模型之前,项目经理首先向实习生介绍了目前挖掘部门常用的分类模型以及具体的一些使用办法。

其中逻辑回归模型、决策树模型是常用的分类模型，回归分析和时光序列模型是常用的预测模型，这与平日所学基本一致。

正当好奇为什么不使用支持向量机以及神经网络模型之时，项目经理说，由于模型结果都是要给市场部门的同事报告的，所以模型结果最好能够简单易懂的。

在实际工作才知道，普通除了用模型准确率来衡量模型的效果外，还有例如灵敏度、ROC曲线、RA曲线等等指标值。

而模型的操作过程也不是想象的那么简单，并不是用R软件上的几个函数，几行代码就能解决的，挑选什么参数、挑选什么样的模型，固然最重要的还是挑选什么样的基础数据作为模型的训练数据才是最重要的，这才发觉项目经理之前提到的业务知识是多么的重要。

在模型建立之后就是模型监控了，由于是我负责的项目，所以项目经理也将监控这一任务交给了我。

数据挖掘模型通常情况下都是要上线的，但模型的效果会随着数据的变化而变化，当模型的指标达到一定程度时就需要修改模型。

在这一阶段，充分锻炼了我的程序编写能力。

在整一个实习过程，非常谢谢项目经理赋予了我数据挖掘整一个流程学习的机会，让我真正对数据挖掘的实际工作有了一定的认识,也让我学习到了无数学校学习中学不到的实际操作能力，在此表示衷心的谢谢。

展开阅读全文