数据挖掘考试复习资料Word格式.docx

上传人:wj 文档编号:7269988 上传时间:2023-05-08 格式:DOCX 页数:10 大小:207.99KB
下载 相关 举报
数据挖掘考试复习资料Word格式.docx_第1页
第1页 / 共10页
数据挖掘考试复习资料Word格式.docx_第2页
第2页 / 共10页
数据挖掘考试复习资料Word格式.docx_第3页
第3页 / 共10页
数据挖掘考试复习资料Word格式.docx_第4页
第4页 / 共10页
数据挖掘考试复习资料Word格式.docx_第5页
第5页 / 共10页
数据挖掘考试复习资料Word格式.docx_第6页
第6页 / 共10页
数据挖掘考试复习资料Word格式.docx_第7页
第7页 / 共10页
数据挖掘考试复习资料Word格式.docx_第8页
第8页 / 共10页
数据挖掘考试复习资料Word格式.docx_第9页
第9页 / 共10页
数据挖掘考试复习资料Word格式.docx_第10页
第10页 / 共10页
亲,该文档总共10页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

数据挖掘考试复习资料Word格式.docx

《数据挖掘考试复习资料Word格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘考试复习资料Word格式.docx(10页珍藏版)》请在冰点文库上搜索。

数据挖掘考试复习资料Word格式.docx

提供两个或多个数据汇集的比较描述

8、信息熵:

在信息论中,熵被用来衡量一个随机变量出现的期望值。

它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题

1、数据仓库和传统数据库的区别和联系是什么?

(1)区别:

数据仓库和数据库是不同的概念

数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。

数据仓库系统和传统数据库系统相比,不同点表现在以下几方面。

(2)联系:

数据库是数据管理技术,是计算机科学的重要分支,其应用已从一般管理扩大到计算机辅助设计、人工智能以及科技计算等领域.数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,是20世纪末到21世纪初数据库市场的一个新的增长点.数据仓库的数据常常来自于多个数据源,存放模式一致,数据一般驻留在单个站点,数据仓库中的数据已经清理、变换、集成于装载,并定期刷新,数据仓库中的数据是海量的,数据仓库所要研究和解决的问题就是从数据库中的获取信息.

数据仓库的出现,并不是要取代数据库。

目前,大部分数据仓库还是用关系数据库管理系统来管理的。

可以说,数据库、数据仓库相辅相成、各有千秋。

2、数据挖掘的主要功能是什么?

数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

(1)自动预测趋势和行为——数据挖掘自动在大型数据库中进行分类和预测、寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势。

(2)关联分析——数据关联是数据库中存在的一类重要的可被发现的知识,若两个或两个以上变量的取值之间存在某种规律性,就称为关联。

(3)聚类——聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。

(4)概念描述——就是对目标类对象的内涵进行描述,并概括这类对象的有关特征。

(5)偏差检测——数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。

3、简述OLAP在多维数据模型中的几个基本操作?

(1)切片:

在多维数组的某一维上选定一维成员的动作成为切片。

(2)切块:

在多维数组的某一维上选定某一区间的维成员的动作。

(3)旋转:

旋转既是改变一个报告或者页面的维方向

(4)钻取。

钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。

4、数据挖掘的步骤包括哪些?

①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用

(1)数据准备:

包括数据的选择、净化、推测、转换数据缩减。

 

数据准备包括:

选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;

数据预处理--进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

(2)数据挖掘:

采用的技术有——决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算了。

数据挖掘根据KDD的日标,选取相应算法的参数,得到可能形成知识的模式模型。

(3)评估、解释模式模型:

上面得到的模式模型,需要评估以确定哪些是有效的模式。

结果分析对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

(4)巩固知识。

(5)运用知识。

将分析所得到的知识集成到业务信息系统的组织结构中去。

5、数据挖掘与传统分析方法的区别是什么?

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征.

先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系.

6、简述事务处理与分析处理的操作特点的不同?

OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

事务处理和分析处理的性能特性不同

l所有联机事务处理强调的是数据更新处理性能和系统的可靠性。

在事务处理环境中,用户的行为特点是数据的存取操作频率高,每次操作处理的时间短。

l在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。

在传统数据库系统基础上的决策支持(DSS)应用程序可能需要连续几个小时,从而消耗大量的系统资源。

l联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。

事务处理:

存取操作频率高而每次操作处理的时间短。

分析处理;

某个DSS应用程序可能需要连续使用几个小时,从而消耗掉大量的系统资源,将具有如此不同处理性能的两种应用放在一个环境中运行,这种行为是不适当的

7、简述数据仓库系统的体系结构?

(1)数据源

是数据仓库系统的基础,是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。

外部信息包括各类法律法规、市场信息和竞争对手的信息等等;

(2)数据的存储与管理。

是整个数据仓库系统的核心。

数据仓库的真正关键是数据的存储和管理。

数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。

要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。

针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。

数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

(3)OLAP(联机分析处理)服务器。

对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。

其具体实现可以分为:

ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。

ROLAP基本数据和聚合数据均存放在RDBMS之中;

MOLAP基本数据和聚合数据均存放于多维数据库中;

HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

(4)前端工具。

主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。

其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

8、OLAP的基本特征和可构造的多维数据模型有哪些?

1)基本特征:

(1)快速性:

用户对OLAP的快速反应能力有很多高的要求。

系统应能在5秒内对用户的大部分分析要求作出反应。

(2)可分析性:

OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。

(3)多维性:

多维性是OLAP的关键属性。

系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。

(4)信息性:

不论数据量有多大,OLAP也不管数据存储在何处,系统应能及时获得信息,并且管理大容量信息。

2)多维数据模型:

这种模型以星形模式、雪花模式、或事实星座模式形式存在

星形模式:

它的核心是一个包含主题的事实表,通过事实表将多个包含事实的非正规化描述的维度表连接起来,各个维度表都连接到中央事实表。

雪花模式:

是对星型模型的扩展,每一个维度都可以向外连接多个对事实进行详细描述的类别表。

事实星座:

复杂的应用可能需要多个事实表共享维表。

这种模式可以看作星形模式集,因此称为星系模式,或事实星座。

9、如何理解数据挖掘功能中的关联分析?

数据关联是数据库中存在的一类重要的可被发现的知识,若两个或两个以上变量的取值之间存在某种规律性,就称为关联。

关联分析的目的是找出数据库中隐藏的关联网,常用的两种技术为关联规则和序列模式。

关联规则是发现一个事物与其他事物的相互关联性或相互依赖性;

序列模式分析将重点放在分析数据之间的前因后果关系。

10、数据挖掘与神经网络的关系是什么?

神经网络是属于人工智能范畴的,但可以用于数据挖掘,比如通过一批样本数据,训练出神经网络模型,然后再去测试新数据。

就是对数据挖掘中分类技术的一个应用。

数据挖掘就是从大量数据中挖掘有用的知识,神经网络就是一种有学习能力的类似人脑活动的技术,其实也是在提炼知识。

三、论述题

1、试分析数据挖掘技术在金融领域的应用情况?

数据挖掘已经被广泛应用于银行和商业中,有以下的典型应用:

1)对目标市场(targetedmarketing)客户的分类与聚类。

例如,可以将具有相同储蓄和货款偿还行为的客户分为一组。

有效的聚类和协同过滤方法有助于识别客户组,以及推动目标市场。

2)客户价值分析。

在客户价值分析之前一般先使用客户分类,在实施分类之后根据“二八原则”,找出重点客户,即对给银行创造了80%价值的20%客户实施最优质的服务。

重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。

通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度;

通过对交易数据的详细分析鉴别哪些是银行希望保持的客户;

通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。

3)客户行为分析。

找到重点客户之后,可对其进行客户行为分析,发现客户的行为偏好,为客户贴身定制特色服务。

客户行为分析又分为整体行为分析和群体行为分析。

整体行为分析用来发现企业现有客户的行为规律。

同时,通过对不同客户群组之间的交叉挖掘分析,可以发现客户群体间的变化规律,并可通过数据仓库的数据清洁与集中过程,将客户对市场的反馈自动输人到数据仓库中。

通过对客户的理解和客户行为规律的发现,企业可以制定相

应的市场策略。

4)为多维数据分析和数据挖掘设计和构造数据仓库。

例如,人们可能希望按月、按地区、按部门、以及按其他因素查看负债和收入的变化情况,同时希望能提供诸如最大、最小、总和、平均和其他等统计信息。

数据仓库、数据立方体、多特征和发现驱动数据立方体,特征和比较分析,以及孤立点分析等,都会在金融数据分析和挖掘中发挥重要作用。

5)货款偿还预测和客户信用政策分析。

有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。

数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素,别除非相关因素。

例如,与货款偿还风险相关的因素包括货款率、资款期限、负债率、偿还与收入(payment-to-income)比率、客户收入水平、受教育程度、居住地区、信用历史,等等。

而其中偿还与收入比率是主导因素,受教育水平和负债率则不是。

银行可以据此调整货款发放政策,以便将货款发放给那些以前曾被拒绝,但根据关键因素分析,其基本信息显示是相对低风险的申请。

6)业务关联分析。

通过关联分析可找出数据库中隐藏的关联网,银行存储了大量的客户交易信息,可对客户的收人水平、消费习惯、购买物种等指标进行挖掘分析,找出客户的潜在需求;

通过挖掘对公客户信息,银行可以作为厂商和消费者之间的中介,与厂商联手,在掌握消费者需求的基础上,发展中间业务,更好地为客户服务。

7)洗黑钱和其他金融犯罪的侦破。

要侦破洗黑钱和其他金融犯罪,重要的一点是要把多个数据库的信息集成起来,然后采用多种数据分析工具找出异常模式,如在某段时间内,通过某一组人发生大量现金流量等,再运用数据可视化工具、分类工具、联接工具、孤立点分析工具、序列模式分析工具等,发现可疑线索,做出进一步的处理。

数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势,这些信息对于决策或规划是有用的,金融行业数据的挖掘有助于根据顾客的流量安排工作人员。

可以挖掘股票交易数据,发现可能帮助你制定投资策略的趋势数据。

挖掘给企业带来的潜在的投资回报几乎是无止境的。

当然,数据挖掘中得到的模式必须要在现实生活中进行验证。

2、试述数据挖掘技术在电子商务相关领域的应用情况?

在电子商务中应用数据挖掘技术,数据挖掘可以直接跟踪数据分析顾客的购买行为并辅助商家快速做出商业决策。

1、在电子商务营销方面的应用

它是以市场营销学的市场细分原理为基础,其基本假定是消费者过去的行为是其今后消费倾向的最好说明。

通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为。

(1)产品生命周期策略分析。

通过对购买时间1上的挖掘也就是通过对商品的访问和销售情况进行分析,从而获得客户的访问规律,确定顾客消费的生命周期,在特定的时间开展促销活动,制定商品的优惠策略。

(2)市场细分。

通过客户聚类分析可以找出顾2客需求的相同之处,使得属于同一类别的客户之间的需求距离尽可能小,而不同类别的客户群体之间的距离尽可能大,通过对聚类的客户特征的提取,把客户群分成更细的市场,提供针对性的服务。

(3)制定合理的产品策略和定价策略。

可以利用关联分析,如分析网上顾客的购买行为,分析客户购买产品的相关度,对某些品牌的喜好和忠诚,价格接受范围,及包装要求方面来帮助管理者规划市场,确定商品的种类,价格,和新产品的投入等等。

(4)制定产品营销策略。

优化促销活动通过对商品访问情况和销售情况进行挖掘,企业能够获取客户的访问规律,确定顾客消费的生命周期,根据市场的变化,针对不同的产品制定相应的营销策略。

2、在电子商务网站系统和安全方面的应用

(1)通过文本挖掘对客户邮件内容进行挖掘。

首先将电子邮件中非结构化的数据转化成结构化的数据,再选取一些最能区分出垃圾邮件的一些特征,对垃圾邮件进行过滤,再基于词典的正向匹配,逐词遍历的方法进行,经过特征提取和模式匹配工作后,就可以进行智能决策,对挖掘进行归纳和评价,并依可视化的形式将挖掘结果以直接明了地呈给决策领导。

(2)对网站系统中搜索引擎的应用。

电子商务网站中一般都有搜索引擎来帮助客户进行查询商品和信息,通过数据挖掘在搜索引擎方面的应用可以提高查全率和查准率。

通过数据挖掘和机器学习技术对索引数据库的信息进行整理,实现文档的自动分类,还可以用文本总结技术对web页面中提取重要的信息,形成文档摘要,使用户可以全面了解文档。

检索结果聚类,把检索结果进行聚类,由客户选择自己感兴趣的一组,将大大减少浏览的页面数量。

(3)改善系统性能,提高网站的安全性。

一是提高反应速度。

在Web服务器上每天记录了大量有关客户访问页面的文件,数据挖掘可以通过客户的拥塞记录发现站点的性能瓶颈,从而提示管理者改善有关的策略,提高网站的稳定性,优化客户的购物环境,保证电子商务购物快速进行。

二是挖掘网页之间的关联性。

用关联规则技术,如果客户在一次访问行为中,访问了页面Page1时,一般也会访问页面page2。

进行Web上的数据挖掘,构建关联模型,我们可以更好地组织站点,建立网站之间的关联性。

(4)提高站点点击率。

通过挖掘客户的行为记4录和反馈情况为站点设计者提供改进的依据,进一步优化网站组织结构以提高网站的点击率。

比如利用关联规则的发现,可以针对不同客户动态调整站点结构,使客户访问的有关联的文件问的链接更直接,让客户容易地访问到想要的页面,就能给客户留下好的印象.增加下次访问的机率。

(5)增强安全。

同时对网站上各种数据的统计分析有助于改进系统性能,增强系统安全性,通过对经常攻击系统数据的ip地址等进行分析来对某些ip地址的用户进行限制。

通过对攻击系统的数据类型进行分析来设置防火墙,提高安全性。

3、在客户关系管理方面的应用

(1)客户细分。

首先将现有的客户进行聚类,利用聚类结果给客户赋予类标记,如高价值客户、普通客户、负价值客户等,建立分类模型,描述出高价值客户的具体特征。

通过对顾客年龄、年收入、住址、婚姻状况、收益、和商家保持交易的时间、对商家的边际贡献等这些因素进行分析。

细分出不同的客户群。

(2))获取新客户。

用数据挖掘技术可以揭示客户的行为习惯,发现一些不同情况下有相似行为的新客户,帮助商家识别这些潜在的客户群,并提高市场活动的响应率。

同时还可以帮助营销人员完成对潜在客户的发现和筛选工作,把潜在客户的名单和这些客户感兴趣的营销、促销措施系统结合起来,为每个客户提供个性化的服务,以不断地获取新客户。

(3)挽留老客户。

通过数据挖掘对流失的客户群进行针对性的研究,分析其特征,再根据分析结果到现有客户资料中找到可能转移的客户,然后根据分析模型和结果设计预防客户流逝的方案,比如对将要流失的客户给予一定的优惠条件等等。

(4)提高客户的购买能力。

通过分析现有客户的购买行为和消费习惯数据,然后用数据挖掘的算法对不同的销售方式的个体行为进行建模;

其次用建立预测模型对客户将来的消费行为进行预测分析,最后用建立的分析模型对新的客户数据进行分析,以决定向客户提供哪一种产品。

在这其中可以通过关联分析,找出相关产品的相关性来决定推销哪一种产品。

(5)防范客户的欺诈行为。

利用数据挖掘技术对一些有欺诈行为的客户群样本进行训练,可采用神经网络算法进行建模型,然后对现有客户进行分析,探查出具有欺诈倾向的客户,也可以采用数据挖掘孤立点分析技术,在对客户群进行分析时候找到那些与其他的客户不同的客户群来进行防范。

因为欺诈的行为很少,为了防止出错,还可以对前面判断出来的欺诈行为进行再次判断,进一步提高判断的准确性。

4、在网络广告方面的应用

由于在网络广告的停留观看的用户可能成为潜在客户,因此商家愿意花费资金来做网络广告,一般商家愿意付很少的钱在曝光率上,但是愿意花大价钱在点击率上,因此提高电子率成为网络广告的重点。

用户在访问网站上大量的信息被遗留,这些信息被保存在一个数据库中,通过对这些数据的挖掘可以为广告提出行之有效的广告方案,实现商家渴望的个性化市场营销。

在这些信息基础之上用数据挖掘的概率知识库和模糊知识库的方法,对实时获取的在线信息进行概率分析,通过对广告访问者潜在的信息特征进行模糊划分,决定哪些是本厂产品的真正顾客。

分析出顾客对某种广告的反应程度,决定下次广告的安排。

通过聚类分析对某些客户群提高定向广告等等。

通过对电子商务过程中的各种数据和信息的挖掘能够为商务活动的具体实施提供决策基础,使得电子商务能够真正的更快更好更高效的发展。

3、试分析数据挖掘技术在医疗卫生领域的应用情况?

1)数据挖掘在疾病诊断中的应用。

正确的诊断对于指导病人的用药及康复显然是重要的,在临床中有些疾病错综复杂,数据挖掘的有关分类分析可以应用于疾病的诊断。

2)数据挖掘在疾病相关分析中的应用。

在病案信息库中有大量的关于病人的病情和病人的个人信息,包括姓名,年龄,性别,居住地,职业等,对数据库中的信息进行关联性分析可以发现有意义的关系及模式。

3)数据挖掘在疾病预测中的应用。

根据病人的病史预测病情的发展趋势,确定某些疾病的发展模式,从而有针对性的预防疾病的发生或估计疾病的预后。

4)数据挖掘在医学图像中的应用。

医学领域中越来越多地应用图像作为疾病诊断的工具,如SPRECT、CT、MRI、PET等数据挖掘可以应用于医学图像的分析。

5)数据挖掘在医院管理中的应用。

随着医疗制度改革的深入开展,数据挖掘可以帮助发现有关提高临床服务效率、质量以及效益潜力的证据。

6)数据挖掘在公共卫生领域中的应用。

数据挖掘还可以用于传染病流行的预报。

利用数据的分类与聚类、趋势预测等技术对时序数据和序列数据进行数据挖掘,开展灾变预测。

7)数据挖掘在其他方面的应用。

数据挖掘在毒理学、药物的新的副作用发现、卫生经济评价等发面都有关阔的前途

4、谈谈你对数据挖掘技术的理解?

随着数据库和计算机网络的广泛应用,以及先进的数据采集工具的积极使用,人们所拥有的数据量在急剧增大,数据迅速增加与数据分析方法滞后之间的矛盾越来越突出。

人们往往希望能够对已有的数据进行科学有效的分析,从而得到自己需要的更有用的深层次的信息,并在此基础上进行商业决策或企业管理等。

但是,目前已有的数据分析工具很难满足人们对数据深层次分析的需要,数据处理的效率也很低。

如何从大量的数据中提取有用的知识,就成了当务之急。

在这种情况下,人们引入了数据挖掘的思想,通过它预测未来的趋势和行为,作出超前的,基于知识的决策。

数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2