数据挖掘技术的研究现状及发展方向陈娜.docx
《数据挖掘技术的研究现状及发展方向陈娜.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术的研究现状及发展方向陈娜.docx(22页珍藏版)》请在冰点文库上搜索。
数据挖掘技术的研究现状及发展方向陈娜
数据挖掘技术的研究现状及发展方向
陈娜1.2
(1.北京交通大学计算机学院,北京100044;2.石家庄铁路运输学校,河北石家庄050021)
第
!
"
电脑与信息技术卷
(
!
)可视化技术
[
"
]
通过直观的图形方式将
信息数据、关联关系以及发展趋势呈现给决策者,
使用最多的方法是直方图、数据立方体、散点图。
其中数据立方体可以通过
#$%&
操作将更多用户
关心的信息反映给用户。
(
’
)遗传算法
[
(
]
是一种模拟生物进化过程
的算法,最早由
)*++,-.
于
/0
世纪
(0
年代提出。
它是基于群体的、具有随机和定向搜索特征的迭
代过程,包括
!
种典型的算子:
遗传、交叉、变异和
自然选择。
遗传算法作用于一个由问题的多个潜
在解(个体)组成的群体上,并且群体中的每个个
体都由一个编码表示,同时个体均需依据问题的
目标函数而被赋予一个适应值。
另外,为了应用遗
传算法,还需要把数据挖掘任务表达为一种搜索
的问题,以便发挥遗传算法的优势搜索能力。
同时
可以用遗传算法中的交叉、变异完成数据挖掘中
用于异常数据的处理。
(
")统计学方法
[
1
]
在数据库字段项之间存
在着两种关系:
函数关系(能用函数公式表示的确
定性关系)和相关关系(不能用函数公式表示,但
仍是相关确定关系)。
对它们的分析采用如下方
法:
回归分析、相关分析、主成分分析。
主要用于数
据挖据的聚类方法中。
(
()模糊集(23445678)方法利用模糊集理
论对实际问题进行模糊评判、模糊决策、模糊模式
识别和模糊聚类分析。
模糊性是客观存在的。
系统
的复杂性越高,精确化能力就越低,即模糊性就越
强,这是
9,.7:
总结出的互克性原理。
/数据挖掘的算法
(
;)关联规则中的算法
%<=>*=>算法是一种最具有影响力的挖掘布
尔关联规则频繁项集的算法,该算法是一种称为
主层搜索的迭代方法,它分为两个步骤:
?
通过多趟扫描数据库求解出频繁;@项集的
集合
$
;
;
A?
不断的寻找到/@项集$
/
…
-@项集$
-
,最后
利用频繁项集生成规则。
随后的许多算法都沿用
%<=>*=>中“频繁项集
的子集必为频繁项集”的思想,在频繁项集
$
B@;
上
进行
C*>-运算构成潜在B项集D
B
。
由于数据库和
D
B
的规模较大,需要相当大的计算量才能生成频
繁项集。
一旦由数据库
E
中的事物找出频繁项集,由
它们产生强关联规则是直截了当的(强关联规则
满足最小支持度和最小置信度)。
对于置信度,可
以用下式,其中条件概率用项集支持度计数表示。
F*-G>.7-F7
(
%HIJ
)
H&
(
%KJ
)
H
63<<*=8LF*3-(8%!
J)
63<<*=8LF*3-(8%)
其中,
63<<*=8LF*3-(8%!
J)是包含项集%!
J
的事务数,
63<<*=8LF*3-8
(
%
)是包含项集
%
的事务
数,关联规则可以表示如下:
·对于每个频繁项集
+,产生+的所有非空子
集。
·对于
+的每个非空子集6,如果
63<<*=8LF*3-8
(
%!
J
)
63<<*=8LF*3-(8%)
"M>-LF*-G,则输出“6HI(+@
6)”,其中M>-LF*-G是最小置信度阈值。
由于规则由频繁项集产生,每个规则都自动
满足最小支持度。
频繁项集连同它们的支持度预
先存放在列表中,使得他们可以快速地被访问。
(
/)分类规则中的算法
决策树是一种常用于分类、预测模型的算法,
它通过将大量数据有目的的分类,从而找到一些
有价值的、潜在的信息。
它的主要优点是描述简
单,分类速度快,特别适合大规模的数据处理。
最
有影响和最早的决策树方法是由
N3>-+,-提出的
著名的基于信息熵的
OEP算法。
它的主要问题是:
OEP是非递增学习算法;OEP决策树是单变量决策
树,复杂概念的表达困难;同性间的相互关系强调
不够;抗噪性差。
针对上述问题,出现了许多较好
的改进算法,如
QF:
+>MM7=和2>6:
7=设计了OE!
递增式学习算法;钟鸣,陈文伟等提出了
OJ$R算
法等。
图
/是顾客是否购买计算机的判定树。
沿着由根节点到树叶节点的路径,图
/的判
定树可以转化为
O2LS)RT分类规则。
其规则如
图
/
概念
A356LF*M<387=
的判定树
D=7.>8L=,8>-U?
T*V76
RWF7++7-82,>+
Q83.7-8
T*V76
T*V76
%U7
XHP0I!
0
P;?
?
?
!
0
V76
·
"#
·!
期
(
!
""
:
!
#$%&’()’"*+,$-’./*#"01020+’
),可自
动或方便的进行模式提取。
这些模式是指从大型
数据库或数据仓库中提取人们感兴趣的知识,当
然这些知识是隐含的、事先未知的、潜在有用的信
息,提取的知识一般可表示为概念、规则、规律、模
式等形式。
数据挖掘是一个多学科领域,从多个学
科汲取营养,涉及到数据库技术、人工智能、机器
学习、神经网络、模式识别、归纳推理、统计学、数
据库、数据可视化、信息检索、高性能计算等多个
领域。
从
3454
年
5
月在美国底特律召开的第
33
届国际人工智能会议上首先出现
!
""
这个术语,
到
3446
年在加拿大蒙特利尔召开的首届
!
""7
"0108*#*#)国际学术会议,再到以后每年都要召
开一次的
!
""7"0108*#*#)国际学术会议,经
过十多年的努力,数据挖掘技术的研究已经取得
了丰硕的成果,不少软件公司已研制出数据挖掘
软件产品,并在北美、欧洲等国家得到应用。
例
如,
9:
8公司;).0%0&等人最早取得了关联规则
挖掘有关的两项专利
[
3
]
。
将数据挖掘技术中的关
联规则应用在实际工程中,获得了很好的效果。
同
时互联网挖掘技术也应用在网络搜索和电子商务
中,并显现出卓越的效果。
在我国,数据挖掘技术
的研究也引起了学术界的高度重视,已成为信息
科学界的热点课题。
数据挖掘研究具有广泛的应
用前景,因为数据挖掘产生的知识可以用于决策
支持、信息管理、科学研究等许多领域。
3数据挖掘的分类
数据挖掘技术的分类标准有根据发现知识
的种类分类、根据挖掘的数据库种类分类、根据
采用的技术分类等几种分类方法
[
<]
。
根据发现知识的种类分类:
·根据数据挖掘的功能可分为特征规则挖
掘、区分规则挖掘、关联规则挖掘、分类聚类挖掘、
孤立点分析、趋势分析、演变分析、偏差分析、模式
分析、类似性分析等。
·按照所挖掘的知识的粒度或抽象层进行区
分,包括概化知识、原始知识或多层知识的数据挖
掘。
根据挖掘的数据库分类:
·按数据库类型可分为关系型、事务型、面向
对象型、对象关系型、主动型、异构型。
·根据所处理的数据的特殊类型可分为时间
型、空间型、文本型、多媒体、数据库和遗留系统
等。
根据数据挖掘采用的技术分类主要有如下几
种:
(
3
)决策树方法
[
<=>
]
用树形结构表示决策集
合,利用信息论中的互信息(信息增益)寻找数据
库中具有最大信息量的字段建立决策树的一个结
点,再根据字段的不同取值建立树的分支;在每个
分支子集中重复建立树的下层结点和分支,即可
建立决策树。
国际上最有影响和最早的决策树算
法是
?
@*@&0#研制的9">方法,数据库越大它的
效果越好。
此后又发展了各种决策树方法,如
9">
的改进算法
ABC6和A6,这两种算法从数据丢失
和数据连续性等方面对
9">算法进行了改进。
(
<)人工神经网络方法
[
B]
它从结构上模仿
生物神经网络,是一种通过训练来学习的非线性
预测模型,可以完成分类、聚类、特征挖掘等多种
数据挖掘任务。
这种方法是以
8D模型和E’22
学习规则为基础,用神经网络连接的权值表示知
识,其学习方法表现在神经网络的权值修改上。
神
经网络方法主要应用于数据挖据的聚类技术中。
(
>)粗集(F$@)GH’1)方法
[
6]
在数据库中,
将行元素看成对象,列元素看成属性(分为条件属
性和决策属性),等价关系
F定义为不同对象在
某个(或几个)属性上取值相同,这些满足等价关
系的对象组成的集合称为该等价关系
F的等价
类。
条件属性上的等价类
I与决策属性上的等价
类
J之间有>种情况:
下近似,J包含I;上近似,
J和I的交非空;无关,J和I的交为空。
对下近
似建立确定性规则,对上近似建立不确定性规则
(含可信度),对无关情况不存在规则。
图
3
典型的数据挖掘系统结构
知
识
库
图形用户界面
模式评估
数据挖掘引擎
数据库或数据仓库服务器
数据库数据库
陈娜:
数据挖掘技术的研究现状及发展方向·
BK
·摘要:
数据挖掘技术是当前数据库和人工智能领域研究的热点。
文章对国内外数据挖掘技
术的总体情况进行了概括性的介绍,其中包括数据挖掘技术的产生背景、应用领域等,并对当
前数据挖掘的分类以及数据挖掘技术中常用的一些挖掘算法进行了说明,最后列出了一些数
据挖掘在实际领域中的应用,并对数据挖掘技术的前景作出了展望。
关键词:
数据挖掘;聚类;关联规则;分类规则
中图分类号:
’(!
)
;
’(*!
!
#!
*
文献标识码:
+
!
"#$%#’(&)(*+(),’+’-.*(*%#-)%#/(),’,.("#
-+(+0)’)’1(#/"’,2,13%#+%/"
-.//0
!
,"
(
!
#12344546,4789:
;<0=>?
=64<70:
@4=’;23=454AB,C;@D@=AE@04:
4=AF=@G;B,
C;@D@=A!
$$$%%,,3@=0;"#13@D@0I390=AJ0@5K0B123445,13@D@0I390=A,-;L;@$&$$"!
,,3@=0)
45&(%+/(6’3;>0:
07@=@=A:
;23=454AB@H:
3;34:
H84:
:
48@24629<<;=:
>0:
0L0H;0=>:
3;
0<:
@6@2@05@=:
;55@A;=2;>470@=<;H;0<23#’3@H0<:
@25;20<<@;>4=:
3;H9770
<4>92:
@4=
0224<>@=A:
4:
3;;M20G0:
@4=:
;23=454AB>47;H:
@20=>64<;@A=4G;<055<;H;0<23H@:
90:
@4=N
@=259>@=A:
3;8<4>92;>L02OA<49=>46:
3;>0:
07@=@=A:
;23=454ABN:
3;0885@20:
@4=>470@=N
:
3;250HH@6@20:
@4=0=>:
3;70@=7@=@=A:
;23=454ABP+6:
;H@=:
<4>92;>@=:
3;29<<;=:
>0:
0
7@=@=A>470@=250HH@6@20:
@4=N0HK;550H@=>0:
07@=@=A:
;23=454AB24774=5B9H;>H47;
7@=@=A05A4<@:
37H#Q@=055BN8<484H;>H47;>0:
07@=@=A@=:
3;02:
905>470@=0885@20:
@4=N0=>
:
3;54A0<@:
37>@>:
3;64<;20H:
0224<>@=A:
4:
3;;M20G0:
@4=:
;23=454AB8<4H8;2:
#
7#38,%-&6>0:
07@=@=A;259H:
;<;0HH42@0:
@4=<95;;250HH@6@20:
@4=<95;
收稿日期:
"$$&R!
!
R$S
作者简介:
陈娜(
!
TS)R),女,河北石家庄人,在读研究生,研究方向:
数据挖掘,信息监理。
$引言
随着信息技术的高速发展,数据库应用的规
模、范围和深度已经从点(单台机器)发展到面(网
络),甚至到
?
=:
;<=;:
全球信息系统,使得无论是
商业、企业、科研机构或是政府部门,在过去若干
年的时间里都积累了海量的、不同形式存储的数
据资料。
这些资料十分繁杂,仅仅依靠数据库的查
询检索机制和统计学方法已经远远不能满足现实
的需要,因此它迫切要求自动地和智能地将待处
理的数据转化为有用的信息和知识,从而达到为
决策服务的目的。
在这种情况下,一个新的技
术———数据挖掘技术应运而生。
数据挖掘正是为
了迎合这种需要而产生并迅速发展起来的、用于
开发信息资源的、一种新的数据处理技术。
数据挖掘通常又称数据库中的知识发现第
!
期
下:
!
"#$%&
“
’&()
”
*+,-./0%1.&
“
12
”
345+
6/7-892:
;/.%<&
“
12
”
!
"#$%&
“
’&()
”
*+,-./0%1.&
“
7%-
”
345+
6/7-892:
;/.%<&
“
7%-
”
!
"#$%&
”
(=
…
>)345+6/7-892:
;/.%<&
“
7%-
”
!
"#$%&
“
?
>)
”
*+,9<%0@.8<#.@1$&
“
%A9%BB%1.
”
345+6/7-892:
;/.%<&
“
12
”
!
"#$%&
“
?
>)
”
*+,9<%0@.8<#.@1$&
“
C#@B
”
345+
6/7-892:
;/.%<&
“
7%-
”
D>EF(!
(算法的后继版本)使训练样本估计
每个规则的准确率。
由于这将导致对规则的准确
率的乐观估计,因此
D>EF
使用一种悲观估计来补
偿偏差。
作为选择,也可以使用一组独立于训练样
本的测试样本来评估准确性。
(数据挖掘的应用和发展趋势
数据挖掘技术旨在发现大量数据中所隐藏的
知识,以用来解决“数据丰富、知识贫乏”的问题。
近年来随着数据库和网络技术的广泛应用,加上
使用先进的自动数据生成和采集工具,人们所拥
有的数据量急剧增加,为数据挖掘技术的应用创
造了必要的条件。
目前国际上数据挖掘技术在科
学研究、金融投资、市场营销、保险、医疗卫生、产
品制造业、通信网络管理等行业已得到应用。
国内
在数据挖掘方面也有成功的应用,如宝钢已应用
数据挖掘系统辅助生产决策,每年能节省近千万
元的资金。
现在我国的研究人员正在加紧研制有
关领域的数据挖掘工具,且数据挖掘技术的应用
领域正在不断扩大。
(
=)针对生物医学和,+*数据分析的数据挖
掘在信息量极为庞大的生物技术领域中,由于
所获得的大量实验和观测数据仅靠传统的数据分
析工具已难以对付,因此对功能强大的智能化自
动分析工具的要求日益迫切,这种需求推动了
G,,技术在科学研究领域的应用发展,并已获
得一些重要的应用成果。
(
H)针对金融分析的数据挖掘由于金融投
资的风险很大,因此在进行投资决策时,需要对各
种投资方向的有关数据进行分析,以选择最佳的
投资方向。
数据挖掘可以通过对已有数据进行处
理,并利用学习得到的模式进行市场预测,例如,
国内开发的指南针、神光、
IJI等智能股票分析
系统可对股票行情进行分析预测。
目前作者正在
利用数据挖掘技术研制一个智能股票分析系统。
(
()零售业中的数据挖掘主要用于商品的
市场定位和消费者分析,以辅助制定市场策略;还
可以用来分析购物模式,预测销售行情。
例如,
!
KJ公司开发的LM5N3和!
1.%BB@$%1.J@1%<系统
就可以挖掘顾客的购物行为模式。
(
>)保险业中的数据挖掘保险是一种有风
险的业务,保险公司的一项重要工作就是进行风
险评估。
通过研究证明,可以利用数据挖掘技术进
行风险分析,在保险公司建立的保单及索赔信息
数据库的基础上,寻找保单中风险较大的领域,从
而得出一些实用的控制风险的规则,以指导保险
公司的工作,例如,利用
NO!
公司的J@1%N%.系统
提供的分类器就可以预测投保人在将来的索赔概
率。
>小结
大量数据的产生和收集导致了信息爆炸,现
代社会的竞争趋势要求对这些数据进行实时的和
深层次的分析。
虽然现在有了更强大的存储和检
索系统,但是使用者发现在分析和使用所拥有的
信息方面将变得越来越困难。
数据仓库提供了容
纳大量信息的场所,但只有和数据采掘技术的应
用结合起来才能最终解决用户的困惑,使用户能
够从大量繁杂的数据中找出真正有价值的信息和
知识。
随着数据采掘和数据仓库集成的进一步深
化,必然会给用户带来更大的利益。
参考文献:
[
=]刘晓东,刘大有E数据挖掘专利综述[P]E电子学报,H))(,=HQ
=RSRT=RR(E
[
H],/1U#:
J4E,#.#:
@1@1$@1.<20/9.2<7#10#0V#19%0.2;T
@9[-J]E北京:
清华大学出版社,H))(E
[
(]陆汝钤E人工智能[J]E北京Q科学出版社,=RRWQSH(TS>>E
[
>]X/421$Y/1,N%.@212I/07,X@/4/#1E5CC%9.@V%0#.#:
@1@1$
/-@1$1%/<#B1%.Z2<[[-P]E!
5553<#1-#9.@21-21G12ZB%0$%
#10,#.#51$@1%%<@1$,=RRW,S(W)QRF\TRW=E
[
F]何新贵E数据挖掘中的模糊技术[P]E计算机科学,=RRS,HF
(专刊)
Q=HRT=(=E
[
W]O%U<[%P,DU#/0U/<@N,K2-Z2<.U*,X#7:
#1:
*,%.#BE
#.#9/6%Q*<%B#.@21#B#$$<%$#.@212;%<#.2<$%1%<#B@]@1$
$<2/;T67,9<2--T.#6#10-/6T.2.#B[-P]E,#.#J@1@1$#10
G12ZB%0$%,@-92V%<7,=RR\,=QHRTF>E
[
\]DU%1O/2TX@#1$,^#1$_/T"#%.#BEO%1%.@9*B$2<@.U:
#10
!
.-*;;B@9#.@21-EK%@Y@1$Q‘%2;B%’-‘2-.-#103%B%92:
:
/1@T
9#.@21-‘/6B@-U@1$42/-%,=RRW(@1DU@1%-%)E
陈娜:
数据挖掘技术的研究现状及发展方向·
>R
·