基于RBF和Elman混合神经网络的数据挖掘技术研究毕业论文.docx

资源描述

基于RBF和Elman混合神经网络的数据挖掘技术研究毕业论文.docx

《基于RBF和Elman混合神经网络的数据挖掘技术研究毕业论文.docx》由会员分享，可在线阅读，更多相关《基于RBF和Elman混合神经网络的数据挖掘技术研究毕业论文.docx（62页珍藏版）》请在冰点文库上搜索。

基于RBF和Elman混合神经网络的数据挖掘技术研究毕业论文.docx

基于RBF和Elman混合神经网络的数据挖掘技术研究毕业论文

学士学位论文

题目基于RBF和Elman混合神经网络的数据挖掘技术研究

毕业设计（论文）原创性声明和使用授权说明

原创性声明

本人郑重承诺：

所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。

尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。

对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。

作者签名：

　　　　　日　期：

指导教师签名：

　　　　　日　　期：

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：

按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。

作者签名：

　　　　　日　期：

第1章数据挖掘的概念……………………………………………………………………….1

1.1数据挖掘发展概述…………………………………………………………………………1

1.1.1数据丰富与知识匮乏……………………………………………………………………1

1.1.2从数据到知识……………………………………………………………………………2

1.1.3数据挖掘的产生…………………………………………………………………………3

1.2数据挖掘的基本知识………………………………………………………………………4

1.2.1数据挖掘的定义…………………………………………………………………………4

1.2.2数据挖掘方法论…………………………………………………………………………5

1.2.3数据挖掘与数据仓库的关系……………………………………………………………5

1.2.4数据挖掘的任务…………………………………………………………………………5

1.2.5数据挖掘的对象………………………………………….……………………….……..6

1.2.6数据挖掘的流程…………………………………………………………………………6

1.3数据挖掘的方法和技术……………………………………………………………………6

1.3.1归纳学习法…………………………………………………………………….………....6

1.3.1.1信息论方法（决策树方法）………………………………………………….………6

1.3.1.2集合论方法…………………………………………………………………….……...6

1.3.2仿生物技术………………………………………………………………………………6

1.3.3公式发现………………………………………………………..………………………..7

1.3.4统计分析方法…………………………………………………………...……………….7

1.3.5模糊数学方法………………………………………………………………..….……….7

1.3.6可视化技术…………………………………………………………………...….……….7

1.4数据挖掘结果的评估……………………………………………………………….……...8

1.5数据挖掘实际应用…………………..…………………………………………….……….9

第2章神经网络与遗传算法……………………………………………………………………10

2.1人工神经网络概述……………………………………………………………...10

2.1.1人工神经网络的发展…………………………………………………..10

2.1.2神经元的工作原理及神经网络特点……...……………………………………………..12

2.1.3应用状况及研究方向..…………………………………………………………….15

2.2.遗传算法……………………………………………………………………………...15

2.2.1遗传算法的形成与发展………………………………………………………………....15

2.2.2遗传算法的研究现状与方向………………………………………………………...16

2.2.3遗传算法和神经网络的结合…………………………………………………………....18

2.2.3.1两种技术结合的可能性………………………………………………………………...18

2.2.3.2基于遗传算法的神经网络计算………………………………..……………………….18

第3章RBF神经网络与Elamn神经网络概述…………………………………………….…..18

3.1RBF神经网络概述……………...18

3.1.1前向型神经网络及相关定义…………....18

3.1.2RBF神经网路工作原理…………....18

3.1.3RBF神经网络的特点及应用领域………………………………………………………...19

3.2Elman神经网络结构………………………………………………………22

第4章混合神经网络概述……………………………………………………………..……….22

4.1.混合神经网络研究意义……………………………………………………………..…….22

4.2混合神经网络的研究现状……………..……………………………………………….22

4.3B样条神经网络的发展现状……………………………………………………………..22

4.4利用串/井联混合神经网络建模………………………………………...22

第5章基于RBF和Elman混合神经网络的数据挖掘技术研究…………………………...23

5.1混合神经网络数据挖掘方法中的数据准备………………………………………………...24

5.1.1数据清洗与选择…………………………………………………………...26

5.1.2数据预处理………………………………………………………………26

5.1.2.1计算属性…………………………………………………………………27

5.1.2.2比例变换……………………………………………………………27

5.1.2.3正则化……………………………………………………………………………...32

5.1.2.4符号映射和类层次………………………………………………………………….32

5.1.2.5符号数据向数值数据的转换……………………………………………………32

5.1.3数据表示及其对训练时间的影响………………………………………………………33

5.1.3.1数值数据的表示………………………………………………………………33

5.1.3.2符号数据的表示……………………………………………………...35

5.2基于混合神经网络的分类决策树构造…………………………………………………..35

第6章数据挖掘未来研究方向及热点…………………………………………………..35

6.1数据挖掘未来研究方向…………………………………………..35

6.2数据挖掘热点…………………………………………………………...36

6.2.1网站的数据挖掘（Websitedatamining）……………………………………………....36

6.2.2生物信息或基因的数据挖掘……………………………………………………37

6.2.3文本的数据挖掘（Textualmining）……………………………………………………..38

英文摘要………………………………………………………………………………………..39

参考文献………………………………………………………………………………………..39

致谢………………………………………………………………………………………..40

基于RBF和Elman混合神经网络的数据挖掘技术研究

王欢

摘要：

基于神经网络的数据挖掘技术是将神经网络中隐含的知识以一种易于理解的方式明确地表示出来。

该技术综合了并行直观性和串行逻辑性两个侧面，通过对已知信息的学习来寻求未知信息，适合非线性数据和含噪声数据，由于单一的神经网络难以应对一些复杂的问题，于是我们就设法将RBF和Elman两种神经网络结合在一起形成一种混合神经网络来应对一些复杂的问题。

关键词：

RBFElman混合神经网络数据挖掘

第一章数据挖掘的概念

1.1数据挖掘发展简述

1.1.1数据丰富与知识匮乏

计算机与信息技术经历了半个世纪的发展，给人类社会带来了巨大的变化与影响。

在支配人类社会三大要素（能源、材料和信息）中，信息愈来愈显示出其重要性和支配力，它将人类社会由工业化时代推向信息化时代。

随着人类活动范围的扩展，生活节奏的加快，以及技术的进步，人们能以更快速更容易更廉价的方式获取和存储数据，这就使得数据及其信息量以指数方式增长。

早在20世纪八十年代，据粗略估算，全球信息量每隔20个月就增加一倍。

而进入九十年代，全世界所拥有的数据库及其所存储的数据规模增长更快。

一个中等规模企业每天要产生100MB以上来自各生产经营等多方面的商业数据。

美国政府部门的一个典型大数据库每天要接收约5TB数据量，在15秒到1分钟时间里，要维持的数据量达到300TB，存档数据达15-100PB。

在科研方面，以美国宇航局的数据库为例，每天从卫星下载的数据量就达3-4TB之多；而为了研究的需要，这些数据要保存七年之久。

九十年代互联网（Internet）的出现与发展，以及随之而来的企业内部网（Intranet）和企业外部网（Extranet）以及虚拟私有网（VPN:

Virtue　PrivateNetwork）的产生和应用，使整个世界互联形成一个小小的地球村，人们可以跨越时空地在网上交换信息和协同工作。

这样，展现在人们面前的已不是局限于本部门，本单位和本行业的庞大数据库，而是浩瀚无垠的信息海洋。

据估计，1993年全球数据存贮容量约为二千TB，到2000年增加到三百万TB，面对这极度膨胀的数据信息量，人们受到“信息爆炸”、“混沌信息空间”（InformationChaoticSpace）和“数据过剩”（DataGlut）的巨大压力。

然而，人类的各项活动都是基于人类的智慧和知识，即对外部世界的观察和了解，做出正确的判断和决策以及采取正确的行动，而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料，它本身没有任何意义。

从数据到知识到智慧，需要经过分析加工处理精炼的过程。

如图1.1所示，数据是原材料，它只是描述发生了什么事情，并不能构成决策或行动的可靠基础。

通过对数据进行分析找出其中关系，赋予数据以某种意义和关联，这就形成所谓信息。

信息虽给出了数据中一些有一定意义的东西，但它往往和人们需要完成的任务没有直接的联系，也还不能做为判断、决策和行动的依据。

对信息进行再加工，即进行更深入的归纳分析，方能获得更有用的信息，即知识。

而所谓知识，可定义为“信息块中的一组逻辑联系，其关系是通过上下文或过程的贴近度发现的”。

从信息中理解其模式，即形成知识。

在大量知识积累基础上，总结出原理和法则，就形成所谓智慧（Wisdom）。

事实上，一部人类文明发展史，就是在各种活动中，知识的创造、交流，再创造不断积累的螺旋式上升的历史。

1.1.2从数据到知识

早在八十年代，人们在“物竞天择，适者生存”的大原则下，就认识到“谁最先从外部世界获得有用信息并加以利用，谁就可能成为赢家”。

而今置身市场经济且面向全球性剧烈竞争的环境下，任何商家的优势不单纯地取决于如产品、服务、地区等方面因素，而在于创新。

用知识作为创新的原动力，就能使商家长期持续地保持竞争优势。

因此要能及时迅速地从日积月累庞大的数据库中，以及互联网上获取与经营决策相关的知识，自然而然就成为满足易变的客户需求以及因市场快速变化而引起激烈竞争局面的唯一武器。

因此，如何对数据与信息快速有效地进行分析加工提炼以获取所需知识，就成为计算机及信息技术领域的重要研究课题。

事实上计算机及信息技术发展的历史，也是数据和信息加工手段不断更新和改善的历史。

早年受技术条件限制，一般用人工方法进行统计分析和用批处理程序进行汇总和提出报告。

在当时市场情况下，月度和季度报告已能满足决策所需信息要求。

随着数据量的增长，多数据源所带来的各种数据格式不相容性，为了便于获得决策所需信息，就有必要将整个机构内的数据以统一形式集成存储在一起，这就是形成了数据仓库（datawarehousing）。

数据仓库不同于管理日常工作数据的数据库，它是为了便于分析针对特定主题（subject-oriented）的集成化的、时变的（time-varant）即提供存贮5-10年或更长时间的数据，这些数据一旦存入就不再发生变化。

数据仓库的出现，为更深入对数据进行分析提供了条件，针对市场变化的加速了人们提出了能进行实时分析和产生相应报表的在线分析工具OLAP（onlineanalyticalprocessing）。

OLAP能允许用户以交互方式浏览数据仓库内容，并对其中数据进行多维分析，且能及时地从变化和不太完整的数据中提取出与企业经营活动密切相关的信息。

例如：

OLAP能对不同时期、不同地域的商业数据中变化趋势进行对比分析。

OLAP是数据分析手段的一大进步，以往的分析工具所得到的报告结果只能回答“什么”（what），而OLAP的分析结果能回答“为什么”（why）。

但OLAP分析过程是建立在用户对深藏在数据中的某种知识有预感和假设的前提下，由用户指导的信息分析与知识发现过程。

但由于数据仓库（通常数据贮藏量以TB计）内容来源于多个数据源，因此其中埋藏着丰富的不为用户所知的有用信息和知识，而要使企业能及时准确地做出科学的经营决策，以适应变化迅速的市场环境，就需要有基于计算机与信息技术的智能化自动工具，来帮助挖掘隐藏在数据中的各类知识。

这类工具不应再基于用户假设，而应能自身生成多种假设；再用数据仓库（或大型数据库）中的数据进行检验或验证；然后返回用户最有价值的检验结果。

此外这类工具还应能适应现实世界中数据的多种特性（即量大、含噪声、不完整、动态、稀疏性、异质、非线性等）。

要达到上述要求，只借助于一般数学分析方法是无能达到的。

多年来，数理统计技术方法以及人工智能和知识工程等领域的研究成果，诸如推理、机器学习、知识获取、模糊理论、神经网络、进化计算、模式识别、粗糙集理论等等诸多研究分支，给开发满足这类要求的数据深度分析工具提供了坚实而丰富的理论和技术基础。

九十年代中期以来，许多软件开发商，基于数理统计、人工智能、机器学习、神经网络、进化计算和模式识别等多种技术和市场需求，开发了许多数据挖掘与知识发现软件工具，从而形成了近年来软件开发市场的热点。

目前数据挖掘工具已开始向智能化整体数据分析解决方案发展，这是从数据到知识演化过程中的一个重要里程碑。

如图1-1-2所示。

1.1.3数据挖掘的产生

随着计算机硬件和软件的飞速发展，尤其是数据库技术与应用的日益普及，人们面临着快速扩张的数据海洋，如何有效利用这一丰富数据海洋的宝藏为人类服务，业已成为广大信息技术工作者的所重点关注的焦点之一。

与日趋成熟的数据管理技术与软件工具相比，人们所依赖的数据分析工具功能，却无法有效地为决策者提供其决策支持所需要的相关知识，从而形成了一种独特的现象“丰富的数据，贫乏的知识”。

为有效解决这一问题，自二十世纪90年代开始，数据挖掘技术逐步发展起来，数据挖掘技术的迅速发展，得益于目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求，对信息和知识的需求来自各行各业，从商业管理、生产控制、市场分析到工程设计、科学探索等。

数据挖掘可以视为是数据管理与分析技术的自然进化产物，如图1.3所示。

自六十年代开始，数据库及信息技术就逐步从基本的文件处理系统发展为更复杂功能更强大的数据库系统；七十年代的数据库系统的研究与发展，最终导致了关系数据库系统、数据建模工具、索引与数据组织技术的迅速发展，这时用户获得了更方便灵活的数据存取语言和界面；此外在线事务处理（OLTP：

onlinetransactionprocessing）手段的出现也极大地推动了关系数据库技术的应用普及，尤其是在大数据量存储、检索和管理的实际应用领域。

自八十年代中期开始，关系数据库技术被普遍采用，新一轮研究与开发新型与强大的数据库系统悄然兴起，并提出了许多先进的数据模型：

扩展关系模型、面向对象模型、演绎模型等；以及应用数据库系统:

空间数据库、时序数据库、多媒体数据库等；日前异构数据库系统和基于互联网的全球信息系统也已开始出现并在信息工业中开始扮演重要角色。

被收集并存储在众多数据库中且正在快速增长的庞大数据，已远远超过人类的处理和分析理解能力（在不借助功能强大的工具情况下），这样存储在数据库中的数据就成为“数据坟墓”，即这些数据极少被访问，结果许多重要的决策不是基于这些基础数据而是依赖决策者的直觉而制定的，其中的原因很简单，这些决策的制定者没有合适的工具帮助其从数据中抽取出所需的信息知识。

而数据挖掘工具可以帮助从大量数据中发现所存在的特定模式规律，从而可以为商业活动、科学探索和医学研究等诸多领域提供所必需的信息知识。

数据与信息知识之间的巨大差距迫切需要系统地开发数据挖掘工具，来帮助实现将“数据坟墓”中的数据转化为知识财富。

1.2数据挖掘的基本知识

1.2.1数据挖掘的定义

数据挖掘（数据挖掘,DataMining）是按企业既定业务目标，对大量的企业数据进行探索和分析，揭示未知的、验证已知的商业规律，并进一步将这些规律模式化的数据处理方法，它的最大特点是能够建立预测模型，预测未来的情况。

挖掘是一个很生动的术语，它抓住了从大量的、未加工的材料中发现少量金块这一过程的特点。

简单的说，数据挖掘是从大量的数据中提取或“挖掘”知识。

数据挖掘应该更正确地命名为“从数据中挖掘知识”。

更术语的说法是：

应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识，这些知识或信息是隐含的，事先未知而潜在有用的，提取的知识表示为概念、规则、规律、模式等形式。

也可以说，数据挖掘是一类深层次的数据分析。

MetaGroup对数据挖掘的定义：

DataMiningistheapplicationofartificialintelligence（AI）techniques（Neuralnetwork,Logic,geneticalgorithm,etc）tolargequantitiesofdata,todiscoveryhiddentrends,patterns,andrelationships.——数据挖掘是将人工智能技术（包括神经网络，模糊逻辑，遗传算法等）应用到大规模数据，以发现隐含的趋势、模式和关系。

）

1.2.2数据挖掘方法论

目前有多种方法论来指导数据挖掘项目的实施，SEMMA与CRISP-数据挖掘是其中比较流行的两种。

按照SEMMA的方法论，将数据挖掘过程分为数据取样（Sample）、数据探索（Explore）、数据调整（Modify）、模型研发（Model）到模型综合解释和评价（Assess）。

CRISP-数据挖掘方法论是将前期的业务理解和数据理解，以及后期的部署也纳入了数据挖掘项目中，使得对项目实施的指导更加完整。

CRISP-数据挖掘将数据挖掘的过程分为六个主要阶段：

商业理解、数据理解、数据准备、建立模型、评估和部署。

1.2.3数据挖掘与数据仓库的关系

根据数据挖掘的定义，数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术，如果将数据挖掘（数据挖掘）和数据仓库（DW）紧密联系在一起，将获得更好的结果。

成功的数据挖掘的关键之一就是通过访问正确、完整和集成的数据，进行深层次的分析，寻求有益的信息，而这些正是DW所能够提供的。

DW不仅是集成数据的一种方式，而且DW的联机分析处理功能还为数据挖掘提供了一个极佳的操作平台；如数据挖掘与DW能够实现有效的联接，将给数据挖掘带来各种便利和功能。

1.2.4数据挖掘的任务

数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

　　⑴关联分析（associationanalysis）

　　关联规则挖掘是由RakeshApwal等人首先提出的。

两个或两个以上变量的取值之间存在某种规律性，就称为关联。

数据关联是数据库中存在的一类重要的、可被发现的知识。

关联分为简单关联、时序关联和因果关联。

关联分析的目的是找出数据库中隐藏的关联网。

一般用支持度和可信度两个阀值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。

　　⑵聚类分析（clustering）

　　聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。

聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。

聚类方法包括统计分析方法、机器学习方法和神经网络方法等。

　　⑶分类（classification）

　　分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。

分类是利用训练数据集通过一定的算法而求得分类规则。

分类可被用于规则描述和预测。

　　⑷预测（predication）

　　预测是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测。

预测关心的是精度和不确定性，通常用预测方差来度量。

　　⑸时序模式（time-seriespattern）

　　时序模式是指通过时间序列搜索出的重复发生概率较高的模式。

与回归一样，它也是用己知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。

　　⑹偏差分析（deviation）

　　在偏差中包括很多有用的知识，数据库中的数据存在很多异常情况，发现数据库中数据存在的异常情况是非常重要的。

偏差检验的基本方法就是寻找观察结果与参照之间的差别。

1.2.5数据挖掘的对象

数据挖掘的对象主要是关系数据库，这是典型的结构化数据。

随着技术的发展，数据挖掘对象逐步扩大到半结构化或非结构化数据，这主要是指文本数据、图像和视频数据，以及Web数据等。

1.2.6数据挖掘的流程

⑴定义问题：

清晰地定义出业务问题，确定数据挖掘的目的。

　　⑵数据准备：

数据准备包括：

选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理--进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。

　　⑶数据挖掘：

根据数据功能的类型和和数据的特点选择相应的算法，在净化和转换过的数据集上进行数据挖掘。

　　⑷结果分析：

对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。

　　⑸知识的运用：

将分析所得到的知识集成到业务信息系统的组织结构中去。

1.3数据挖掘的方法和技术

1.3.1归纳学习法

归纳学习方法是目前重点研究的方向，研究成果较多。

从采用的技术上看，分为两大类：

信息论方法（这也是常说的决策树方法）和集合论方法。

每类方法又包含多个具体方法。

1.3.1.1信息论方法（决策树方法）

信息论方法中较有特色的方法有以下几种。

（一

展开阅读全文