交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc

上传人:wj 文档编号:4892112 上传时间:2023-05-07 格式:DOC 页数:7 大小:207KB
下载 相关 举报
交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc_第1页
第1页 / 共7页
交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc_第2页
第2页 / 共7页
交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc_第3页
第3页 / 共7页
交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc_第4页
第4页 / 共7页
交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc_第5页
第5页 / 共7页
交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc_第6页
第6页 / 共7页
交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc_第7页
第7页 / 共7页
亲,该文档总共7页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc

《交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc》由会员分享,可在线阅读,更多相关《交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc(7页珍藏版)》请在冰点文库上搜索。

交通系统综合平台中数据挖掘技术原理和在智能交通中的应用.doc

交通系统综合平台中数据挖掘技术原理和在智能交通中的应用

摘要:

数据挖掘作为在综合信息平台的海量数据中有效而可靠地提取有决策价值的先进技术,已日益受到重视。

本文首先介绍了数据挖掘的定义接着介绍了常用的数据挖掘方法,然后分析了数据挖掘的过程,最后提出了数据挖掘技术在综合信息平台中的典型应用及基于数据挖掘技术的交通信息集成模型。

关键词:

智能交通系统;综合信息平台;数据挖掘;应用

0.引言

智能交通系统综合平台是为实现各ITS子系统间的数据共享、实现深层次的信息融合和知识发现而提供的综合平台。

该平台能够接受、存储和处理多源、异构数据,具有数据融合、数据挖掘的功能,并能够为各种应用子系统和公众提供完善的信息服务。

目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。

如何在综合信息平台中有效地进行数据挖掘成为智能交通系统发展的一个重要问题。

1.数据挖掘的定义

数据挖掘,英文是DataMining。

关于它的一种比较公认的定义是:

从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。

式。

这种定义把数据挖掘的对象定义为数据库。

将数据挖掘工具与传统的数据分析工具进行比较,传统的数据分析工具是对过去情况的验证,而数据挖掘技术则是基于发现型的、预测型的,运用模式匹配等各种算法对数据之间的关系进行挖掘。

数据挖掘系统框架:

数据仓库

DB接口

发现描述

评价

数据挖掘系统管理器

数据数据挖掘

选择引擎算法

知识库

发现

分析员

元数据

领域知识

2.数据挖掘的方法

数据挖掘的研究融合了多个不同学科领域的技术与成果,使得目前的数据挖掘方法表现出多种多样的形式。

从统计分析类的角度来说,统计分析技术中使用的数据挖掘模型有线形分析和非线形分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近序列分析、最近邻算法和聚类分析等方法。

利用这些技术可以检查那些异常形式的数据,然后,利用各种统计模型和数学模型解释这些数据,解释隐藏在这些数据背后的市场规律和商业机会。

知识发现类数据挖掘技术是一种与统计分析类数据挖掘技术完全不同的挖掘技术,包括人工神经元网络、支持向量机、决策树、遗传算法、粗糙集、规则发现和关联顺序等。

2.1统计方法

传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术、贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.2关联规则

关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。

它是由R.Agrawal等人首先提出的,最经典的关联规则的挖掘算法是Apriori,该算法先挖出所有的频繁项集,然后,由频繁项集产生关联规则,许多关联规则频繁项集的挖掘算法都是由它演变而来的,关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制,关联规则在数据挖掘领域最典型的应用是购物篮分析。

大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价,筛选出用户真正感兴趣的,有意义的关联规则尤为重要。

2.3聚类分析

聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。

聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。

有时进行聚类不是为了将对象相聚在一起而是为了更容易地使某个对象从其他对象中分离出来。

聚类分析已被应用于经济分析、模式识别、图像处理等多种领域,尤其在商业上,聚类分析可以帮助市场人员发现顾客群中所存在的不同特征组群。

聚类分析的技术关键除了算法的选择之外,就是对样本的度量标准的选择。

并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

2.4决策树方法

决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。

树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。

决策树方法是要应用于数据挖掘的分类方面。

2.5神经网络

神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。

人工神经元网络模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

前馈神经元网络以感知器网络、BP网络等为代表,可以用于分类和预测等方面;反馈式网络以Hopfield网络为代表,用于联想记忆和优化计算;自组织网络以ART模型、Kohonon模型为代表,用于聚类。

2.6遗传算法

遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。

每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。

遗传算法由三个基本过程组成:

繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。

在数据挖掘中,可以被用作评估其他算法的适合度。

2.7粗糙集

粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。

粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。

所有相似对象的集合称为初等集合,形成知识的基本成分。

任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。

每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。

粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

3.数据挖掘的过程

对于数据挖掘,我们可以分为三个主要的阶段:

数据准备、数据挖掘、结果的评价和表达。

其中结果的评价和表达还可以细分为:

评估、解释模式模型、巩固、运用知识。

数据库中的知识发现是一个多步骤的处理过程,也是这三个阶段的反复过程,如图2-1所示:

3.1数据准备

KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,长期积累的结果。

但是往往不适合直接在这些数据上面进行知识挖掘,需要做数据准备工作,一般包括数据的选择(选择相关的数据)、净化(消除噪音、数据)、推测(推算缺失数据)、转换(离散值数据与连续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等)、数据缩减(减少数据量)。

这些工作往往在生成数据仓库时己经准备妥当。

数据准备是KDD的第一个步骤。

数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。

3.2数据挖掘

数据挖掘是KDD最关键的步骤,也是技术难点所在。

研究KDD的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。

数据挖掘根据KDD的目标,选取相应算法的参数,分析数据,得到可能型号层知识的模式模型。

3.3结果评价和表达

评估、解释模式模型:

上面得到的模式模型,有可能是没有实际意义或没有使用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。

评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。

这个步骤还包括把模式以易于理解的方式呈现给用户。

巩固知识:

用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。

同时还要注意对知识做一致性检查,解决与以前得到的知识相互冲突、矛盾的堤防,使知识得到巩固。

运用知识:

发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。

运用知识有两种方法:

一种是只需要看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。

KDD的过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。

4.数据挖掘技术在交通流分析中的应用

数据挖掘的任务是从数据中发现模式。

模式有很多种,按功能可分为两大类:

描述型和预测型模式。

描述型模式是对数据中存在的规则作一种描述,或者根据数据的相似性把数据分组,描述型模式不能直接用于预测。

预测型模式是可以根据数据项的值精确确定某种结果的模式。

挖掘预测型模式所使用的数据也都是可以明确知道结果的。

下面分述模式描述和模式预测两种典型的数据挖掘方法以及在交通流分析中的应用方法。

4.1基于模糊聚类的模式描述

4.1.1算法描述

模糊聚类分析的基本思路为:

欲将数据集分为C类,设X中的任意样本对第i类的隶属度为其中且。

模糊聚类的聚类准则为:

(1)

式中为加权指数,为第k个样本到第i类聚类中心的距离,定义为:

(2)

其中,A为对称矩阵,当A=I时为欧氏距离。

根据拉格朗日乘法求得满足

(1)式的必要条件为:

(3)(4)

模糊C一均值算法FCM(FuzzyC-means)描述如下:

a.初始化隶属度矩阵。

b.根据(4)式计算聚类中心。

c.根据

(2)计算

d.根据(3)式重新计算隶属度。

e.重复步骤b-d,直到新的聚类中心与上次得到的聚类中心的距离差在允许的范围内为止。

4.1.2交通流拥挤程度分类

交通流拥挤程度是一个模糊的概念,需要综合考虑不同的路面宽度、交通流量、等待队列长度、不同的时段等因素,来综合评价交通流拥挤程度,这些因素也是一个样本数据的基本属性。

通过对不同路口和不同时段的这些信息进行采集,采用上面的模糊聚类方法,对一个城市的不同地段和不同时段的交通拥挤状况进行分类,从而对交通状况进行评价。

4.2基于决策树的模式预测

4.2.1算法描述

假设样本集X共有。

类样本,每类样本数为pi.(i=1,2,3,...,c),总的样本数为p。

则样本集的信息嫡为:

(5)

若样本集以属性A作为决策树的根,A具有v个分类V1,V2,…,Vv。

它将样本集分成v个子集{E1,E2,…,Ev}。

假设Ei中含有j类的样本个数为pij,子集Ei所包含的样本数为,那么子集Ei的信息嫡是I(Ei),表示为:

(6)以属性A为根分类的信息嫡为:

(7)信息增益为:

(8)

选择属性A*,使G(A)最大,并以此属性作为分类的根节点,重复上述过程,形成决策树。

具体算法描述如下:

a.创建节点N;

b.如果数据样本都属于同一个类C,则返回N为叶节点,以类C为标记;

c.如果属性列表为空,则返回N作为叶节点,标记为样本中最普通的类;

d.选择属性列表中具有最高信息增益的属性为测试属性,取值相同的样本归为一个子集,测试属性有几个值就分成几个子集。

如果子集为空,则加上一个树叶,标记为样本中最普通的类;否则递归返回步骤a。

最终形成一颗决策树。

决策树一旦建立,就可以从中提取决策树表示的知识,用IF-THEN形式的分类规则表示,从根节点到叶的每一条路径建立一个规则,并进行相应的模式预测。

4.2.2交通流拥挤程度预测

在前面采用模糊聚类方法,对不同路口、不同时段的样本数据进行了样本聚类。

在此基础上,根据采样数据构造决策树,并形成决策规则,从而可以进行不同路段、不同时段(如日、周、月)的交通拥挤程度预测,以方便警力的优化配置。

5.基于数据挖掘技术的交通信息集成模型

图3给出了基于数据挖掘技术的交通信息集成模型,在一定的挖掘目标下,对各交通子系统的数据进行集成。

首先提取与挖掘目标相关的数据,然后进行挖掘分析,最后得出想要的结果或数据中隐含的知识,从而为交通参与者及管理者提供有效的决策支持。

交通部门在进行面向数据挖掘的模型建构时,首先通过诸如检测线圈、超声波检测器等前端交通监测器、GPS终端、视频检测器、道路状况、天气状况以及其它交通子系统异构数据库等途径提取与挖掘目标相关的数据,然后将数据进行转换,并存入专门的数据仓库中,最后交通部门从这个数据仓库中读取相关数据并应用适当的诸如统计、聚类、分类、关联、时间序列分析、仿真、三维可视化等数据挖掘技术,发掘出交通数据中的潜在知识为交通参与者与管理者提供决策辅助。

图3

6.结语

智能交通系统是保障社会经济高速发展的重要手段,我国政府已提出将智能交通系统作为中国未来交通发展的一个重要方向。

而综合信息平台作为获取、传输、存储、处理、管理和发布各种交通有关信息的技术载体,是智能交通系统建设不可缺少的重要组成部分。

数据挖掘技术作为在综合信息平台的海量数据中有效而可靠地提取有决策价值的先进技术,其在综合信息平台乃至智能交通系统中的应用将日益成熟。

参考文献:

[1]陆化普.智能运输系统.人民交通出版社,2002,

(1).

[2]郑为中,史其信.基于数据挖掘的智能交通系统(ITS)公用信息平台构架研究.全国智能交通系统共用信息平台技术研讨会论文集,2002年8月.

[3]张可等.北京市交通共用信息平台示范工程建设,全国智能交通共用信息平台技术研讨会论文集,2002年8月.

[4]钱大琳,朱茵,关瑞北.基于数据仓库技术的城市交通共用信息服务平台,中国公路学报,Vo1.15,No.l,2002年1月

[5]张升文,张少仲.数据仓库、数据挖掘和OLAP分析及其应用实例,微机发展,2002,

(1)

[6]陈京民.数据仓库与数据挖掘技术,电子工业出版社,2002

[7]R.格罗思.数据挖掘一构筑企业竞争优势,西安交通大学出版社,2001

[8]SunBY,HuangDS,andFangHT.Lidarsignaldenoisingusingleast-squaressupportvectormachine.IEEESignalProcessingLetters,2005,12

(2):

101-104

[9]夏红霞,赵杨,钟路.数据仓库中的索引技术.微机发展,2000.6:

50~51

[10]林宇.数据仓库原理与实践.第一版.北京:

人民邮电出版社,2003

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2