大数据仓库与大数据挖掘.docx

上传人:b****5 文档编号:8788617 上传时间:2023-05-15 格式:DOCX 页数:11 大小:73.73KB
下载 相关 举报
大数据仓库与大数据挖掘.docx_第1页
第1页 / 共11页
大数据仓库与大数据挖掘.docx_第2页
第2页 / 共11页
大数据仓库与大数据挖掘.docx_第3页
第3页 / 共11页
大数据仓库与大数据挖掘.docx_第4页
第4页 / 共11页
大数据仓库与大数据挖掘.docx_第5页
第5页 / 共11页
大数据仓库与大数据挖掘.docx_第6页
第6页 / 共11页
大数据仓库与大数据挖掘.docx_第7页
第7页 / 共11页
大数据仓库与大数据挖掘.docx_第8页
第8页 / 共11页
大数据仓库与大数据挖掘.docx_第9页
第9页 / 共11页
大数据仓库与大数据挖掘.docx_第10页
第10页 / 共11页
大数据仓库与大数据挖掘.docx_第11页
第11页 / 共11页
亲,该文档总共11页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

大数据仓库与大数据挖掘.docx

《大数据仓库与大数据挖掘.docx》由会员分享,可在线阅读,更多相关《大数据仓库与大数据挖掘.docx(11页珍藏版)》请在冰点文库上搜索。

大数据仓库与大数据挖掘.docx

大数据仓库与大数据挖掘

数据仓库与数据挖掘

摘要

数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。

本文阐述了数据仓库及数据挖掘的相关概念.做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。

用DataMiner作为对数据挖掘的工具,给出了应用于医院的数据仓库实例。

指出了数据挖掘技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性,为支持医院管理者的分析决策作出了积极探索。

Abstract

TheDataMineisaburgeoningtechnology,theresearchaboutitisdevelopingflourishing.Inthispaper,itexpatiatesandanalysestheconceptsofDataWarehouseandDataMineTogether,discussingtheconnectionsofhowtoexpandthetwotechnologies,andcombiningthetwotechnologieswithprospect.Thedatawarehousesupportsthemassdataonthefurtherhandlingandrecycling.Thepaperpointsouttheuseofdatamininginpatientchargecontrol,medicalqualitycontrol,hospitalresourcesallocationmanagement.Ithelpsthehospitaltomakedecisionspositively

关键字:

数据仓库;数据挖掘;医院信息系统

Keywords:

DataWarehouse;DataMine;Hospitalinformationsystem

 

1、数据仓库的概述1

1.1数据仓库的特征1

1.2数据仓库系统2

1.3联机分析技术2

2、数据挖掘3

2.1数据挖掘定义及实现过程3

2.2数据挖掘的分类4

2.3数据挖掘任务5

3、数据挖掘与数据仓库的联系6

4、数据挖掘技术在医院管理中的应用7

4.1病人费用构成分析7

4.2同期费用对比分析7

4.3病人结构分析8

4.4病人流动情况分析8

4.5病人就诊时间分析8

4.6成本效益分析8

5、总结9

 

随着信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。

但是,在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的数据浪费,造成各种损失。

所以有必要将这些数据转化为有用的信息。

而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。

20世纪80年代后期至今,高级数据分析——数据挖掘(DataMining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域。

1、数据仓库的概述

数据仓库对不同的使用者、不同的操作围,它有不同的意义。

被誉为数据仓库之父的W.H.Inmom将数据仓库DataWarehouse)定义为『41:

是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

1.1数据仓库的特征

(1)数据是面向主题的

传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同的操作。

而现今的数据仓库是有较强主题组织性的,高层赶地将数据归类,去除无用的数据。

(2)数据的集成性

因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。

(3)数据的相对稳定性

数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。

(4)数据的不易失性(长期性)

数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时问效果,这样才能更好的体现历史数据的趋势预测性。

1.2数据仓库系统

目前,数据仓库系统主要以现有的商用数据库管理系统作为数据的存储体,与传统的数据库系统不同,数据仓库系统是以面向主题的、集成的、时变的和稳定的为特点,因此在数据仓库系统的建设中,其主要容为数据抽取与数据集成。

在数据集成过程中,由于各数据源的类型多样,包括各种类型的关系数据库管理系统、文件系统,甚至还包括来自WEB上的数据,这些数据在模式设计上也是多种多样,数据质量也千差万别,数据容的来源也不统一,因此在数据集成过程中数据模式的设计、数据清洗和数据的转换、导人和更新方法是主要难点,目前的研究工作也主要集中在这几个方面。

在数据清洗中一个重要的问题是重复数据的发现与删除.由于数据来自不同的数据源,所以相同的数据经常会在数据仓库中出现多个复本,但由于各个数据源的数据质量有较大差别,同样的数据在录入时由于拼写错误、不一致的习惯会出现小的差别,从而被认为是不同的数据。

为了提高数据仓库中的数据的可靠性,需要将这些可能的重复数据找出来,并进行删除。

目前在重复数据的寻找方面主要采用一些标准文本相似性匹配方j去,如编辑距离、CosineMetric等。

但这些方法无法解决语义上的相似性判定问题。

1.3联机分析技术

联机分析技术是针对数据仓库应用中广泛出现的大量的聚集操作而产生的一种新的技术,总体上讲联机分析技术可以分成两种类型,一种是基于关系数据库系统实现的联机分析系统,简称ROLAP。

其基本思想是对数据仓库中的数据模式进行合理组织,直接通过关系查询实现联机分析系统支持的下钻、上翻、分片、分块等操作。

目前各个关系数据库厂商均在它们的关系数据库管理系统的产品中提供了相应的查询手段,同时为了提高查询的性能,它们还增加了相应的索引机制;另一种基于多维模型实现联机分析,简称MOLAP。

这种方法基于多维数组实现联机分析系统,其主要研究问题如何减少存储空间,提高查询性能。

近年在这两方面均有研究论文发表。

与此同时随着OLAP系统应用的推广对基于OLAP系统的体系结构方面的研究也引起了人们的注意,Uwerohm针对集群结构的OIAP系统研究了一个对数据的实时性敏感的中间件系统。

可在保证系统查询的正确性和一致性的同时充分发挥集群系统的性能。

ROLAP实现技术方面的研究开展了一段时间,目前提高ROLAP的执行效率的方法主要包括两个方面,一方面是采用物化视图的思想,其方法是将用户可能的查询事先计算出来。

当用户提交查询的时候,从已经计算出来的视图出发,可以较快地计算出查询结果。

这里面的主要问题是物化视图的选择和查询的实现。

另一方面是针对OLAP查询的索引结构.比较常见的是基于位图的索引和UB-tree等。

目前的研究主要集中在对现有方法的改进和新的查询优化技术方面的研究。

例如,NikosKarayannidis等人对基于层次的簇聚方式存储的事实表进行联机的星形查询的实现技术进行了研究,提出了一整套查询过程的实现方法和优化策略,在查询访问计划的实现中充分利用了基于层次的簇聚存储方式带来的优点。

2、数据挖掘

2.1数据挖掘定义及实现过程

数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以表示成概念、规律、模式等形式。

其挖掘对象不仅可以是数据库,也可以是文件系统或组织在一起的数据集合,更主要的是数据仓库。

简单的说.数据挖掘是提取或“挖掘”知识。

目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。

从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据。

从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程。

从机器学习的角度.数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息。

可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。

图l表示的是典型的数据挖掘系统的结构。

图1典型的数据挖掘系统的结构

过程表述如下:

从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对已经采集到的数据进行更有效的分配,数据挖掘引擎对数据进行特征化、关联、分类等操作;然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感兴趣的模式上.通过图形用户界面,用户可以方便的与数据挖掘系统之间通信.实现对数据的使用。

2.2数据挖掘的分类

数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。

由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同。

从而产生了大量的、各种不同类型的数据挖掘系统。

掌握数据挖掘系统的不同非类,可以帮助用户确定最适合的数据挖掘系统。

(1)根据所挖掘数据库类型的不同来分类:

有关系型数据挖掘系统、对象型数据挖掘系统、对象一关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统,等等。

(2)根据所挖掘的知识类型来分类:

分为特征化、区分、关联、分类、聚类、孤立点分析f异常数据)和演变分析、偏差分析、相似性分析等分类。

(3)根据所采用技术的分类:

有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。

(4)根据数据挖掘方法来分类:

如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别方法、神经网络方法等。

(5)根据数据挖掘应用的分类:

有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖掘系统等等,不同的应用通常需要集。

成对于该应用特别有效果的方法。

因此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。

2.3数据挖掘任务

数据挖掘任务有六项,分别是:

关联分析、时序模式、聚类、偏差、检测、预测。

关联分析是从数据库中发现知识的一类重要方法。

若两个或多个数据项的取值之间重复出现并且概率很高的时候,就存在某种管理.可以建立起这些数据项的关联准则。

通过时间序列搜索出重复发生概率较高的模式。

这里强调时间序列的影响。

数据库中的数据可以划分为一系列有意义的子集,即类。

在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。

聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。

分类是数据挖掘中应用最多的任务。

分类是找出一个类别的概念描述,它代表了这类信息的整体,即该类的涵描述。

一般用规则或决策树模式表示。

该模式能把数据库中的元组影射到给定类别中的某一个。

数据库中的数据存在很多异常情况。

从数据分析中发现这些异常情况也是很重要的,应该引起足够的重视。

偏差检测的基本方法是寻找观察结果与参照之间的差别。

观察常常是某一个领域的值或多个域值的总汇。

参照是给定模型的预测、外界提供的标准或另一个观察。

预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。

近年来,发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。

分类也能进行预测,但是分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测两者都可用。

3、数据挖掘与数据仓库的联系

既然数据仓库的惟一功能是向终端用户提供信息以支挣决策者,数据挖掘体现了数据仓库的一个最重要的应用。

与其他查询工具和应用系统不同,数据挖掘过程向终端用户提供提取隐藏的、非同等常的信息的能力。

这种信息虽然很难提取。

但能提供更大的商业和科学利益,也能使对“数据仓库和数据挖掘”的投资产出更高的利润。

从数据仓库的观点,数据挖掘可以看作是联机分析处理的高级阶段。

但是作为更高级的数据分析技术,数据挖掘比数据仓库的汇总分析要详细和深入的多。

数据仓库技术的发展与数据挖掘有着密切的关系。

数据仓库的发展是促进数据挖掘越来越热门的原因之一。

但是,数据挖掘并不一定要有数据仓库的支持,即数据仓库并不是数据挖掘的必要条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,同时,数据挖掘仍然经常被看做是数据仓库的后期市场产品,因为那些努力建立起来的数据仓库有最丰富的数据资源可供挖掘。

显然,数据仓库被更为广泛地接受将使人们对数据挖掘更感兴趣。

从数据仓库中直接得到进行数据挖掘的数据有许多好处。

数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导人数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经得到解决了。

数据挖掘库可能是数据仓库的一个逻辑子集,而不一定非得是物理上单独的数据库。

但如果数据仓库的集中资源已经很紧,那最好还是建立一个单独的数据挖掘库。

为了数据挖掘库,也不是一定要建立一个数据库。

因为建立一个巨大的数据仓库,要把各个不同资源的数据集中在一起,并解决所有的数据冲突问题,然后把所有的数据导人一个数据仓律,是一项非常巨大的工程,比较麻烦,需要时间和金钱的花费如果只是为了数据挖掘.可以把一个或几个数据库导到一个只读的数据库中,把它当作数据集合,然后在这上面进行数据挖掘≥其中如何抽取、集成、筛选并准备数据以解决其最为紧迫的业务问题,将是分析人员在进行数据挖掘时所面临的最大挑战解决这些问题,不仅是数据挖掘过程中的一个艰巨任务。

而且需要耗费大量的时间。

尽管在数据挖掘中并非一定要有数据仓库的支一持,但数据仓库的确为数据集成和准备提供了一个好办法。

4、数据挖掘技术在医院管理中的应用

我们利用数据挖掘软件Dataminer从数据仓库中提取有用数据,并且进行微观、中观乃至宏观的统计、综合和推理,发现事物问的相互关联,提供更高层次的数据分析功能,对未来的医院业务进行预测,更好地为医院管理决策提供支持。

4.1病人费用构成分析

病人费用由手术、治疗、检查、化验、药品等组成。

该功能可以分析医院、科室乃至各个病房的病人费用构成,从而能有针对性地控制费用比例,探究医疗费用项目结构的合理性,使医院管理者有针对性的控制医疗费用。

例如:

国家对药品占医疗总收人的比例有严格的要求,利用数据仓库的信息,可以分析在某段时间,某科室开具处方的药品是否超过了合理的比例,从而为医院合理控制药品比例提供了决策依据。

4.2同期费用对比分析

该功能可以按不同的时间维度(包括按年综合、按旬综合、按月综合)对各个科室或各个病房同期的各种费用进行对比分析,并以各种专业报表、视图的形式反映给医院管理者,找出收入增加或减少的原因。

例如:

各科室、各病房近五年药品收人时间变化趋势,寻找变化的原因,促进有利因素,减少不利因素。

4.3病人结构分析

我们可以运用秩和比法对医院门诊住院病人的地区分布、性别分布、身份分布、职业分布、年龄分布等方面进行分析,从而得到不同地域、不同性别、不同年龄、不同身份、不同职业病人的经济状况、需求的主要医疗服务类型等信息,使医院管理者了解病人差异对医院收益的影响,能够针对不同类型病人采取一些措施来提高服务质量,增加门诊量和住院收容量。

4.4病人流动情况分析

该功能可以分析门诊病人从挂号到取药再到离开医院的时间分布以及住院病人从入院到出院各个就医环节的时间分布。

分析出病人的就医瓶颈,掌握影响病人诊疗效率的因素,以便能针对这些因素采取措施来帮助医院管理者进行业务流程的更新和改进,提高病人的就诊效率。

4.5病人就诊时间分析

由于医院病人的入院季节性较强,可以通过分析每月、每季度的门诊人次、住院人次、床位周转率,利用数据仓库,通过时间维度分析,建立数据挖掘中的灰色预测模型,来预测下一时期的门诊和住院人次。

根据预测信息,医院管理者可以提出有针对性的措施,确定最优的服务项目时间表,从而作出终止或开拓某种医疗服务项目的决定,以便对人力资源、医疗设施、医疗设备作出适当配置。

4.6成本效益分析

该功能可以把各个不同系统如信息系统、物流系统、财务系统等的数据汇总到数据仓库,然后对医院的成本效益情况进行全面分析,以便能真正把握医院的经营状况,提高医院的经济效益。

例如:

各药品库存量的时间动态趋势,通过分析来减少药品库存量,加快资金周转速度;按需要统计出医院各种药品、耗材的用量以及主要是哪些厂家的产品,这样可以保证合理存量,有效地规医疗用品购销行为;对医院资金运转情况作财务分析,了解医院财务状况和资金流向,分析医院运营风险,利用数据挖掘中的环基比和定基比技术分析医院财务资金的增长速度,并用曲线拟合来预测未来的现金需求量,为投入决策和促进资源的有效配置提供依据。

5、总结

构造在数据仓库平台的数据挖掘具有很强的实用性,效率很高,节省资源。

目前,数据仓库和数据挖掘技术在科学研究、市场流通、企业管理等应用方面已经达到了一定的水平。

随着信息化的加强,数据仓库的多维化和数据挖掘的效率化将更有效的结起来,促进整个信息产业的发展。

应用数据仓库和数据挖掘技术,可以把医院信息系统量非集成的数据集中起来,这样既避免了直接从医院信息系统数据库中寻找所需数据,浪费资源,又可从中得到长期的、系统的、综合的数据。

同时还可以通过决策树、神经网络、遗传算法、聚类等技术,对数据进行更深层次的挖掘,得到更加丰富的辅助决策信息,使医院信息系统的信息资源由只面向医院的联机事务处理,变成了可以进行分析、挖掘以得到辅助决策信息的信息资源,拓展了医院信息系统信息资源利用的空间。

医院管理者利用该系统,可以找到对医院发展至关重要的业务信息,为医院的科学管理提供支持,及时分析问题,查找原因,还可以帮助医院管理者预测医院发展的趋势,满足更大围、更深层次的管理分析需求,从宏观上把握医院科学地发展,更好地为广大患者服务。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2