ImageVerifierCode 换一换
格式:DOCX , 页数:56 ,大小:1.54MB ,
资源ID:8408585      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-8408585.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(罗贤杰论文基于ETL应用的商业决策信息系统的设计与实现0906Word下载.docx)为本站会员(b****6)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

罗贤杰论文基于ETL应用的商业决策信息系统的设计与实现0906Word下载.docx

1、 Student ID:East China Normal UniversityBased on the ETL application information system design and implementation of business decisionsDepartment: Software Engineering Institute Type: Master of Engineering Domain: Software Engineering Supervisor: PuGeguang professor Applicant : Luo Xianjie 华东师范大学学位论

2、文原创性声明郑重声明:本人呈交的学位论文基于ETL应用的商业决策信息系统的设计与实现,是在华东师范大学攻读硕士/博士(请勾选)学位期间,在导师的指导下进行的研究工作及取得的研究成果。除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明并表示谢意。 作者签名: 日期: 年 月 日华东师范大学学位论文著作权使用声明 基于ETL应用的商业决策信息系统的设计与实现系本人在华东师范大学攻读学位期间在导师指导下完成的硕士/博士(请勾选)学位论文,本论文的研究成果归华东师范大学所有。本人同意华东师范大学根据相关规定保留和使用

3、此学位论文,并向主管部门和相关机构如国家图书馆、中信所和“知网”送交学位论文的印刷版和电子版;允许学位论文进入华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于(请勾选)( )1.经华东师范大学相关部门审查核定的“内部”或“涉密”学位论文*,于 年 月 日解密,解密后适用上述授权。( )2.不保密,适用上述授权。 导师签名 本人签名 年 月 日* “涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位论文(需附获批的华东师

4、范大学研究生申请学位论文“涉密”审批表方为有效),未经上述部门审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权)。摘 要随着信息管理系统的应用的增多,企业的业务系统中产生了越来越多的数据孤岛。怎样把数据孤岛利用起来,于是就产生了ETL概念。ETL指的是数据抽取、数据转换和数据加载,他们在构建数据仓库过程中占到了极其重要的地位。在如今社会中,信息在企业中的地位日趋重要,是企业进行科学的管理以及决策分析的基础。目前,大部门企业在构建业务系统和办公自动化系统中花费了大量的时间和资金,用来记录业务处理的各类数据。在普遍情况中,企业的数据量每2年左右就会翻倍增长,数据

5、中隐藏着大量的商业价值,但是往往企业所能运用的仅仅只占总量的4左右。企业并没有将这些数据资源加以最大化地利用,从而浪费了更多的资金以及时间,更在制定商业决策时候失去了先机。于是,企业如何运用技术手段,将这些业务数据更好加以利用,已成为提高企业竞争力的瓶颈。本文以国内某企业为研究背景,根据公司决策层的需求,分析和设计了适合公司决策支持的数据仓库物理结构和逻辑模型,并对数据抽取、转换、装载(ETL)和数据清洗等技术进行了具体地应用实践,设计并实现了可满足决策分析所需的数据仓库及其相关的ETL工具。本论文的主要研究内容和成果概述如下:首先,在调研该企业的组织机构、业务系统和企业管理流程的基础上,分析

6、和设计了适合该公企业实际需要的数据仓库的五大模块,即财务模块、供应链模块、成本模块、生产制造模块和人力资源模块。采用星型和雪花模型结合的方式,设计了五大模块的逻辑和物理模型。根据企业具体情况,在操作数据存储(ODS)下创建了数据仓库。其次,设计了一个ETL工具以解决半结构化数据的抽取。运用DOM对象对数据源进行分析,从企业实际出发设计的ETL工具,能够将企业财务软件导出的XML格式数据加载到数据仓库中,也解决了商用的ETL工具无法对XML文档进行直接抽取、加载的弊端,解决了企业数据分析的实际困难。最后,设计了基于结构化数据的ETL工具。在该企业实际运行的业务系统中,基于ORACLE 和SQL

7、SERVER的结构化数据占了大多数,基于结构化数据的ETL工具,给用户开放了自行设计清洗函数接口,解决了商用ETL工具清洗函数的不可扩展问题。另外,并且在元数据中保存了数据提取的SQL脚本,降低了同种SQL多次执行时重编译的时间开销。关键词:ETL,ERP,数据仓库,XML,ODSAbstractWith the increasing application of the information management system, enterprises in the business system has had more and more data island.How to use t

8、hese data island, this created the concept of ETL.ETL is a data extraction (Extract), data conversion(Transform) and data loading (Loading), is to build a data warehouse is extremely important part.In todays society, information is the important resource of enterprise, is the enterprise with scienti

9、fic management, decision analysis based.At present, most companies spend a lot of time and money to build online transaction processing management system and office automation system, used to store the transaction related data.According to statistics, the amount of data every 2 to 3 years time will

10、grow exponentially, these data contains a huge commercial value, and enterprise concern often only accounts for the total amount of data from 2% to 4%.Therefore, the enterprise still not maximize the use of existing data resources, so waste more time and money, but also lost the best opportunity to

11、make critical business decisions.Then, how the enterprises through a variety of technical means, and to convert data into information, knowledge, has become the main bottleneck to improve its core competitiveness.In this paper, a domestic enterprise as the research background, according to the compa

12、nys decision-making needs, analysis and design for the companys decision support data warehouse physical structure and the logical model, data extraction, transformation and loading (ETL), and the data cleaning technique for specific application practice, the final design and implementation can meet

13、 the decision analysis of the desired data warehouse and related ETL tools.The present paper main research contents and results are summarized as follows:First of all, in the investigation of the enterprise organization, business system and management on the basis of analysis and design for the comp

14、any, decision-making support required by the data warehouse in the five major themes, namely the financial subject, theme, the theme of supply chain cost, manufacturing and human resources theme theme.Adopt star type model and snowflake model combining, established the five major themes of the logic

15、al model and physical model.According to the companys specific situation, in the operation data storage (ODS) environment to achieve data warehouse.Secondly, the design of a XML based semi structured data ETL tools.Use DOM object analysis of XML data source, from the enterprise actual situation the

16、design and implementation of semi structured data ETL tools, solve the companys financial software system interface XML semi-structured data is loaded into a data warehouse of the problems, but also solve the commercially available ETL tools can not be directly extracted and loaded into the data war

17、ehouse XML document malpractice, to meet the actual needs of enterprises.Then, the design of a structured data ETL tools.In the companys existing business systems, most of the data are based on ORACLE 9 and SQL SERVER 2005 structured data through structured data, design and implementation of ETL too

18、l, to the user to reserve the custom data cleaning function interface, make up the commercial ETL tool cleaning function can not be extended defects.In addition, in support of ETL tools operation metadata to retain the data extracted from the SQL text, reduces the similar SQL is executed again to re

19、compile brings time overhead.Keywords: ETL,ERP,DW,XML,ODS第一章 绪论1.1相关背景1.1.1课题背景 自从数据库相关技术产生以来,越来越多的企业使用计算机来替代纸质文档记录生产活动中产生的业务信息,以提高工作的效率。但是,系统开发人员往往只是针对独立的问题来设计应用程序以完成特定的目的,从而导致这些系统程序之间由于缺少必然的联系不能协同工作,使得在现有的独立系统基础上无法实现企业高层次的信息共享。企业如果要从这些积累下的信息数据中提取所需要的的信息,就必须要将这些相互独立的信息数据集成起来,创建数据仓库,从而达到各系统信息共享的目的,这

20、样企业才能迅速、更准确的对当前和过往数据进行分析,对今后事态发展进行预测,才能为做出理想的决策提供依据1,2。企业的日常业务数据是建立数据仓库的基础,而建立数据仓库的目的是为了能够从数据仓库中筛选出所需要的信息以更好的支持企业决策。而建立数据仓库的整个过程,它是面向主题、集成并且不可更新的,是不断变化的,需要从基本框架的建立入手,不断完善和丰富整个系统3。数据集成是建立数据仓库的难点,而在数据集成的过程之中又将解决三个主要问题:数据的更新同步,数据源之间各类数据的不一致表现,如何融合不同的数据源 4。ETL即数据提取、转换和装载,是数据仓库的核心技术之一5,是构建数据仓库的重要一环。数据仓库项

21、目中60-80的工作量是用来进行ETL过程的建立与执行的6,7,8,9。将数据从不同的数据源中采集到各自的目标数据库的过程,就是所谓的ELT过程,ETL能够管理数据的质量,并且将其贯穿于整个方案的全过程中。数据仓库建设过程的主要部分就是ETL,其效率和数据质量直接影响数据仓库的建设和企业决策分析的有效性。1.1.2 项目背景-公司主要生产、销售给类油封制品、密封罩、保护圈、减震橡胶等其他工业橡胶制品。产品广泛应用于汽车船舶、航空航天、铁路车辆、建筑机械、农用机械、石油化工、家用电器等领域。公司成立于1995年,由于受当时条件限制,公司对企业信息化建设仅仅是从应用层面上展开,没有以企业整体角度进

22、行规划,导致企业如今同时存在财务、生产、销售、采购、仓存、人事、客户管理等多套业务系统,并且各个业务系统的品牌和平台各不相同。一方面经过这么多年的使用,存储了海量的业务数据,随着数据量的剧增导致企业业务系统的响应速度越来越慢;另一方面企业管理层人员所需要的报表五花八门,有业务数据也有有财务数据的,但是同样的数据经过各自系统的加工之后就会存在很大差异,给企业决策带来了困难。这些运行在各个业务部门,满足部门级应用的业务软件系统给企业带来的问题表现为:1 整体系统数据响应速度越来越慢。2 缺乏分析数据一致性。来源于不同口径的统计数据出现了不一致现象,带来了决策上的不便。3 多数据源并存,数据统计分析

23、困难。4 历史数据管理越来越繁杂。5 目前系统对企业的宏观管理缺乏数据支撑。为解决这些问题,加强企业的决策力,把握未来企业的发展方向,公司高层决定使用ETL技术建立企业级数据仓库满足企业的财务、供应链、生产、成本、人事分析的需要。1.2国内外研究现状从20世纪70年代中期开始人们就进行了数据集成的研究,其发展可归纳两个过程,过程一针对多数据库系统 10,11的研究。这个过程可分为三类。第一,物理上分布而逻辑上集中的结构;第二,逻辑和物理均分布的结构,每个结点采用邦联的独立模式,而并非采用全局模式;三是多语言数据集成。20世纪80年代至90年代,随着计算机及和网络的日益普及,传统的数据集成方案对

24、人们获取更多数据的要求已经无法满足,这时数据仓库理论开始被人们接受,相关技术随之产生和应用。数据仓库的集成工具:ETL技术的研究也随着数据仓库技术的发展日益活跃,研究主要涉及以下方面12,13:(1)为避免扫描整个庞大的数据集而进行的高效数据检测算法的研究;(2)在数据自动化清洗和检测中增加人工判断过程为了提高处理的精度;(3)并行处理海量数据集的研究;(4)消除合并数据冗余的研究;(5)数据清洗框架通用性的研究;(6)数据仓库数据更新的研究;(7)ETL工作流的研究;(8)ETL过程优化的研究。由于ETL在数据仓库中的重要地位,其已成为各类软件厂商占领市场的战略要地。众多国外数据仓库项目被成

25、功实施,软件厂商纷纷推出了自己的相关产品,如IBM的Warehouse Manager,Microsoft的DTS,Oracle的Warehouse Builder, Informatica的DataStage等 14,15,16。目前国内对ETL的研究也有了一定的基础17,18。在实际系统的开发应用中,一部分数据集成工具只能在该系统下使用,仅仅是针对该特定系统开发的;另一部分对数据的抽取、转换和加载的过程是通过脚本的编写来实现的。无论是上面的哪种,都存在需要克服的弊端,比如灵活度很低,其次设计过程的代价很大,无论是设计过程的周期,还是对人力、物力的消耗,是一个耗时耗力的过程。此外,处理异构数

26、据库系统的转换工具功能相对简单,在处理复杂数据时达不到好的效果。 19,20。1.3 研究意义数据集成在数据仓库的建立以及系统集成应用中占重要地位,数据的一致性、完整性、有效性,对数据仓库的建立和数据挖掘的成败起着关键作用。ETL作为数据集成的解决方案,有着重要的实际意义。ETL研究理论意义(1)ETL工具研究使得不同数据源间的异构性得以解决。数据仓库中的数据都来自多个不同的数据源,每个数据源又往往是异构的,如:不同数据库数据、XML文件甚至是平板文件。因此,在数据集成过程之中,如果针对不同的数据源进行设计、编码就会极大延长开发得周期,增加开发成本。支持异构数据源作为ETL工具的一个特点,它能

27、够从多种数据源中读取或加载数据,这样,开发人员就能够节省时间、提高效率从而投入更多的时间在数据挖掘的方面。(2)ETL工具便于数据清洗。由于数据源多样性的原因,导致了大量“脏数据”(Dirty Data)的存在21。这些所谓的“脏数据”会在被数据仓库装载的过程中增加数据仓库的负载,在数据质量无法保证的情况下,那么就会对数据仓库的后续操作和数据挖掘产生严重的影响。ETL作为数据源与数据仓库间的一座桥梁,以克服“脏数据”对数据仓库的影响,提高处理效果。ETL研究应用意义(1)加快企业各个系统及数据的整合,以便数据仓库为企业决策提供支持。如前文所讲,大多数企业尽管具备了各类计算机业务处理系统,积累了

28、大量的基础数据,但数据系统之间相互隔离,信息共享度低,网络、信息资源利用度不高,信息化水平不高。数据仓库、数据挖掘、ETL等技术能够帮助企业从积累的大量数据中挖掘信息、提炼知识,因此,这些技术必会慢慢普及;而作为建立数据仓库所需的ETL技术,也会随之发展。(2)将原先异构数据源中的数据进行同一输出。如在电子商务领域,基于Internet的XML方式正逐步取代传统的EDI方式。由于XML的结构非常严格,使得对XML的分析变得容易。在研究中,元数据管理和转换规则的描述非常适合用XML来实现,而且XML能够成为不同应用程序数据的中间形式22,这为解决数据源异构问题提供了便利。数据集成工具必须要能够提

29、供数据交换接口:根据用户定义的数据格式,经过ETL工具在多个的数据源中抽取数据,并存入定义好的XML文件中,为电子商务做好数据的准备。1.4 论文研究内容1.4.1 研究思路本课题来源于客户商业智能系统的开发项目,主要目的是利用现有数据资源建立一个数据交换平台,为企业能够快速、有效地对业务数据进行分析提供保证。因此本文主要研究了以下问题:1、数据增量抽取法。在上一次数据抽取基础上,只对数据表中新增或者修改的数据进行抽取,从而降低ETL后续数据处理的消耗。快速准确捕获变化的数据而又不对现有系统增加太大压力是增量抽取能够实施的关键,所以,增量抽取的算法相对全量抽取来说更为复杂。捕获方法的要求有两点

30、:一是准确,能够将业务系统中的数据变化准确及时的捕获到;二是性能,要实现组件各部分的独立运行而不能增加对整个系统的负荷。2、分布式增量数据ETL方法。串行和并行使数据转换过程中的两种基本方式,串行不同于并行,串行方式直接按照顺序按部就班执行就可以,但对执行效率而言没有太大优势,而并行就可以解决这个弊端,并行方式是将串行方式进行分割,转换成多个过程,这就提高了执行的效率,在这里我们通过分布式的处理方法,就能够真正提高执行的效率,同时加入正确的协同处理机制,保证处理以后的数据具有规范性和正确性。3、基于增量数据ETL分布式数据转换平台。数据转换平台能够在不同的数据库之间、不同数据格式之间,进行数据

31、转换。它主要面对的问题在于:安全性、高效性、完整性、一致性、异构性等,本文主要在完整性和高效性上进行了研究。1.4.2 主要工作本文以提高增量ETL 执行效率为目标,针对以上问题进行研究,主要取得了以下成果:1、研究了增量数据抽取方法。通过对增量数据抽取方法和全量数据抽取方法的比较,并根据企业的业务特点,提出新的提取算法,这种算法是根据数据抽取前后数据属性的变化来建立的,属性的挑选是根据变化明显的特征进行的。根据比较的结果来进行增量数据的抽取,由于增量数据抽取的属性相比较全量数据抽取要大大减少,从达到减轻数据抽取复杂度,提高数据抽取效率的目的。2、设计了一个ETL工具以解决半结构化数据的抽取。3、设计了基于结构化数据的ETL工具。在该企业实际运行的业务系统中,基于ORACLE 和SQL SERVER的结构化数据占了大多数,基于结构

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2