ImageVerifierCode 换一换
格式:DOCX , 页数:6 ,大小:24.22KB ,
资源ID:7645475      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-7645475.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据研究综述.docx)为本站会员(b****5)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

大数据研究综述.docx

1、大数据研究综述大数据研究综述 作者:日期: 大数据研究综述 摘要 :从大数据基本理论,大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点,重点比较当前大数据处理工具的优缺点,并深入归纳总结了基于数据存储大数据处理技术,对未来研究进行展望。关键词:大数据,综述,数据处理,数据挖掘引言现代社会提到大数据大家都知道这是近几年才形成的对于数据相关的新名词,在180年,著名未来学家阿尔文托夫勒便在 第三次浪潮一书中,将大数据热情地赞颂为“第三次浪潮的 华彩乐章”。在0 世纪 8 年代我国已经有一些专家学者谈到 了海量数据的加工和管理,但是由于计算机技术和网络技术的 限制大数据未能引起足够的

2、重视,它蕴藏的巨大信息资源也暂时隐藏了起来。随着云计算技术的发展,互联网的应用越来越广泛,以微博和博客为代表的新型社交网络的出现和快速发 展,以及以智能手机、平板电脑为代表的新型移动设备的出现, 计算机应用产生的数据量呈现了爆炸性增长的趋势。01年末出版的大数据时代的作者英国牛津大学网络学院互联网 研究所治理与监管专业教授维克托尔耶舍恩伯格在书的 引言中说,大数据正在改变人们的生活以及理解世界的方式, 而更多的改变正蓄势待发。美国总统奥巴马的成功竞选及连 任的背后都有大数据挖掘的支撑,美国政府认为,大数据是 “未来的新石油”,并将对大数据的研究上升为国家意志,这对 未来的科技与经济发展必将带来

3、深远影响1。如今,大数据已成为一项业务上优先考虑的工作任务,因为它能够对全球整合经济时代的商务产生深远的影响。大数据的应用范围如此广泛,与大数据相关的很多问题都引起了专家和学者的重视。大数据最基本的问题大数据的定义目前还没有一个统一的定论,但大数据作为一种基础性资源需要被处理才能显现其 潜在的价值,那么如何更好地处理大数据这种基础性资源就显得特别重要,因为这些问题都关系到大数据核心价值的体现。 为此,本文从大数据若干个版本的概念出发,调查分析了大数 据的研究和应用现状,重点分析了当前主流的大数据处理工具 和技术,最后预测了大数据未来的几个研究和发展方向。大数据的概念 从学术上来讲,大数据一次最

4、贴切的概念最早出现在2008Nae杂志所设立的“ig ata”专刊中,该专刊所发表的文章分别从互联网,数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战。2008年Scice杂志出版的 专刊中,大数据被定义为“代表着人类认知过程的进步,数据 集的规模是无法在可容忍的时间内用目前的技术、方法和理论 去获取、管理、处理的数据”2。比较有影响力的 Garter公司 也给出了大数据的定义3,大数据是高容量、高生成速率、种类繁多的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化。这种定义不仅是数据规模 大,更重要的是如何从这些动态快速生成的数据流或数据块中获取有用的具有时效

5、性价值的信息,但是这些数据类型众多, 结构化、半结构化、非结构化的数据对已有的数据处理模式带 来了巨大的挑战,其中也体现了大数据在 3V 基础上发展的4定义。4V定义即lume,vaiet,vecity,vale,关于第 4个的说法并不统一,国际数据公司( ntetialData Coroon, IDC)认为大数据还应当具有价值性( value) 4,大数据的价值 往往呈现出稀疏性的特点; 而 B 认为大数据必然具有真实 性(aity) 5,这样有利于建立一种信任机制,有利于领导者的决策。XX百科对大数据的定义是:大数据( bi data),或称 巨量资料,指的是所涉及的资料量规模巨大到无法透

6、过目前主 流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮 助企业经营决策更积极目的的资讯。大数据的科学家Rausr提到一个简单的定义: 大数据就是超过了任何一个计算机处理 能力的庞大数据量。大数据的研究与应用现状 虽然大数据的概念没有一个统一的定论,但这对于大数据 的研究而言并不是最重要的,如何使用大数据才是关键。研究 大数据其实也就是为了更好地应用大数据,所以国内外对大数据的研究与应用都相当重视。事实上,大数据的研究与应用已经在互联网、商业智能、咨询与服务以及医疗服务、零售业、金 融业、通信等行业显现,并产生了巨大的社会价值和产业空间。 来自麦肯锡 2012 年大数据报告中的一组数

7、据显示,大数据产 业为美国医疗系统带来每年300 亿美元的收益; 为欧洲公共 管理部门带来 2500 亿欧元的收益; 为零售业增加 60% 的净利 润; 为制造业减少 %的产品研发等成本。而 ner 认为, 201 年超过 85 的财富 500强企业将在大数据竞争中失去优势。据市场调研机构 IDC 预测,大数据技术与服务市场将 从 2010 年的 3 亿美元攀升到20年的 169 亿美元,实现40% 的年增长率( IT与通信产业增长率的 7 倍) 7。从上面的 统计数据很容易看出大数据的应用之广,价值之大。国外的大数据研究工作主要集中在如何进行大数据存储、 处理、分析以及管理的技术及软件应用上

8、。在学术界,atu早在 200 年就推出了“bi ata”专刊,从互联网技术、超级计算、生物医学等方面来专门探讨对大数据的研究。2012年 月,美国公布了旨在提高和改进人们从海量信息数据中获 取信息能力的“大数据研发计划”1。02 年 月欧洲信息学与数学研究协会会刊ECIM s出版专刊“big ta”,讨 论了大数据时代的数据管理、数据密集型研究的创新技术等问 题。012 年 7 月,日本推出“新 CT 战略研究计划”,其中重点 关注大数据应用,将大数据定位为战略领域之一。在具体的实 际应用方面,大数据也显现出了它的价值所在。谷歌公司通过对人们在网上检索的词条与疾病中心的数据进 行分析处理,有

9、效及时地判断出了流感的传播来源,为公共卫生机构提供了有价值的信息,这是来自 009年Scienc杂志 上发表的一篇论文。乔布斯通过大数据辅助癌症治疗,丹麦癌症协会通过大数据研究手机是否致癌等。美国最大的西奈山 医疗中心( Mount Sai eddil Center) 使用来自大数据创业 公司 Ayasdi 的技术分析大肠杆菌的全部基因序列,包括超过1万个 DNA 变体,来了解为什么菌株会对抗生素产生抗药 性。Aydi的技术使用了一种全新的数学研究方法拓扑 数据分析(toplogical dat analsis) 来了解数据的特征。医疗行业的大数据不仅量大,而且繁杂,其中蕴涵的信息价值也是 丰

10、富且多样。英特尔全球医疗解决方案架构师吴闻新等人也 预测了医疗行业数据的增长之快,特别是影像数据和 MR 电 子病历数据。英特尔协助用友医疗进行了合理的架构分析 和指导,对于基于大数据分析的解决方案进行了深入的探索和研究,并且制定了基于英特尔大数据解决方案的区域卫生数据 中心建设目标: 文档快速检索,存储模式满足数据模式的更新, 透明化扩展容量和性能。美国俄亥俄州运输部(OT)利用 INRI 的云计算分析处理大数据来了解和处理恶劣天气的道路状况,减少了冬季连环撞车发生的概率,方便了人们的出 行。在能源行业,SaS型软件公司 Ooe 使用数据分析提供 消费用电的能效。2012年 11月 日,美国

11、总统奥巴马成功 击败对手罗姆尼再次赢得美国总统,奥巴马总统获胜的秘 密通过大数据系统进行数据挖掘,用科学的方法指定策 略,它帮助奥巴马在获取有效选民、投放广告、募集资金等方面 起到了很大的作用。 与国外相比,国内大数据的研究和应用还处在起步阶段。2012 年 5月,香山科学会议组织了以“大数据科学与工程 一门新兴的交叉学科”为主题的会议,深入讨论了大数据的理 论与工程数据研究、应用方向,指出目前最重视的都是大数据 分析算法和大数据系统效率,通过研究大数据的关系网络整体而全面地研究大数据。同年 月,中国计算机学会青年计算机 科技论坛( CCF YOCSEF) 举办了“大数据时代,智谋未来”学术报

12、告会,就大数据时代的数据挖掘、体系架构理论、大数据安 全、大数据平台开发与大数据现实案例进行了全面的讨论。随着大数据时代的到来,油田勘探开发过程中也产生了规模巨 大、类型多样的数据。计算机集群上构建油田勘探开发一体化数据管理模型和数据访问基础架构,从而解决油 田实际应用中所面临的大数据问题,即交叉复用、信息可见、信息传承中构建的数据模型及其接口,专业分 析软件可以很容易地获得本研究区域齐、全、准的勘探开发信息,从而进行分析,部署勘探开发生产任务。以部署探井为例, 分析软件可以利用“大数据”接口非常方便地获得探井区域的地震剖面、测井曲线、层位、断层等信息。商务管理、大城市亟待解决的交通问题进行相

13、关的研究和实 验,应用实例表明,在营销策略的制定、智能化的交通管理方面 都得益于大数据的分析。 如果在国内能够搭建一个大数据共享平台,经过预处理, 抽取和集成的数据可通过相关的平台交换和共享,让大数据处 理更便捷、更快速、更贴近用户、更容易去实现或者去操作,那 么也就实现了数据的流通,数据才会更加有生命力,使用价值 也会增值。对大数据的处理和应用,其核心还是需要从业务层面进行科学规划。大数据的处理工具与技术 从大数据比较有影响力的概念和大数据的研究现状来看, 推动大数据发展的核心力量之一就是大数据的分析处理工具 和技术。因为传统的数据分析处理技术已经无法满足大数据 的需求,大数据的出现也必然伴

14、随着新的处理工具和新技术的出现。大数据的处理工具 大数据处理技术的不断更新也促使了大数据处理工具的出现。在大数据的处理平台中,大家最熟悉的莫过于 Aac 的 Hadoop 的块处理平台,Hadoo 主要是基于 educ编程框架和 D。HPCC ( high pefrmane comtig cluser)系统也是一种开源的分布式密集数据处理平台,主要有以下组件: Thor(HCC darefinryclustr) 主要是作为一个能够并行处理跨节点的分布式文件系统进行工作,主要负责大 量数据的接收、传输、连接和检索工作,对数据进行整合; b) Roxie( CC data deery nin) 提

15、供了大量的高性能的多用 户在线查询功能; ECL( enerprscotrol nguag ) 是一种适 合处理大数据的功能强大的编程语言;d)EL D 主要是与 CL 配合工作的,用来编码、调试、监控 EL的程序;) ESP ( enterprise serices paform) 提供了一个易用的访问EC 查询 接口,一般支持 SOA、XML、HTTP 和 ET 等。Hadap是一种高性能的自适应分析平台。由于目前的关系型数据管理系统不能满足海量数据处理的需求,所以需要将数据迁移到分布式数据库来实现大数据处理。大数据的处理技术从大数据的处理过程来看,大数据处理的关键技术包括: 大数据采集、

16、大数据预处理、大数据存储及管理、大数据分析及 挖掘、大数据展现和应用( 大数据检索、大数据可视化、大数据应用、大数据安全等) 。基于数据存储的大数据处理技术 在大数据处理技术方面,gle 起步比较早,自行开发了 FS,随着发展的需要又不断出现了第二代 GSColosus、 Bigable1和 Meastore18。在 Bable 和 Mastore的基础上诞生了ann1,其功能主要是源于一个用 GPS 和原子钟 实现的时间 A,这个 API 能将数据中心之间的时间同步精确 到10s 以内。基于 Sanne服务器,0年 6 月,ogle 研究院就推出被称为 F1( faullerant dist

17、ribud DBMS) 的新 型数据库。微软自行开发的分布式计算平台 Csmos20,能够存储和分析大规模数据集,其宗旨是能够在成千上万台服务器 集群上运行。Comos这个平台主要包括Cosmo 存储系统、 Cosmos 执行环境和一种高级脚本语言SCOP (structrd cmputatio pimized frpaale execuion)。作为社交网络的代表,FaceBook也在变革着自己原来的 存储技术。Facebok 推出了海量小文件的文件处理系统 Haystak,同时 Faeboo 还结合自己的应用场景提出了实时的 Hadoop 系统。为了改善 apeuce 的易用性,Fcebo

18、 提 出了基于 adoo 的大型数据仓库 ive,它的目标就是简化 Hadoop 上的数据聚集、A hoc 查询和大数据的分析等操作。基于查询的大数据处理技术 在大数据的处理过程中,数据分析是关键,数据分析主要是依赖于数据分析工具。一种新奇的大数 据分析方法危险理论( dager theory) ,这种危险理论是来 源于生物免疫系统,但又不同于传统的人工免疫系统。在关键特征和属性的选择上引入危险理论,主要是被用做数据过滤策 略,可提高数据分析的效率。在危险理论中关注的是潜在危险,捕捉危险信号,用数值微分法判断危险信号。这个处理模 型与之前的编程处理模型相比具有自学习能力和智能性,它在数据的预处

19、理阶段有明显的效果,更适合于快速的数据过滤。大数据的研究与发展方向尽管大数据的时代已经到来,各界也发现了大数据的巨大 价值,但是大数据的研究还处在初始阶段。随着研究的不断深 入,大数据所面临的问题也越来越多,如何让大数据朝着有利 于全社会的方向发展就需要全面地研究大数据,以下是几种可能的大数据未来的研究与发展方向。关系数据库和非关系数据库的融合众所周知,关系数据库系统在数据分析中占据着主要地位,但是随着后来半结构化和非结构化数据的大量涌现,关系 数据库系统就无所适从了。而类似于 MapReduce 的大数据处理工具在容错性、可扩展性、数据的移动性上明显优于关系数 据库系统,但在处理数据的实时性

20、能上,MaReduce 与 DB相比还有一定的差距。关系数据库和非关系数据库各有所长, 如果在以后的大数据的研究处理过程中,能将关系数据库系统 和分布式并行处理系统进行有效的结合,而不是将二者明显地区分开来,那么大数据的分析效率将在很大程度上得到提高。数据的不确定性与数据质量大数据,顾名思义是数据量非常大,如何从这些庞大的数据量中提取到尽可能多的有用信息就涉及到数据质量的问题。 在网络环境下,不确定性的数据广泛存在,并且表现形式多样, 这样大数据在演化的过程中也伴随着不确定性。网络大数据的不确定性,其实大数据的不确定性不仅仅适 用于网络大数据,对一般大数据而言也存在这种不确定性。大 数据的不确

21、定性要求人们在处理数据时也要应对这种不确定性,包括数据的收集、存储、建模、分析都需要新的方法来应对。这样也给学习者和研究者带来了很大的挑战,数据质量就很难 得到保证,况且大数据的研究领域尚浅,本身就有很多亟待解 决的问题。面对不断快速产生的数据,在数据分析的过程中很 难保证有效的数据不丢失,而这种有效的数据才是大数据的价 值所在,也是数据质量的体现。所以需要研究出一种新的计算 模式,一种高效的计算模型和方法,这样数据的质量和数据的时效性才能有所保证。中几位从事大数据研究的专 家也强调了数据质量的重要性,中国工程院院士、西安交通大学教授汪应洛认为,在大数据产业发展中,数据质量也是一大 障碍,不容

22、忽视,他说“数据质量是大数据产业这座大厦的基础,如果数据质量不高,基础不牢靠,大数据产业就可能岌岌可 危,甚至根本无从发展。”所以处理好大数据的不确定性、提高 数据质量是大数据研究中的重中之重。 跨领域的数据处理方法的可移植性 大数据自身的特点决定了大数据处理方法的多样性、灵活性和广泛性。而今几乎每个领域都有涉及到大数据,在分析处理大数据的建模过程中除了要考虑大数据的特点外还可以结 合其他领域的一些原理模型,生物免疫系统的计算模型去处理大数据中的关键属性的选择。 还有统计学中的统计分析模型,特别是对原始数据的统计和计 量,音频、视频、照片等重要信息。广泛吸纳其他研究领域的原 理模型,然后进行有

23、效的结合,从而提高大数据处理的效率,这 可能会成为以后大数据分析处理的重要方法。 大数据的预测性作用日益凸显 提及大数据,它的作用自然是不言而喻,也有不少专家进行了总结,大数据有变革价值的力量、大数据有变革经济的潜 力、大数据有变革组织的潜能。但是从很多大数据的应用案例 分析不难发现,无论是大数据的研究者还是普通人,大数据给 人们带来的最直接的利益就是对未来的预见。气象部门可以 根据气象数据预测未来的天气变化;经销商可根据商品的销量分析客户的喜好从而制定未来的采购计划及时调整经营模式, 增加利润; 通信部门通过对大数据的分析实时了解市场行情, 从而作出合理决策。由已知推测未知,通过大数据可以提

24、高对未 知预测的可靠性和精准性,这对整个人类来说都是一种进步。大数据已经涉及到生活的各个领域,对于大数据的研究涉 及的领域也很广。与人们直接利益相关的大数据的能耗、安全、隐私保护等都受到了很多企业和个人的关注,还有更多未 知的领域也不例外。本文主要是在对大数据处理工具和处理 技术对比分析的基础上给出了大数据未来几个可能的研究和 发展方向: 关系数据库和非关系数据库的融合、数据的不确定 性和数据质量、跨领域的数据处理方法的可移植性、大数据的预测性作用日益凸显。大数据的发展尚在起步阶段,需要人们 不断开拓的空间很大,如何高效地处理大数据、合理地利用大 数据仍需要不断地探索发现。参考文献: 1 李国

25、杰,程学旗.大数据研究: 未来科技及经济社会发展的重大战 略领域大数据的研究现状与科学思考J 中国科学院院刊,2012,27( 6) : 647-67 2 GAHAM-ROWE D,OLDSTOND,DOCTROC,etl. Big dta: cien i teetbter. Naue,28,55( 720) : 89 3JI Chag-qng, Y,QU Wen-in,e Bigat processing in coudompuing evironmetsC/ /Proc of the 2th nenaional yposium onPerasveSystems,Agoritms ad Networks 201:172.4BRWKH. he“for Vs”f bgtaE /O. (01100) 20-1-2tt: / /ww. oputerworld com au/tcle39698 / ii3_four_v_bg_dat/ I. ht sb data? B OL012-10-02. ht: /ww 1 bm. c / ofwae / ta bigata ha-sbg-dat html6 顾芳,刘旭峰,左超 大数据背景下运营商移动互联网发展策略研 究. 邮电设计技术

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2