大数据信息检索论文.docx

上传人:b****3 文档编号:11118318 上传时间:2023-05-29 格式:DOCX 页数:12 大小:27.38KB
下载 相关 举报
大数据信息检索论文.docx_第1页
第1页 / 共12页
大数据信息检索论文.docx_第2页
第2页 / 共12页
大数据信息检索论文.docx_第3页
第3页 / 共12页
大数据信息检索论文.docx_第4页
第4页 / 共12页
大数据信息检索论文.docx_第5页
第5页 / 共12页
大数据信息检索论文.docx_第6页
第6页 / 共12页
大数据信息检索论文.docx_第7页
第7页 / 共12页
大数据信息检索论文.docx_第8页
第8页 / 共12页
大数据信息检索论文.docx_第9页
第9页 / 共12页
大数据信息检索论文.docx_第10页
第10页 / 共12页
大数据信息检索论文.docx_第11页
第11页 / 共12页
大数据信息检索论文.docx_第12页
第12页 / 共12页
亲,该文档总共12页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

大数据信息检索论文.docx

《大数据信息检索论文.docx》由会员分享,可在线阅读,更多相关《大数据信息检索论文.docx(12页珍藏版)》请在冰点文库上搜索。

大数据信息检索论文.docx

大数据信息检索论文

 

大数据

的概念、技术与挑战

 

学院:

计算机与电子信息学院

专业名称:

计算机科学与技术

学号:

姓名:

指导教师:

时间:

2013年11月

 

大数据的概念、技术与挑战

XXX

(广西大学计算机与电子信息学院,广西南宁530004)

【摘要】计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来.数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据已经成为普遍关注的话题.大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生.对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比.在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析.最后归纳总结大数据时代所面临的新挑战.

【Abstract】Datatypeandamountinhumansocietyisgrowinginamazingspeedwhichiscausedbyemergingnewservicessuchascloudcomputing,internetofthingsandsocialnetwork,theeraofbigdatahascome.Datahasbeenfundamentalresourcefromsimpledealingobject,andhowtomanageandutilizebigdatabetterhasattractedmuchattention.Evolutionorrevolutionondatabaseresearchforbigdataisaproblem.Thispaperdiscussestheconceptofbigdata,andsurveysitsstateoftheart.Theframeworkofbigdataisdescribedandkeytechniquesarestudied.Finallysomenewchallengesinthefuturearesummarized.

【关键词】大数据,技术,挑战,数据分析,云计算

【keywords】bigdata;technology;Challenge;dataanalysis;cloudcomputing

近年来,伴随着物联网、云计算、移动互联网等新技术的迅猛发展,数据正以前所未有的速度不断增长和积累,大数据时代已经到来,这引起了产业界学术界科技界和政府机构的广泛关注。

大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度炒作的危险.大数据的基本概念、关键技术以及对其利用上均存在很多的疑问和争议【1】。

一、大数据的基本概念及大数据时代产生的必然

早在1980年,美国著名未来学家阿尔温托夫勒(AlvinToffler)在第三次浪潮一书中就提出了大数据(BigData)的概念,并将其赞颂为第三次浪潮的华彩乐章[2]著名的数据库专家图灵奖获得者吉姆格雷(JimGray)认为传统的实验理论和计算机3大范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,于是,其在2007年提出当前科学研究已发展到了第4种范式(TheFourthParadigm)[3],即以大数据为代表的数据密集型科学近几年,一些国际顶级学术刊物也相继出版专刊对大数据进行探讨研究2008年9月,Nature推出了BigData专刊[4],从互联网技术环境科学生物医药等多个方面介绍了海量数据带来的挑战2011年2月,Science出版关于数据处理的专刊Dealingwithdata[5],讨论了数据洪流(DataDeluge)所带来的挑战,并阐明了大数据对于科学研究的重要性2012年4月,欧洲信息学与数学研究协会会刊ERCIMNews出版专刊BigData[6],讨论了有关大数据时代的数据管理数据密集型研究的创新技术等问题,并介绍了欧洲科研机构开展的研究活动和进展情况最早提出大数据时代已经到来的是全球知名咨询公司麦肯锡,其下属机构全球研究所(MckinseyGlobalInstitute)于2011年6月份发布的一份专门的研究报告,将大数据视为全世界下一个创新竞争和生产力提高的前沿领域[7],并指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来著名的市场调研机构IDC(InternationalDataCorporation,国际数据公司)在同年的报告中指出,全球数据总量在2011年已达到1.8ZB(1ZB=240GB),而这个数据大约以每两年翻一番的速度增长,预计至2020年全球拥有的数据量将达35ZB[8]。

《华尔街日报》更是将大数据时代智能化生产和无线网络革命称为引领未来繁荣的三大技术变革此外,Gartner、埃森哲、普华永道等咨询公司,以及财富周刊福布斯纽约时报等商业管理刊物也对大数据进行了大量的介绍与研究纵观国际形势,对大数据的研究与应用已引起各国政府部门的高度重视,成为重要的战略布局方向.各国陆续出台有关大数据的国家政策和战略2012年3月,美国奥巴马政府宣布将投资2亿美元用于启动大数据研发倡议(BigDataResearchandDevelopmentInitiative)[9],旨在提高从海量和复杂的数据中分析萃取信息的能力,这是继1993年美国宣布信息高速公路计划后的又一次重大科技发展部署继美国率先开启大数据国家战略先河之后,其他各国也随后跟进,已经或者即将出台相应的战略举措日本政府重新启动2011年日本大地震后一度搁置的政府ICT战略研究,于2012年7月推出新的综合战略活力ICT日本,重点关注大数据应用所需的云计算传感器社会化媒体等智能技术开发2013年1月,英国政府宣布将注资6亿英镑,发展大数据合成生物等8类高新技术,其中信息行业新兴的大数据技术将获得1.89亿英镑,占据总投资的近三分之一澳大利亚政府在同年3月表示,澳联邦政府大数据战略草案有望在5月份出台,预计会在67月间正式颁布一些区域性或全球性组织也对大数据予以高度关注在过去几年,欧盟已对科学数据信息化基础设施投资1亿多欧元,并将数据信息化基础设施作为Horizon2020计划的优先领域之一[6]2012年初,世界经济论坛一份题为大数据,大影响(BigData,BigImpact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样联合国也推出了全球脉动(GlobalPulse)[10]倡议项目,希望利用大数据来促进全球经济发展。

尽管各界各地区各机构对大数据广泛关注,进行了大量研究,但目前对于大数据尚未形成公认的定义信息管理专家涂子沛在大数据:

正在到来的数据革命中这样定义大数据:

指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉存储管理和分析的数据,[11]一般以太字节(TB)为单位这一定义基本上简单明了地阐述了大数据的内涵。

数据是云计算技术的延伸,更是社会进步和发展的必然结果,大数据时代的到来引领了未来IT技术发展的战略走向。

在信息和网络技术飞速发展的今天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,数据量也随之快速增长【12】。

同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂贵的大规模数据存储和处理变得十分经济【13】,也使得大数据的存在成为可能。

传感器数据也是大数据的主要来源之一。

在物联网时代,成万上亿计的网络传感器嵌入在数量不断增长的智能电表、移动电话、汽车等物理设备中,不断感知、生成并传输超大规模的有关地理位置、振动、温度、湿度等新型数据。

此外,移动互联网、三网融合、Web2.0技术和电子商务技术的飞速发展,也促进了大数据时代的产生和发展。

可以发现,数字化已经成为社会发展的必然趋势。

与生产过程必须依赖硬件设备和人力资本一样,企业的业务活动、创新、成长也越来越离不开大量数据的支持【14】。

也就是说,企业的任何一项业务活动都与大量的数据紧密相联,而我们每一个人都是数据的产生者,数据量与日俱增,数据结构繁杂多变,数据产生速度非常之快,我们已经进入了大数据的时代【15】。

二、大数据的特点及关键技术分析

1.大数据的特点

大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点大数据具有以下4个特点,即4个V[16]:

(1)数据体量(Volumes)巨大大型数据集,从TB级别,跃升到PB级别;

(2)数据类别(Variety)繁多数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;

(3)价值(Value)密度低以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟;

(4)处理速度(Velocity)快包含大量在线或实时数据分析处理的需求,1秒定律。

随着互联网技术的不断发展,数据本身就是资产云计算为数据资产提供了保管访问的场所和渠道,但如何盘活数据资产,使其为国家治理企业决策乃至个人生活服务,是大数据的核心议题,也是云计算的灵魂和必然的升级方向。

大数据已经出现IDC多年的研究结果告诉我们:

全球数据量大约每两年翻一番,每年产生的数据量按指数增长,数据增速基本符合摩尔定律全球有46亿移动电话用户,有20亿人访问互联网,人们以比以往任何时候都高得多的热情在与数据或信息交互思科公司预计,到2013年,在互联网上流动的数据量将达到每年667艾字节[17]。

2.关键技术

2.1云计算;大数据的基础平台与支撑技术

如果将各种大数据的应用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算.正是云计算技术在数据存储、管理与分析等方面的支撑,才使得大数据有用武之地.文件系统是支撑上层应用的基础。

原始的数据存储在文件系统之中,但是用户习惯通过数据库系统来存取文件.因为这样会屏蔽掉底层的细节,且方便数据管理.直接采用关系模型的分布式数据库并不能适应大数据时代的数据存储。

据查询是数据库最重要的应用之一,而索引则是解决数据查询问题的有效方案。

而数据分析技术是最核心的业务【18】。

2.2大数据处理工具

关系数据库在很长的时间里成为数据管理的最佳选择,但是在大数据时代,数据管理、分析等的需求多样化使得关系数据库在很多场景不再适用.而HadOop是目前最为流行的大数据处理平台.而Hadoop【19】最先是DougCutting模仿GFS,MapReduce实现的一个云计算开源平台,后贡献给Apache.Hadoop已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块在内的完整生态系统(Ecosystem)【20】.某种程度上可以说Hadoop已经成为大数据处理工具事实上的标准【21】.

三、大数据时代面临的机遇与挑战

综上所述,大数据时代的数据存在着如下几个特点:

多源异构;分布广泛;动态增长;先有数据后有模式.正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临着新的机遇与挑战。

(一)大数据带来的机遇【22】

1.大数据的挖掘和应用成为核心,将从多个方面创造价值。

大数据的重心将从存储和传输,过渡到数据的挖掘和应用,这将深刻影响企业的商业模式据麦肯锡测算,大数据的应用每年潜在可为美国医疗健康业和欧洲政府分别节省3000亿美元和1000亿欧元,利用个人位置信息潜在可创造出6000亿美元价值,因此大数据应用具有远超万亿美元的大市场。

【23】

2.大数据利用中安全更加重要,为信息安全带来发展契机。

随着移动互联网物联网等新兴IT技术逐渐步入主流,大数据使得数据价值极大提高,无处不在的数据,对信息安全提出了更高要求同时,大数据领域出现的许多新兴技术与产品将为安全分析提供新的可能性;信息安全和云计算贯穿于大数据产业链的各个环节,云安全等关键技术将更安全地保护数据大数据对信息安全的要求和促进将推动信息安全产业的大发展。

3.大数据时代来临,使商业智能信息安全和云计算具有更大潜力。

大数据产业链按产品形态分为硬件基础软件和应用软件三大领域,商业智能信息安全和云计算主题横跨三大领域,将构成产业链中快速发展的三驾马车就国内而言,商业智能市场已步入成长期,预计未来3年复合年均增长率(CAGR)为35%,十二五期间潜在产值将超300亿元;信息安全预计未来3年CAGR有望保持35%~40%的快速增长,十二五期间潜在产值将超4000亿元;云计算刚进入成长期,预计未来5年CAGR将超50%,2015年产业规模预计将达1万亿元。

【24】

(二)面临的挑战

1.大数据集成

数据的广泛存在性使得数据越来越多地散布于不同的数据管理系统中,为了便于进行数据分析需要进行数据的集成.数据集成看起来并不是一个新的问题,但是大数据时代的数据集成却有了新的需求,因此也面临着新的挑战.

1)广泛的异构性.传统的数据集成中也会面对数据异构的问题,但是在大数据时代这种异构性出现了新的变化,大量出现的各种数据本身是非结构化的或弱结构化的,如留言、博客、图像、视频数据等,如何将这些数据转化成一个结构化的格式是研究者面临的一项重大挑战【25】.

2)数据质量.数据量大不一定就代表信息量或者数据价值的增大,相反很多时候意味着信息垃圾的泛滥.

2.大数据分析

大数据最为严重的风险存在于数据分析层面。

数据量的增大会带来规律的丧失和严重失真。

【26】传统意义上的数据分析主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系.首先利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(onlineanalyticalprocessing,OI。

AP),可以进行多个维度的下钻(drill一down)或上卷(roll—up)操作.对于从数据中提炼更深层次的知识的需求促使数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法.这一整套处理流程在处理相对较少的结构化数据时极为高效.但是随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。

据阿里巴巴称,虽然其各类业务产生的数据为数据分析创造了非常好的基础条件,然而却招聘不到合适的数据科学家而影响了研发进展【27】。

3.大数据的隐私问题

隐私问题由来已久,这基本也是大家最关心的问题。

计算机的出现使得越来越多的数据以数字化的形式存储在电脑中,互联网的发展则使数据更加容易产生和传播,数据隐私问题越来越严重.

大数据高度依赖数据存储与共享,必须考虑寻求更好的方法消除各种隐患与漏洞,才能有效地管控安全风险。

数据的隐私保护是大数据分析和处理面临的重要问题,既是技术问题也是社会学问题。

如果对私人数据使用不当,尤其是泄漏有一定关联的多组数据,将导致用户的隐私泄漏【28】。

当前,数据安全形势不容乐观,需要保护的数据量增长已超过了数据总量的增长据IDC统计【29】:

2010年仅有不到1/3的数据需要保护,到2020年这一比例将超过2/5;2012年的统计显示,虽然有35%的信息需要保护,但实际得到保护的不到20%在亚洲南美等新兴市场,数据保护的缺失更加严重首先个人隐私更容易通过网络泄露,随着电子商务社交网络的兴起,人们通过网络联系的日益紧密,将个人的相关数据足迹聚集起来分析,可以很容易获取个人的相关信息,隐私数据就可能暴露,而数据在网络上的发布机制使得这种暴露似乎防不胜防;在国家层面,大数据可能给国家安全带来隐患,如果在大数据处理方面落后,就可能导致数据的单向透明。

信息安全战略是国家战略不可分割的重要组成部分,其必要性体现在其从上而下,而非从下而上的推动作用。

【30】美国发布大数据研发计划,大力发展大大数据技术就有增强国家安全方面的战略考量.

4.大数据能耗问题

在能源价格上涨、数据中心存储规模不断扩大的今天,高能耗已逐渐成为制约大数据快速发展的一个主要瓶颈.从小型集群到大规模数据中心都面临着降低能耗的问题,但是尚未引起足够多的重视,相关的研究成果也较少.在大数据管理系统中,能耗主要由两大部分组成:

硬件能耗和软件能耗,二者之中又以硬件能耗为主.理想状态下,整个大数据管理系统的能耗应该和系统利用率成正比.但是实际情况并不像预期情况,系统利用率为0时仍然有能量消耗【31】。

5.大数据处理与硬件的协同

硬件的快速升级换代有力地促进了大数据的发展,但是这也在一定程度上造成了大量不同架构硬件共存的局面.大数据处理必须要有舍才有得。

可以通过舍弃一些不必要的性能和精确性来获取更为重要的性能和精确性。

【32】.

6.大数据管理易用性问题

从数据集成到数据分析,直到最后的数据解释,易用性应当贯穿整个大数据的流程.易用性的挑战突出体现在两个方面:

首先大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化.其复杂程度已经远远超出传统的关系数据库.其次大数据已经广泛渗透到人们生活的各个方面,很多行业都开始有了大数据分析的需求.但是这些行业的绝大部分从业者都不是数据分析的专家,在复杂的大数据工具面前,他们只是初级的使用者(naIveusers).复杂的分析过程和难以理解的分析结果限制了他们从大数据中获取知识的能力.这两个原因导致易用性成为大数据时代软件工具设计的一个巨大挑战.关于大数据易用性的研究仍处于一个起步阶段.从设计学的角度来看易用性表现为易见(easytodiscover)、易学(easytolearn)和易用(easytouse)。

7.性能测试基准

数据库产品的成功离不开以TPC系列为代表的测试基准的产生.正是有了这些测试基准,才能够准确地衡量不同数据库产品的性能,并对其存在的问题进行改进。

在过去20年里,产业基准起到了很大的作用。

在制定行业的标准时,性能、持有成本和能源效率是成功的三大关键。

产业界标准的基准都扮演了非常重要的作用,进一步推动了计算机产业科学的发展【33】。

四、结果和结论关系

像互联网、云计算以及物联网等技术一样,大数据时代的到来势必会再次让信息技术领域焕然一新。

大数据时代下,每个个体都是数据的产生者,企业的任何一项业务活动都可以用数据来表示,如何保证大数据的质量,如何建模、提取并利用隐藏在大数据中的信息以提升企业信息系统绩效、提升企业决策能力,成为摆在业界和学术界面前的重大难题。

总的来说,目前对于大数据的研究仍处于一个非常初步的阶段,还有很多基础性的问题有待解决.大数据的几个特征中究竟哪个最重要?

面对大数据管理我们需要的是简单的技术上的演变(evo1ution)还是彻底的变革(revoIution)?

不同学科的研究者之间怎样协作才能更有利于大数据问题的解决?

诸如此类的问题还有许多,要解决大数据问题仍有很长的路要走。

感谢:

XXX老师给予的的指导和提供的课件,以及所参考的文献的所有作者。

【参考文献】

[1]孟小峰,慈祥:

大数据管理:

概念、技术与挑战。

计算机研究与发展[146-169,2013]

[2]阿尔温托夫勒.第三次浪潮[M].北京:

三联书店出版社,1984.

[3]JimGray.OneScienceAtransformedscientificmethod[C]//TonyH,StewartT,KirstinT.Thefourthparadigm:

Data-intensivescientificdiscovery.Redmond,WA:

MicrosoftResearch,2009:

19-33.

[4]Nature.BigData[EB/OL].data/index.html.

[5]Science.Specialonlinecollection:

Dealingwithdata[EB/OL].http:

//www.sciencemag.org/site/special/data/,2011.

[6]李国杰,程学旗.大数据研究:

未来科技及经济社会发展的重大战略领域大数据的研究现状与科学思考[J].战略与决策研究,2012,27(6):

648,649.

[7]BigData:

Thenextfrontierforinnovation,competitionandproductivity,MckinseyGlobalInstitute,2011.

[8]The2011DigitalUniverseStudy:

ExtractingValuefromChaos.InternationalDataCorporationandEMC,June2011.

[9]BigDataacrosstheFederalGovernment[EB/OL].http:

//www.Whitehouse.gov/sites/default/files/microsites/ostp/bigdatafactsheetfinal1.pdf.

[10]UNGlobalPulse.BigDataforDevelopment:

Challenges&Opportunities[R/OL].http:

//www.unglobalpulse.org/projects/BigDataforDevelopment.

[11]涂子沛.大数据:

正在到来的数据革命[M].桂林:

广西师范大学出版社,2012:

5755.

[12]覃雄派,王会举,杜小勇,等。

大数据分析—RDBMS与Mapreduse的竞争共性【J】。

软件学报,2012,23

(1),32-45.

[13]郭秦川:

官方统计与大数据对比分析。

1004—7794(2013)08—0050-6

[14]涂子沛,大数据(M),广州:

广州师范大学出版社。

[15]朱志军,闰蕾,等.大数据——大价值、大机遇、大变革[M】.电子工业出版社,2012.

[16]大数据分析技术的发展[EB/OL].2012-05-16.http:

//tech.ccidnet.com/art/32963/20120516/3859799_1.html.

[17]郭晓科.大数据【M】.北京:

清华大学出版社.

[18]孟小峰,慈祥:

大数据管理:

概念、技术与挑战。

计算机研究与发展[146-169,2013]

[19]Hadoop[EB/()I。

].[2012—10—02].http:

//hadoop.apache.Org/index.html

[20]陈明:

大数据问题。

计算机教育,第5期[2013年3月10日]

[21]魏斐翡:

ECLHadoop:

基于Hadoop的有效电子商务物流大数据处理策略.计算机工程与科学。

第35卷第10期[2013年10月]。

[22]严霄凤,张德馨:

大数据研究。

计算机技术与发展,第23卷第4期【2013年4月】

[23]中信证券:

计算机行业大数据(BigData)专题研究报告:

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 初中教育 > 政史地

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2