大数据时代电子商务的挑战与机遇研究毕业设计论文.docx

上传人:b****6 文档编号:16668478 上传时间:2023-07-16 格式:DOCX 页数:40 大小:125.35KB
下载 相关 举报
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第1页
第1页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第2页
第2页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第3页
第3页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第4页
第4页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第5页
第5页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第6页
第6页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第7页
第7页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第8页
第8页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第9页
第9页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第10页
第10页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第11页
第11页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第12页
第12页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第13页
第13页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第14页
第14页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第15页
第15页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第16页
第16页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第17页
第17页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第18页
第18页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第19页
第19页 / 共40页
大数据时代电子商务的挑战与机遇研究毕业设计论文.docx_第20页
第20页 / 共40页
亲,该文档总共40页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

大数据时代电子商务的挑战与机遇研究毕业设计论文.docx

《大数据时代电子商务的挑战与机遇研究毕业设计论文.docx》由会员分享,可在线阅读,更多相关《大数据时代电子商务的挑战与机遇研究毕业设计论文.docx(40页珍藏版)》请在冰点文库上搜索。

大数据时代电子商务的挑战与机遇研究毕业设计论文.docx

大数据时代电子商务的挑战与机遇研究毕业设计论文

 

毕业设计论文

 

大数据时代电子商务的挑战与机遇研究

第1章绪论

1.1选题背景与意义

根据IDC机构的定义,“大数据”是指为了更经济、更有效地从高频率、大容量、不同结构类型的数据中获取有价值的信息而设计的新一代架构技术,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展创新。

十年之前,电影《天下无贼》中的经典对白“21世纪什么最贵?

人才”被人们争相传颂;十年之后,这个问题的答案与时俱进地变为当前市场热点——数据!

当然,此数据已非传统意义的数据,而是海量、爆发式增长的“大数据”。

作为继云计算、物联网之后IT产业的又一次颠覆性技术浪潮,大数据被人们视为智慧城市的源泉、精准营销的根基,其与传统BI究竟有何区别?

未来企业应该如何挖掘海量数据背后的潜在价值?

自2009年以来,从IBM、甲骨文到谷歌、亚马逊、Facebook,从IDC、Gartner到麦肯锡、普华永道、埃森哲,从《纽约时报》到《福布斯》、《财富》周刊,从《科学》、《自然》杂志到MIT《斯隆管理评论》——产业巨头的实践探索、连篇累牍的新闻报道,令“大数据”概念深入人心。

顾名思义,“大数据”的精髓在于“大”,其不仅说明数据的数量庞大,还意味着数据种类繁多、结构复杂,变化速度飞快。

大数据呈现三种特性:

Volume(极多的数据量)、Velocity(极快的处理速度)、Variety(极繁的数据种类)。

Volume指的是数据量庞大。

如今有许多企业已面临单日数据量以数十、数百TB(万亿字节,1TB=1024GB)的速度增加,而近几年累加的总数据量也达到了PB(1000个TB)甚至EB(一百万个TB)等级,这样的数据量令传统的数据库不堪重负。

Velocity指企业数据增加的速度越来越快。

诸如移动“大数据”成就“智慧营销”产业聚焦EstateFocus、社交网络的广泛应用,使得数据增加的速度比传统的应用程式快了很多,而在数据迅猛增生的背后,处理、分析的能力和速度必须紧跟其后加以完善。

Variety则是指数据的多样性、复杂性。

一方面,互联网在产生文字资讯的同时,也不断产出与以往不同的数据:

照片、视频、微博等;另一方面,IT遍及工作生活的每个角落,各种各样的传感器、监控器也不断产生新的数据,各种机器资讯数据的形式日趋复杂多样,从结构化数据到非结构化数据不断转化,催生了对大数据技术的强烈需求。

当前,从搜索引擎、社交网络的普及,到“人手一机”的智能移动终端应用,全球互联网上的信息总量正以每年30%~50%的增速不断爆涨。

人们每天在Facebook分享几亿条内容,在Twitter转发15TB信息,在淘宝浏览十亿条店铺、商品,创造上亿的成交、收藏纪录及3000多万条传感器资讯⋯⋯IDC发布的数字宇宙研究报告显示,2011年全球创造的信息数量达到1800EB,如果把这些数据刻录到CD碟片中,这些碟片可环绕地球30圈。

而目前这个数字还在以每年50%的速度增长,到2020年,全球每年产生的数字信息将达到40ZB(1ZB=1024EB),估计是地球上所有沙粒数量的57倍。

“在大数据时代,信息将呈爆发式增长,而数据价值密度非常低,找到有价值的数据如同大海捞针,通过怎样的产品平台和方式提炼数据价值,是关乎公共事业发展和企业生存的大计,值得大家从战略角度去思索⋯⋯”在2012年XX世界营销分论坛上,XX商业产品与技术执行总监郑子斌关于“大数据”时代的见解,赢得了产业界的广泛认同。

1.2电子商务的发展现状

随着电子商务的发展,企业开始应用“虚拟购物”手段在众多购物场所开展逼近现实的市场研究,以期借助电脑系统在信息处理方面的优势,用灵活、科学的方法去观察和分析消费行为,加速市场研究过程。

根据哈佛商学院研究人员对多种产品销售的分析。

“虚拟购物”能获得较为可靠、准确的市场信息,其记录数据与实际购物数据之间的相关系数大多在90%以上。

由此看来,“虚拟购物”能够克服传统市场研究手段的缺点,对企业营销大有裨益。

但电子商务对营销的影响并不局限在市场研究的范围内。

互联网是一个国际性的开放系统,企业一旦涉足其中,就要面对世界各国的潜在顾客即访问者,于是自觉或不觉地成为进行国际营销的国际性企业。

这就促使企业特别是以往针对本地市场的中小企业去考虑更为复杂的营销战略问题。

根据目前对“在线购物”所进行的研究,企业与顾客在互联网上的交易一般是起源于顾客对企业或产品、服务的寻找,即对互联网上相关企业或产品、服务信息的浏览或访问。

这与以往市场交易的起始方向似正相反,从而带来营销及相应经营规则的重大改变:

其一,根据顾客的访问信息,企业可以更明确地界定潜在市场。

营销的重点,是最大限度地令访问者成为消费者,该项工作也可望因企业在互联网上对多媒体展示内容的巧妙运用而达到很高的成功率;其二,在顾客对企业的访问过程中,双方在互联网上必然产生交互作用,企业因此及时获得顾客对其产品、服务的信息反馈。

当这些信息被输入先进的生产经营系统时,就可以用批量处理的效率去提供满足不同顾客需求的产品、服务,实现比批量生产更胜一筹的批量个人化。

从一定意义上讲,电子商务的国际化发展,预示着未来企业经营革命的方向。

电子商务也对企业管理产生影响。

在企业内部管理方面,管理人员以往注重对企业施加充分的控制以完成效率目标。

组织结构的设立和办公、生产经营场所的界定,使管理者得以结合等级制进行现场管理控制,控制的主要对象之一,是可以观测到的员工行为。

此时企业的经营效率将更多地取决于组织内部的合作沟通情况,而合作沟通又与组织成员之间的信任程度密切相关。

类似的情况也出现在企业间及企业外部管理方面。

由于外联网的出现,多个企业得以共享国际化、专业化程度高、灵活性强、反应速度快等好处。

但是在外联网这种松散的“虚拟”联盟体系中,一个企业很难对其伙伴企业施加那些在合资合作企业和一般战略联盟中行之有效的控制手段,整个外联网运作的成败主要取决于各成员企业之间的相互信任和沟通。

然而对于在电子商务方面起步较晚的发展中国家如中国及其企业来说,这一机遇同时也是严峻的挑战。

实际上,发达国家的企业在应用电子商务以后,经营过程的资源处理活动相对减少,信息处理活动相对增加;能源应用相对减少,知识应用相对增加。

这种向信息、知识密集型经营转换的直接结果,是越来越多的行业出现了类似于“马太效应”的报酬递增竟争机制。

从这个角度看,电子商务有可能像过去二三百年间对发端于西方国家的许多重大技术进步的应用那样,在推动人类物质文明进步的同时,也导致发达国家与发展中国家之间在经济发展和企业经营等方面差距的进一步扩大。

1.3.1电子商务的PC互联时代

电子商务的起源可以追溯到互联网(Internet)和电子数据交换的出现。

前者为电子商务的推广应用奠定了基础;后者是电子商务的初始应用方式,至今仍是电子商务的重要组成部分。

60年代末期,美国国防部高级项目管理处建立了联接美国各大学与国防工业合同商之间的电脑网络ARPANE,继而开发了该网络的标准通讯协议TCP/IP。

至80年代中期,美国国家科学基金会利用ARPANET的模式形成了自己的电脑网络NSFNE,并逐渐与ARpANET合并。

与此同时,诸如Usenet、llTNET,经由各自的电脑系统以共用的交易标准进行商业信息的交换,这就是电子数据交换。

70年代中期,美国运输行业制定了Tl)cc交易标准,率先应用这一先进的商务手段。

其后美国国家标准局在Tl)CC的基础上制定了ANslX12交易标准,并负责对增值网的合格认证工作,促进了电子数据交换在多个产业部门的应用。

近年来,电子数据交换的管道进一步从私人线路和增值网扩展到互联网上。

用户急剧增多。

据估计,目前全美使用电子数据交换的企业已经超过5万家,到2000年时将达20万家左右,其应用前景由此可见一斑。

1993年9月,美国克林顿政府发布规划信息高速公路的行动纲领,将电子商务、远程教学、电子医疗列为三大信息支柱项目,一系列旨在加速信息高速公路建设的公共政策也相继出台,这对推广电子商务的应用有很大的帮助。

与此同时,www服务器及相关技术的出现,为企业提供了在互联网上传输内容丰富、栩栩如生的多媒体信息的手段,从而得以在网络上开展内外部经营管理活动,如生产经营管理、人力资源管理、财务管理、营销、咨询服务等。

企业界和一般消费者对新一代基于互联网信息技术的逐步接受,也成为电子商务应用的另一种不容忽视的推动力。

目前电子商务的内容已经十分广泛,覆盖企业经营的许多个方面。

电子商务的一般框架可图示如下:

图1电子商务的概念框架

1.3.2电子商务的移动互联时代

移动互联网是一个全国性的、以宽带IP为技术核心的,可同时提供语音、传真、数据、图像、多媒体等高品质电信服务的新一代开放的电信基础网络。

简单地说,移动互联网能让用户在移动中通过移动设备(如手机、iPod等移动终端)随时、随地访问Internet、获取信息,进行商务、娱乐等各种网络服务。

终端、网络与应用是移动互联网的3个要素。

正是由于中国3G网络的投入运营,iPhone、Android等智能手机终端以及应用平台的出现,才使得移动互联网得以如此迅猛地发展。

中国目前约有8.4亿的手机用户、3.02亿的手机网民,新兴且前景光明的移动互联网成为众企业垂涎的蛋糕。

诸如新浪微博、街旁、米聊等,甚至是开心网、优酷也都纷纷推出自己的手机客户端。

中国社会化媒体几乎都可以从国外找到原型,从Youtube到优酷、土豆,从Twitter到新浪、腾讯微博,以及各种消费点评、问答百科、位置服务等,这些媒体为普通用户提供了极大的互动交流空间。

随着中国的互联网产业进入一个持续、快速、稳定的发展时期,丰富多彩的互联网应用已成为国人生活中必不可少的部分。

移动互联网应用缤纷多彩,娱乐、商务、信息服务等各种各样应用开始渗入人们的基本生活。

手机电视、视频通话、手机音乐下载、手机游戏、手机IM、移动搜索、移动支付等移动数据业务开始带给用户新的体验。

1.3.3电子商务的大数据时代

大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

业界将其特点归结为4V——Volume(数据体量巨大)、Velocity(数据类型繁多)、Variety(价值密度低)、Veracity(处理速度快)。

与传统数据相比较,大数据包含数据交换、互联、质量、安全等数据体系建设以及建设上层数据应用的整个生态圈。

在大数据时代浪潮中,时间每过去3分钟,全球将会产生6.12亿封邮件,6000万张照片,将会有18.3万小时的音乐被下载,有76.4个视频在优酷被上传,有14.1万个程序在苹果商店被使用,支付宝上将产生4400万人民币的交易额。

这种爆炸性增长的数据量对于企业发展来说,是一笔取之不尽、用之不竭的财富。

阿里巴巴、京东商城等众多网络巨头正因为看中了这座金矿,纷纷提出将数据作为未来发展的重要战略之一。

2013年,电商的竞争很大程度上就是大数据的竞争,大数据将贯穿整个电商的业务流程,成为公司核心竞争力。

目前,大数据在现实世界中已有着非常广泛的分布和应用,包括医疗信息、视频监控、移动设备、智能设备、非传统IT设备、传统IT信息的非传统应用以及特定行业需求等。

近年来,伴随着互联网、3S技术(GPS、GIS、RS)、以及智能手机的迅速发展,人文社会科学领域的研究数据获取与处理已经出现了新的趋向。

主要包括:

利用软件对网络数据进行挖掘;利用GPS或LBS设备,结合GIS或网络日志来采集与分析居民行为数据;利用网络地图对获取的数据进行可视化开发。

这些技术可以作为大数据时代城市时空间行为研究数据的重要来源,将有利于扩大研究的范围,并增加研究结果的精确性。

网络数据挖掘是计算机科学研究的重要内容,包括内容挖掘、结构挖掘和使用挖掘3种类型。

其中,内容挖掘是对网页文本和媒体数据的获取,用于研究用户活动状态和特征;结构挖掘是对网页链接结构进行分析,用于评估网页的资源量;使用挖掘则是通过挖掘网页访问的日志记录,以便提供个性化的产品和服务以此来研究电子商务的大数据时代。

近年来,以互联网、物联网、电信网、广电网、无线宽带网为基础的智慧城市建设带来了数据量的爆发式增长,“大数据”像血液一样遍布智慧交通、智慧医疗、智慧生活、智慧营销等城市生活的方方面面,并推动社会职能部门及企业决策者们从“经验治理”向“科学治理”转型。

如何挖掘海量数据的潜在价值,为城市治理、市民生活、企业营销提供可靠的决策建议,是智慧城市发展所面临的重要课题,亦是企业在未来市场竞争中抢占先机的关键。

2.1电子商务大数据时代概述

“大数据”时代(“AgeofBigData”)这一说法的流行得力于全球知名咨询公司麦肯锡的倡导,英国牛津大学教授维克托·迈尔·舍恩伯格更在其《大数据时代:

生活、工作和思维的改变》中大声疾呼,断言一个史无前例的大数据时代已经来临!

“大数据”(“Bigdata”)显然并不是一个严格的学理性概念,而更多地是一个描述性话语。

所谓大数据,也就是大型数据集,一般在10TB规模左右。

多个数据集一整合,就会形成PB级,甚至以E、Z等为计量单位的数据量。

过去几年全世界产生的数据量甚至超过了历史上4万年来产生的数据量的总和。

这种激增的数据量势必突破传统常规软件的信息处理能力极限。

大数据的说法正是在与传统数据库的比照中形成的,也注定只能是一个暂时性的权宜说法。

随着信息技术的进一步发展,更大的数据集合会不断出现,今日所谓的“大数据”势必相形见绌。

IT业界通常将大数据的特征概括为四个“V”:

体量(volumes)巨、类别(variety)多、速度(Velocity)快、价值(Value)大。

大数据之大首先是指体量大。

大数据和传统所说的数据库有所不同。

诞生在20世纪70年代的传统数据库是小型的、单一的、孤立的,基于小范围的抽样样本统计。

而大数据则要求穷尽一切相关样本,搜集尽可能全面的数据,大数据的数据集拥有的不是支离破碎的割裂数据,不是数据片段,而是完整的数据。

数据的海量与数据的完整性使大数据有着传统的数据库无法比拟的信息优势。

大数据之大还在于气魄大、境界大。

大数据的来源也有别于传统的数据库,显示出了跨领域、跨门类、多类别的整合气魄和越界意识,如果说非结构化数据、半结构化数据一直没有被纳入经典数据库技术SQL的视野,那么大数据的数据则源自多种数据源,是一种综合数据,兼收并蓄了结构化数据、半结构化数据、非结构化数据等各种类别和格式的数据,尤其是包含了大量的视频音频数据。

这使其信息占有量和信息复杂度为传统数据库所无法比拟。

这些海量数据本身就会凸显以往不为人们注意的事物的多方面的关联性,因此这种数据更能显示出多方面的信息内涵,信息质量更为优化,信息意味更为繁复。

大数据与传统数据库的差异还在于它并不是一个整齐排列,有着固定层次结构、划一技术标准、反馈迟滞后延的物态化的实体,而是一个灵活、越界、即时、交互、综合的动态过程,可以在瞬间完成信息分析,形成数据图谱,满足社会各界人士的实时性需求。

大数据之大更在于处理信息的手笔大。

大数据的要害不在于数据存储技术的升级跃进,大数据的“大”不是指存储和备份的数据大,在根本上它是指处理数据所使用的模式“大”。

大数据在今天的时代里俨然成为了一种新的产业资源,通过尽力搜集整理全面数据、完整数据、综合数据并对数据进行深度智能分析和建模,可以显示出各种事物的潜在关联,挖掘出各种以往不为人知的相关性,判断事物发生的概率,预测事物变化的走向,预见某种社会趋势,从而使鱼龙混杂的信息在大数据时代的社会管理、商业营销、产业开发、文化创意、医疗保健等方面更能发挥见微知著的预见性价值,据此各行各业都可以有的放矢地制定新策略,成就新创意,开发新产品,推出新业务。

虽然早在1980年著名未来学家阿尔文·托夫勒在其《第三次浪潮》一书中已经提到“大数据”一词。

在20世纪90年代,“数据仓库之父”比尔·伊蒙(BillInmon)更明确提出了“大数据”的概念。

但在当时“大数据”的说法并没有引起世人的高度关注。

最近几年大数据一说不胫而走,显然与信息量的持续攀升、大数据的俯拾即是、云计算的大量运用息息相关。

一夜之间,人类俨然进入了一个全新的“大数据”时代。

实际上,大数据时代的到来早有征兆。

20世纪80、90年代所谓的信息爆炸可谓是今日的大数据潮流的先声。

只不过,目前物联网、移动通讯、互联网每时每刻都在不断滋生潮水般的海量数据,人类的信息数据在以几何指数形式激增。

根据市场调研公司IDC的报告,全球信息总量每过两年就会增长一倍。

据统计,1分钟内,微博网站推特上新发信息超过10万条,脸谱上的浏览量超过600万,苹果应用商店下载次数以万计,淘宝可卖出几万件商品,XX能产生百万次搜索记录。

而以往的数字化信息存储和处理能力严重限制了信息的采集、存储量。

这些TB级、PB级海量数据的存储、挖掘、处理、分析、利用对于以往时代来说是不可想象的。

在过去,存储的主要是模拟数据,报纸、书籍、图片、磁带等媒介是信息存储的主要载体,甚至在2000年的时候,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。

P23数据处理技术和处理能力的局限使大量在交通、医疗、商业、管理中产生的数据资料都难以得到长期有效的存储。

直到MPP、MapReduce、Hadoop平台、云计算等新的数据处理技术诞生后,海量的大数据才被深度挖掘。

处理,显示出了前所未有的价值。

但大数据潮流的深层根源显然还是利润最大化的商业冲动,大数据产业说到底不过是数字经济、知识经济的最新形态,这也是“大数据”这个为管理咨询公司、经济学家、IT界巨头欢欣鼓舞的概念招人质疑的重要原因。

但是商业化潮流既可能导致文化的沙化、社会的急功近利、商业的唯利是图,也会成为文化创新的不竭动力,开启知识创造的新天地和新境界。

事实上,正是近年来数字化领域的商业逐利冲动驱使商家不断改换思路,升级设备,实现数字技术创新,提升数字服务水准,开辟新的产业领域,开发新的文化产品,开创了蔚为潮流的大数据产业,也开启了有别于互联网时代的“数字化生存“的新境界。

2.2电子商务大数据时代的特点

大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。

在维基百科中关于大数据的定义为:

大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。

个人认为,这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。

IDC在对大数据作出的定义为:

大数据一般会涉及2种或2种以上数据形式。

它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。

这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。

研究机构Gartner给出了这样的定义:

大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

这也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。

当前,较为统一的认识是大数据有四个基本特征:

数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。

这些特性使得大数据区别于传统的数据概念。

大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。

2.2.1数据量大

大数据聚合在一起的数据量是非常大的,根据IDC的定义至少要有超过100TB的可供分析的数据,数据量大是大数据的基本属性。

导致数据规模激增的原因有很多,首先是随着互联网络的广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易,以前,只有少量的机构可以通过调查、取样的方法获取数据,同时发布数据的机构也很有限,人们难以短期内获取大量的数据,而现在用户可以通过网络非常方便的获取数据,同时用户在有意的分享和无意的点击、浏览都可以快速的提供大量数据;其次是随着各种传感器数据获取能力的大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增。

早期的单位化数据,对原始事物进行了一定程度的抽象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着应用的发展,数据维度越来越高,描述相同事物所需的数据量越来越大。

以当前最为普遍的网络数据为例,早期网络上的数据以文本和一维的音频为主,维度低,单位数据量小。

近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设备以及Kinect等动作捕捉设备的普及,数据越来越接近真实的世界,数据的描述能力不断增强,而数据量本身必将以几何级数增长。

此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。

早期,人们对事物的认知受限于获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物的全貌,样本的数量可以根据数据获取、处理能力来设定。

不管事物多么复杂,通过采样得到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据管理和分析,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。

随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能远不能描述整个事物,可能丢掉大量重要细节,甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只考虑采样数据的的趋势。

使用所有的数据可以带来更高的精确性,从更多的细节来解释事物属性,同时必然使得要处理数据量显著增多。

2.2.2数据类型多样

数据类型繁多,复杂多变是大数据的重要特性。

以往的数据尽管数量庞大,但通常是事先定义好的结构化数据。

结构化数据是将事物向便于人类和计算机存储、处理、查询的方向抽象的结果,结构化在抽象的过程中,忽略一些在特定的应用下可以不考虑的细节,抽取了有用的信息。

处理此类结构化数据,只需事先分析好数据的意义以数据间的相关属性,构造表结构来表示数据的属性,数据都以表格的形式保存在数据库中,数据格式统一,以后不管再产生多少数据,只需根据其属性,将数据存储在合适的位置,就可以方便的处理、查询,一般不需要为新增的数据显著的更改数据聚集、处理、查询方法,限制数据处理能力的只是运算速度和存储空间。

这种关注结构化信息,强调大众化、标准化的属性使得处理传统数据的复杂程度一般呈线性增长,新增的数据可以通过常规的技术手段处理。

而随着互联网络与传感器的飞速发展,非结构化数据大量涌现,非结构化数据没有统一的结构属性,难以用表结构来表示,在记录数据数值的同时还需要存储数据的结构,增加了数据存储、处理的难度。

而时下在网络上流动着的数据大部分是非结构化数据,人们上网不只是看看新闻,发送文字邮件,还会上传下载照片、视频、发送微博等非结构化数据,同时,遍及工作、生活中各个角落的传感器也时刻不断的产生各种半结构化、非结构化数据,这些结构复杂,种类多样,同时规模又很大的半结构化、非结构化数据逐渐成为主流数据。

如上所述,非结构化数据量已占到数据总量的75%以上,且非结构化数据的增长速度比结构化数据快10倍到50倍。

在数据激增的同时,新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂、多样的数据形式,这样的数据已经不能用传统的数据库表格来整齐的排列、表示。

大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化,体验化的特性使得传统的数据处理方式面临巨大的挑战。

2.2.3数据处理速度快

要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。

随着各种传感器和互联网络等信息获取、传

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2