大数据产业链概述.docx

上传人:wj 文档编号:71097 上传时间:2023-04-28 格式:DOCX 页数:6 大小:27.96KB
下载 相关 举报
大数据产业链概述.docx_第1页
第1页 / 共6页
大数据产业链概述.docx_第2页
第2页 / 共6页
大数据产业链概述.docx_第3页
第3页 / 共6页
大数据产业链概述.docx_第4页
第4页 / 共6页
大数据产业链概述.docx_第5页
第5页 / 共6页
大数据产业链概述.docx_第6页
第6页 / 共6页
亲,该文档总共6页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

大数据产业链概述.docx

《大数据产业链概述.docx》由会员分享,可在线阅读,更多相关《大数据产业链概述.docx(6页珍藏版)》请在冰点文库上搜索。

大数据产业链概述.docx

大数据产业链概述

1.1大数据定义

随着“云计算”、“互联网”、“物联网”的快速发展,大数据(BigData)也吸引了越来越多的关注,成为社会热点之一。

那么什么是大数据?

从2001年“大数据”一词在Gartner的研究报告出现至今,业内对“大数据”一词的定义仍未统一。

Gartner给出了这样的定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

麦肯锡全球研究所对“大数据”给出的定义是:

一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

国际数据公司(IDC)从大数据的4个特征来定义,即海量的数据规模

(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

维基百科对“大数据”的定义是“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合”。

大数据是一个宽泛的概念,见仁见智。

上面几个定义,无一例外地都突出了“大”字。

诚然,“大”是大数据的一个重要特征,但远远不是全部。

贵阳大数据交易所认为,认识大数据,要把握“数据源、大数据硬件、大数据技术、大数据交易、大数据应用及衍生”等六个层次。

大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的交易需要对数据脱敏、定价,大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。

因此说,大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。

1.2大数据产业链图谱

大数据产业链包括一切与大数据的产生与集聚(数据源)、组织与管理(存储)、分析与发现(技术)、交易、应用与衍生产业相关的所有活动。

大数据产业链按照数据价值实现流程,包括数据源、大数据硬件支撑层、大数据技术层、大数据交易层、大数据应用层与大数据衍生层等六大层级,每一层都包含相应的IT硬件设施、软件技术与信息服务等。

1.2.1数据源

数据源是大数据产业链的第一个环节,是大数据产业发展的基础。

与国外的数据源区块相比,中国大数据产业中的数据源有着自身的特点。

由于中国大数据流通在全社会还未形成规模,目前数据源区块主要集中在政府管理部门、互联网巨头、移动通讯企业等手中,具体有政府数据源提供商、行业数据源提供商、企业数据源提供商、互联网数据源提供商、物联网数据源提供商、移动通讯数据源提供商、第三方数据服务企业等等。

既然数据成为了重要的资源和生产要素,必然会产生供应与流通。

随着新技术的不断发展,数据产生的方式也越来越多样。

例如:

人们每天使用的互联网和无限通讯,即时通讯、微信、微博、手机电话、短信、彩信甚至是每一个互联网点击(通过点击习惯可以分析经常浏览某类网站,喜欢某类商品,以及上网时间等使用习惯)都会留下记录,数据源将带来爆炸性的数据增长。

同时随着各行业对大数据应用的重视,越来越多的企业将加入数据的生产和采集行业,数据源将进一步扩大。

1.2.2大数据硬件支撑层

大数据硬件是指数据产生、采集、传输、存储、计算等一系列与大数据产业链相关的硬件设备。

包含传感器、移动智能终端、各种有线/无线传输设备、存储设备、服务器、网络/安全设备等。

在大数据的柔性注入下,越来越多的硬件产品都打出“智能牌”。

智能硬件逐渐改变人们日常生活的同时,还在用户无触发、无感知的情况下,24小时不间断采集数据。

可见,智能硬件的发展将推动大数据第二波浪潮的到来。

但就大数据硬件的存储、服务器、网络安全等领域而言,国内目前缺少面向大数据的成熟系统,参与者多是正在试图转型的传统IT厂商,如华为、浪潮、联想、曙光等公司。

1.2.3大数据技术层

大数据技术层指实现一切大数据采集与预处理、存储管理、大数据分析挖掘、大数据安全和大数据可视化的技术手段,是大数据价值实现的重要条件。

(1)大数据采集与预处理技术

数据采集技术指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析、处理的过程。

数据采集技术可分为3大类:

系统日志采集方法:

通过智能硬件、传感器、社交网络等数据载体的日常运维进行数据资源的采集,大部分数据企业都拥有自己的采集工具,如Hadoop的Chukwa、Cloudera的

Flume、Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

网络数据采集方法:

指通过网络爬虫或网站公开API等方式从网站上获取数据信息。

该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。

它支持图片、音频、视频等文件或附件的采集,并支持文件之间的自动关联。

除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

其他数据采集方法:

其他数据包括企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

大数据预处理技术,主要完成对已接收数据的辨析、抽取、清洗等操作。

数据抽取:

因获取的数据可能具有多种结构和类型,数据抽取过程可以将这些复杂的数据转化为单一的或者便于处理的类型,以达到快速分析处理的目的。

数据清洗:

对于大数据,并不全是有价值的,对于无价值的数据或干扰数据,需要通过过滤“去噪”进而提取出有效数据。

(2)大数据存储管理技术

数据的海量化和快增长特征是大数据对存储技术提出的首要挑战。

这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。

但以往网络附着存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算(DataIntensiveComputing)时I/O容易成为瓶颈。

同时,传统的单机文件系统(如NTFS)和网络文件系统(如NFS)要求一个文件系统的数据必须存储在一台物理机器上,且不提供数据冗余性,可扩展性、容错能力和并发读写能力难以满足大数据需求。

谷歌文件系统(GFS)和Hadoop的分布式文件系统HDFS(HadoopDistributedFileSystem)奠定了大数据存储技术的基础。

与传统系统相比,GFS/HDFS将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O吞吐量的制约,同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。

(3)大数据分析挖掘技术

在人类全部数字化数据中,仅有非常小的一部分(约占总数据量的1%)数值型数据得到了深入分析和挖掘(如回归、分类、聚类),大型互联网企业对网页索引、社交数据等半结构化数据进行了浅层分析(如排序)。

占总量近60%的语音、图片、视频等非结构化数据还难以进行有效的分析。

大数据分析技术的发展需要在两个方面取得突破,一是对体量庞大的结构化和半结构化数据进行高效率的深度分析,挖掘隐性知识,如从自然语言构成的文本网页中理解和识别语义、情感、意图等;二是对非结构化数据进行分析,将海量复杂多源的语音、图像和视频数转化为机器可识别的、具有明确语义的信息,进而从中提取有用的知识。

(4)大数据可视化技术

大数据可视化是一个处于不断演变之中的概念,其边界在不断地扩大。

主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。

与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。

大数据可视化技术主要是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术等。

它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。

(5)大数据安全技术

大数据安全是个很宽泛的领域,可以包括:

大数据系统的安全,数据本身的安全(加密)以及隐私保护,大数据应用带来的安全和隐私问题,以及大数据技术应用于安全领域。

以Hadoop为代表的大数据系统早期主要处理公开领域的Web数据,因此并没有在安全上着力,但近年来有了长足的进展,逐步加入了用户和服务鉴权(基于Kerberos),加入HDFS文件权限,对数据块的权限控制,对任务的授权,对网络上流动数据的加密以及DataNode内静态数据的加密等。

Intel的ProjectRhino做了很多有益的尝试。

数据安全首先是静态数据的安全,主要是访问权限控制。

其次是动态数据的安全,主要是加密和动态审计能力。

目前动态审计能力主要还是在企业内,表现为数据泄露防护(DataLeakagePrevention)技术,对重要数据进行分级、标识,实现跨平台(端点、移动设备、网络和存储系统)的统一管理。

现在的主流大数据使用安全技术包括:

基于同态加密、支持SQL的加密数据库,基于加密协议的多方安全计算,基于可信计算环境的多方安全计算,基于隐私保护的机器学习算法等。

1.2.4大数据交易层

随着大数据技术的成熟和发展,大数据在商业上的应用越来越广泛,有关大数据的交互、整合、交换日益增多,大数据交易也随之应运而生。

大数据交易可以打破信息孤岛及行业信息壁垒,汇聚海量高价值数据,对接数据市场的多样化需求,完善产业生态环境,实现数据价值的最大化,对推进大数据产业创新发展方面具有深远意义。

不过,国内大数据交易还处于初级阶段,规范尚未统一,发展模式也处于摸索过程中。

目前大数据交易有交易所模式、电商模式、API模式,大数据的价值通过数据确权、清洗、交易等形式得以释放和体现。

大数据交易层细分主要包括大数据资产评估、大数据指数、大数据定价、大数据交易、数据撮合、大数据基金、大数据信托、大数据期货、大数据融资、大数据确权、大数据托管、大数据全生命周期管理、大数据交易标准等等。

1.2.5大数据应用层

大数据的价值体现在大数据的应用上,人们关心大数据,最终是关心大数据的应用,关心如何从业务和应用出发让大数据真正实现其所蕴含的价值,从而为我们的生产生活带来有益的改变。

对“大数据应用”,不同行业和不同应用者理解不同。

大数据应用界定为:

“利用分布式并行计算、人工智能等技术对海量异构数据进行计算、分析和挖掘,并将由此产生的信息和知识应用于实际的生产、管理、经营和研究中”。

大数据应用层是大数据价值最大化一个环节。

大数据产业的下游由大量公司组成,它们基本上扮演的角色是大数据生态圈里的数据提供者、特色服务运营者和产品分销商,基本通过开放平台和搜索引擎获取用户,处于产业的边缘地带。

任何数据不经过分析这一环节,都无法落实到实际应用。

而且,在同样的数据面前,谁分析出的结果最有效,将决定谁才是真正的“大数据”智能产业领跑者。

整体而言,全球的大数据应用处于发展初期,中国大数据应用才刚刚起步。

目前,大数据应用在各行各业的发展呈现“阶梯式”格局:

互联网行业是大数据应用的领跑者,政府、金融、电信、交通、医疗等领域积极尝试大数据,其中政府、金融会在近几年呈爆发式增长。

1.2.6大数据衍生层

大数据衍生层是指基于大数据分析和应用而衍生出来的各种新业态。

大数据分析和应用在经济社会各领域的扩散渗透,不仅促进相关产业生产率水平的提升,同时也衍生出很多与之相关联的新兴产业,使得人类生产生活、工作消费方式发生根本性转变。

大数据产业链衍生层目前主要包含互联网理财、互联网基金、大数据金融、大数据咨询、大数据标准、大数据知识库、大数据双创平台等等。

6

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2