大数据技术介绍.pdf

上传人:wj 文档编号:3437469 上传时间:2023-05-05 格式:PDF 页数:56 大小:3.94MB
下载 相关 举报
大数据技术介绍.pdf_第1页
第1页 / 共56页
大数据技术介绍.pdf_第2页
第2页 / 共56页
大数据技术介绍.pdf_第3页
第3页 / 共56页
大数据技术介绍.pdf_第4页
第4页 / 共56页
大数据技术介绍.pdf_第5页
第5页 / 共56页
大数据技术介绍.pdf_第6页
第6页 / 共56页
大数据技术介绍.pdf_第7页
第7页 / 共56页
大数据技术介绍.pdf_第8页
第8页 / 共56页
大数据技术介绍.pdf_第9页
第9页 / 共56页
大数据技术介绍.pdf_第10页
第10页 / 共56页
大数据技术介绍.pdf_第11页
第11页 / 共56页
大数据技术介绍.pdf_第12页
第12页 / 共56页
大数据技术介绍.pdf_第13页
第13页 / 共56页
大数据技术介绍.pdf_第14页
第14页 / 共56页
大数据技术介绍.pdf_第15页
第15页 / 共56页
大数据技术介绍.pdf_第16页
第16页 / 共56页
大数据技术介绍.pdf_第17页
第17页 / 共56页
大数据技术介绍.pdf_第18页
第18页 / 共56页
大数据技术介绍.pdf_第19页
第19页 / 共56页
大数据技术介绍.pdf_第20页
第20页 / 共56页
亲,该文档总共56页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

大数据技术介绍.pdf

《大数据技术介绍.pdf》由会员分享,可在线阅读,更多相关《大数据技术介绍.pdf(56页珍藏版)》请在冰点文库上搜索。

大数据技术介绍.pdf

大数据技术介绍大数据概述01大数据领域的关键技术02大数据行业状况与典型应用03大数据产业的未来发展趋势04目录CONTENT1大数据概述PARTONE大数据发展的背景大数据的定义大数据的特点大数据面临的问题CustomerCustomer在络上消费272070美元(双呵呵笑)WebsiteWebsite571个新站建立GoogleGoogle接受超过2000000次查询AppStoreAppStoreAPP被下载47000次FlickrFlickr用户新增用户新增31253125张照片张照片UserUser217名移动络新用户诞WordpressWordpress用户发表用户发表347347篇章篇章EmailEmail使用者寄送204166667封邮件InstagramInstagram用户分享3600张照片FacebookFacebook使用者上传700000条内容YouTubeYouTube使用者上传使用者上传4848小时影片小时影片TwitterTwitter使用者发出超过使用者发出超过100000100000条内容条内容11分钟分钟1.1大数据发展的背景

(1)数据爆炸伴随着伴随着互联、物联、电商务、互联、物联、电商务、社交媒体、社交媒体、现代物流、络融现代物流、络融等业的发展,全球数等业的发展,全球数据总量正呈何级数增长,过去年时间产的数据总量超过了类历史上的数据总和,预据总量正呈何级数增长,过去年时间产的数据总量超过了类历史上的数据总和,预计计20202020年全球数据总量将达到年全球数据总量将达到35.2ZB35.2ZB,类将进“泽它”(,类将进“泽它”(ZBZB)时代()时代(1ZB=1ZB=万亿亿字节)万亿亿字节)淘宝淘宝每天每天产生的数据超过产生的数据超过50TB百度百度拥有的数据总量超过拥有的数据总量超过100PBFacebook每天每天产生的数据超过产生的数据超过100TB纽约证券交易所纽约证券交易所每天每天产生产生1TB的交易数据的交易数据Twitter每天每天产生产生7TB的数据的数据欧洲欧洲物理物理实验室大实验室大型例子型例子对撞机对撞机每年每年产生产生15PB的数据的数据1.1大数据发展的背景

(2)感知化、物联化、智能化感知化:

指数据源的变化。

传感器、感知化:

指数据源的变化。

传感器、RFIDRFID标标签、芯片、摄像头遍布世界的各个角落,物理签、芯片、摄像头遍布世界的各个角落,物理世界中原本不能被感知的事物现在可以被感知,世界中原本不能被感知的事物现在可以被感知,它们通过各种技术被接了互联世界。

它们通过各种技术被接了互联世界。

物联化:

指的是数据传送式的变化。

继与物联化:

指的是数据传送式的变化。

继与、与机器的互联后,机器与机器之间的互、与机器的互联后,机器与机器之间的互联成为当下的发展趋势。

未来数据可能来自于联成为当下的发展趋势。

未来数据可能来自于自车、电器、道路、自来管,甚是食物自车、电器、道路、自来管,甚是食物的包装盒。

的包装盒。

智能化:

指的是数据使用式的变化。

“没有智能化:

指的是数据使用式的变化。

“没有解释就没有价值”。

感知和互联并不是最终的解释就没有价值”。

感知和互联并不是最终的目的,数据只有经处理、分析和计算,从中提目的,数据只有经处理、分析和计算,从中提取出有价值的东西,才能实现真正的价值。

取出有价值的东西,才能实现真正的价值。

1.1大数据发展的背景(3)大数据在各领域应用中逐渐崭露头角大数据增大数据增强社会服务能力强社会服务能力洛杉洛杉矶智能交通矶智能交通(ATSAC,用感,用感应器收集车应器收集车速、流量等信息,速、流量等信息,实时处理)实时处理)大数据支持政大数据支持政务活动务活动奥巴奥巴马竞选中的民意预测马竞选中的民意预测(存(存储和分析选民资料、储和分析选民资料、筹集筹集资金、投放广告)资金、投放广告)大数据大数据驱动业务发展驱动业务发展Netflix精心打造精心打造纸牌屋纸牌屋(Cinematch,AWS)大数据提高商大数据提高商业决策水平业决策水平USXpress的物流运的物流运输输(用大数据分析(用大数据分析车辆状况,车辆状况,对车辆人员进行合理调度)对车辆人员进行合理调度)传统的面向应用的开发模传统的面向应用的开发模式逐式逐渐被数据驱动渐被数据驱动(DDD)的模式。

大数)的模式。

大数据引据引发了商业、科研、政发了商业、科研、政务、社会服务等领域的深务、社会服务等领域的深刻刻变革变革1.1大数据发展的背景(4)大数据成为各界争相鼓吹的概念发布发布白皮白皮书书大数据促大数据促发展:

挑战与机遇发展:

挑战与机遇联合国联合国发布报告发布报告大数据,大影响大数据,大影响达沃斯达沃斯论坛论坛发布发布BigData专刊,请研究人员和企专刊,请研究人员和企业家预测大数据所带来的革新业家预测大数据所带来的革新Nature投投资两亿美元启动资两亿美元启动“大数据研究和大数据研究和发发展展计划计划”奥巴奥巴马政府马政府发布发布大数据:

大数据:

创新、竞争力和生产创新、竞争力和生产力的下一个前沿力的下一个前沿,对大数据的影响对大数据的影响关关键技术和应用领域进行了详细分析键技术和应用领域进行了详细分析麦肯麦肯锡锡2008.092011.052012.012012.032012.071.2大数据的定义麦肯锡麦肯锡:

数据是指小超出常规的数据库:

数据是指小超出常规的数据库具获取、存储、管理和分析能的数据集。

具获取、存储、管理和分析能的数据集。

(并不是说定要超过特定(并不是说定要超过特定TBTB的数据集才能算的数据集才能算数据)数据)维基百科维基百科:

数据指的是所涉及的资料量规模:

数据指的是所涉及的资料量规模巨到法透过目前主流软件具,在合理时巨到法透过目前主流软件具,在合理时间达到获取、管理、处理,并整理成帮助企业间达到获取、管理、处理,并整理成帮助企业经营决策更积极目的的资讯。

经营决策更积极目的的资讯。

GartnerGartner公司公司:

数据是需要新护理模式才:

数据是需要新护理模式才能具有更强的决策、洞察发现和流程能具有更强的决策、洞察发现和流程优化的海量、增长率和多样化的信息资优化的海量、增长率和多样化的信息资产。

产。

美国国家标准技术研究院(美国国家标准技术研究院(NISTNIST):

数据:

数据量、获取速度快或形态多样的数据,难量、获取速度快或形态多样的数据,难以用传统关系型数据分析法进有效分以用传统关系型数据分析法进有效分析,或者需要规模的平扩展才能效析,或者需要规模的平扩展才能效处理。

处理。

国际数据公司(国际数据公司(IDCIDC):

从数据的:

从数据的44个特征来个特征来定义,即海量定义,即海量的数据规模的数据规模(VolumeVolume)、数据、数据处理的快处理的快速性速性(VelocityVelocity)、多样、多样的数据类型的数据类型(VarietyVariety)、数据、数据价值密度低价值密度低(ValueValue),即所谓的),即所谓的4V4V特性特性。

IBMIBM认为数据还应该具有其真实性认为数据还应该具有其真实性(VeracityVeracity)。

1.3大数据的特点Volume(巨量性)(巨量性)数据体量巨大,数据数据体量巨大,数据规模已从规模已从GB到到TB到到PB,甚至开始以,甚至开始以EB和和ZB计数。

计数。

Variety(多(多样性)样性)大数据大数据类型复杂。

大量异构数据,类型复杂。

大量异构数据,多源数据,半多源数据,半结构化数据、非结构结构化数据、非结构化数据大量涌化数据大量涌现现(即(即时性)时性)Velocity数据数据产生、处理和分析速度在持续加产生、处理和分析速度在持续加快,数据流量大,快,数据流量大,处理能力从批处理处理能力从批处理转向流处理转向流处理(高价(高价值、低价值值、低价值密度密度)Value数据体量不断增大,数据体量不断增大,单位数据的价单位数据的价值密度不断降低,而数据的整体价值密度不断降低,而数据的整体价值在提高值在提高1.4大数据面临的问题大数据问题分类大数据问题分类大数据问题描述大数据问题描述速度方面的问题导入导出问题统计分析问题检索查询问题实时响应问题种类及架构问题多源问题异构问题原系统的底层架构问题体量及灵活性问题线性扩展问题动态调度问题成本问题大机与小型服务器的成本对比原有系统改造的成本把控价值挖掘问题数据分析与挖掘问题数据挖掘后的实际增效问题存储及安全问题结构与非结构数据安全隐私安全互联互通与数据共享问题数据标准与接口共享协议访问权限2大数据领域的关键技术PARTTWO传统数据处理到大数据处理数据采集、处理与存储数据理解数据分析与挖掘技术总结大数据处理框架HadoopSpark2.1传统数据处理到大数据处理?

传统数据分析(数据挖掘、利用)的流程2.1传统数据处理到大数据处理?

2.1传统数据处理到大数据处理大数据是旧瓶子装了新酒;旧瓶子是原有的数据分析的框架;那么新酒是什么?

2.1传统数据处理到大数据处理从4V的角度看“新酒”?

数据采集、处理与存储数据采集2.1传统数据处理到大数据处理数据采集、处理与存储数据采集问题数据类型:

网络日志、视频、图片、GPS、物联网等类型复杂数据速度:

采集速度快数据规模:

体量庞大,传统数据库、ETL难以处理。

2.1传统数据处理到大数据处理数据采集、处理与存储数据采集工具工具(工业领域):

Flume(Cloudera公司)Scribe(Facebook)Kafka(领英)TimeTunnel(淘宝)2.1传统数据处理到大数据处理数据采集、处理与存储数据采集Flume三类节点:

Master(管理节点)Collector、Agent(日志收集节点,Agent用于采集数据,Collector汇总多个Agent的数据然后加载到存储系统)一个概念:

DataFlow,即数据传输管道,描述了日志数据从产生到最终目的地的数据传送过程。

首先指定一个数据源(Source)和数据汇聚点(Sink)。

数据在此间传输。

来源:

flume.apache.org2.1传统数据处理到大数据处理数据采集、处理与存储数据采集Flume可靠性节点故障时,数据被传送到其他节点可扩展性每层节点均可以扩展可管理性Master进行管理功能扩展性根据自己的需求天添加三类节点2.1传统数据处理到大数据处理数据采集、处理与存储数据处理变化不大,Python、R、Ruby、C、Perl等。

2.1传统数据处理到大数据处理数据采集、处理与存储数据存储数据类型:

网络日志、视频、图片、GPS、物联网等类型复杂;数据规模:

体量庞大,传统数据库、数据仓库那一存储;数据模式:

变化多样,传统关系型数据库难以满足。

关系型数据库(ACID)、DW分布式关系型数据库(海量结构化数据)+分布式文件系统(海量非结构化数据)+NoSQL(海量非结构化数据)2.1传统数据处理到大数据处理数据采集、处理与存储数据存储分布式文件系统CAP原理:

C:

ConsistencyA:

AvailabilityP:

PartitiontoleranceHDFS(HadoopDistributedFileSystem)Lustre(开源的,基于对象存储技术的集群并行文件系统,特点:

大规模、安全可靠,高可用性)GFS(谷歌文件系统,大规模分布式数据,可扩展的分布式文件系统)图片来源:

http:

/Cabinet/TyrantBerkeleyDBMemcacheDBRedis可以通过key快速查询到其value。

一般来说,存储不管value的格式,照单全收。

(Redis包含了其他功能)图存储Neo4JFlockDB图形关系的最佳存储。

使用传统关系数据库来解决的话性能低下,而且设计使用不方便。

对象存储db4oVersant通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。

xml数据库BerkeleyDBXMLBaseX高效的存储XML数据,并支持XML的内部查询语法,比如XQuery,Xpath。

2.1传统数据处理到大数据处理2.1传统数据处理到大数据处理数据理解?

降维:

解决维数灾难(上亿字段),传统的降维方法、流形学习。

可视化:

基本没什么变化。

2.1传统数据处理到大数据处理数据理解?

2.1传统数据处理到大数据处理数据分析与挖掘技术数据挖掘(数值型、分类型数据,一般是矩阵、向量这种结构化的数据)文本挖掘,NLP,图像,语音(非结构化的数据,转化为结构化的矩阵)。

神经网络算法的崛起,深度神经网络在文本、图像领域的良好表现;图像挖掘一般用(CNN),文本挖掘(RNN)。

2.1传统数据处理到大数据处理数据分析与挖掘技术传统数据分析大数据分析数据收集DB、ETL、传感器、GPS等数据类型、数据量、数据速度;Flume、Scribe、Kafka、TimeTunnel、Chukwa等数据准备(预处理)、数据存储ETL、Python、R等;DB、DW等;数据类型、数据量、数据速度;脚本:

C,R,Python,Ruby等;分布式文件系统,分布式数据库,NoSQL数据理解数据降维(PCA、因子分析,奇异值分解、MDS等),可视化(D3,Tableau,Python,R等)数据类型、数据量、流形学习受到钟爱;可视化工具变化不大训练、测试、使用算法算法(分类、聚类、回归、NN、关联等),脚本(Python,C系,R,Java),工具(SAS,SPSS,Matlab等)数据类型、数据量、深度神经网络效果较好2.1传统数据处理到大数据处理总结2.2大数据处理框架HadoopSpark2.2大数据处理框架Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

DougCutting借鉴了GFS系统和GoogleMap-reduce思想来实现的。

Hadoop是一个大数据生态系统,提供了一个能够对大量数据进行数据存储、数据管理、数据分析的可靠、高效、可伸缩的分布式基础架构。

Hadoop2.2大数据处理框架Hadoop图片来源:

http:

/THREE大数据产业链大数据市场状况典型大数据厂商解决方案大数据的应用3.1大数据产业链1政府机构、电网、石油公司(拥有大量数据,却难以从数据中提取价值或催生创新思想)2咨询公司、技术供应商(有开源技术公司加入)3数据分析服务机构4基于模式创新思维的公司3.2大数据市场状况2013年大数据市场收益硬件38%服务40%软件22%2015年收入排名前10大厂商(单位:

百万美元)这里有几个有趣的名字:

Palantir(得到CIA支持的大数据公司)、Splunk以及埃森哲(咨询公司)从传统的IT供应商中脱颖而出。

3.2大数据市场状况2015前十大厂商份额图IBM以较大优势领跑SAP、Oracle和HPE分列第二、第三和第四的位置,Palantir位列第五还有67%来自其它厂商3.2大数据市场状况全球大数据与商全球大数据与商业分析收入将业分析收入将从从2015年的年的1220亿美元增长到亿美元增长到2019年的年的1870多多亿美元,在这亿美元,在这五年中会增五年中会增长长50%多。

多。

从从现在到现在到2020年,基于年,基于云的大数据与分析技云的大数据与分析技术术的增的增长速度将比本地解长速度将比本地解决方案快决方案快4.5x倍。

倍。

到到2020年,年,预测性与预测性与指定的分析指定的分析将吸引企将吸引企业在商业智能与分析业在商业智能与分析方面新投方面新投资的资的40%全球大数据市全球大数据市场将从场将从2014年的年的183亿美元增长到亿美元增长到2026年的年的922亿美元,平均每年增长亿美元,平均每年增长14.4%2015年年业务分析的市场领袖业务分析的市场领袖分分别是别是:

Oracle(16.4%)、SAP(13.1%)、IBM(10.3%)、Microsoft(9.1%)、SAS(6.1%)50%4.540%14.4%TOP53.3典型大数据厂商解决方案IBM解决方案解决方案提供大数据技术、工具、一整套软件、系统和业务战略组成的完整解决方案大数据产品大数据产品

(1)InfoSphereBigInsights、InfoSphereStreams和InfoSphereWarehouse,可用于处理静态数据和流动数据,用于快速分析非结构化或半结构化的海量数据

(2)业务分析产品(Cognos,SPSS,ClarltySystem等)(3)商业分析、优化顾问及研发专家提供解决方案应用价值应用价值在云计算架构上整合软、硬件技术,强大全面的信息管理、数据分析软件、专业的咨询服务、为客户提供更加简易、及时的数据分析、挖掘、决策服务Oracle解决方案解决方案为用户提供高度集成、端到端的大数据解决方案大数据产品大数据产品

(1)大数据一体机、OracleExalogic中间件云服务器、OracleExadata数据库云服务器、OracleExalytics商务智能云服务器等构成的高度集成化产品组合

(2)为以上大数据产品提供一线支持服务应用价值应用价值通过软硬一体化的集成产品,为客户提供洞察数据及挖掘数据的商业价值EMC解决方案解决方案提供云计算开放式、分布式和集群技术处理的大数据解决方案大数据产品大数据产品统一的大数据分析平台UAP,融合了EMCGreenplum关系数据库、EMCGreenplumHDHadoop发行版和EMCGreenplumChorus等产品应用价值应用价值充分发挥存储、管理和安全方面的优势,针对大数据提供分析工具、服务,具有强大的扩展性和开源的生态系统SAP解决方案解决方案能够提供快速高效地处理海量数据的HANA,及实时大数据平台的解决方案大数据产品大数据产品

(1)具有内存计算技术的HANA

(2)SAPERP、SAPBusinessOne、SAPSuiteonHANA等针对行业应用的产品应用价值应用价值帮助用户以便捷的方式快速获取实时信息,即时获取大数据洞察,并提高预测和规划能力淘宝淘宝解决方案解决方案拥有国内最具商业价值的海量数据,为商家提供各类数据服务大数据产品大数据产品

(1)数据魔方平台:

首个基于全站数据的数据产品,是淘宝从电子商务公司向深度数据服务公司转型的里程碑式的产品

(2)量子恒道统计:

致力于为各个电商、淘宝卖家提供精准实时的数据统计、多维的数据分析、权威的数据解决方案(3)淘宝指数:

淘宝官方的免费的数据分享平台,用户可以窥探淘宝购物数据,了解淘宝购物趋势(4)阿里巴巴金融:

专注于小微企业的融资服务提供商,提供阿里信用贷款应用价值应用价值利用海量的交易数据可以为用户提供数据服务,帮助用户了解市场、顾客需求,从而改善自己的产品和运营策略3.4大数据的应用互互联网联网互联网广告、用户行为分析、内容推荐、个性化营销、搜索引擎优化等定向广告(亚马逊、Facebook、腾讯)是互联网大数据应用最主要的商业模式,包括用户行为数据、系统日志数据、用户交易数据等映射出各种大数据的创新应用商业价值:

改善社交网络体验、提升网络用户忠诚度、向目标用户提供有针对性的商品与服务3.4大数据的应用金融金融反洗钱、反欺诈、客户价值分析、目标市场客户聚类、贷款偿还能力预测、股票等投资组合趋势分析传统的数据分析手段无法满足新业务需求(问金融业人员有何新业务需求),对海量数据的处理计算能力、原有数据分析速度能力不足商业价值:

降低金融风险、提高整体收入、增加市场份额3.4大数据的应用电信电信应用:

业务设计优化、用户行为分析、个性化推荐、用户流失预测、网络质量优化商业价值:

提高业务效率、个性化服务、优化产品套餐3.4大数据的应用医医疗卫生疗卫生非结构化数据增速持续加快,传统的关系型数据库在存储大数据集时没有性能和成本优势,在处理和查询大数据集时效果欠佳。

应用:

临床数据比对、决策支持、预防传染病蔓延、就诊行为分析、疾病模式分析商业价值:

改善诊疗质量、加快诊疗速度大数据在医疗领域最有价值的应用之一是个性化医疗。

医务人员通过检测DNA来预测特定病人的药物反应,提供最有效的治疗方法,实现个性化医疗。

此外,还能够利用个体的遗传信息与基因片段预测其遗传病携带几率与癌症患病风险,尽早发现病情实施诊疗。

Counsyl是一家提供基因检测的健康科技公司。

基于基因数据库,它为用户提供包括怀孕前基因筛查、产前筛查、癌症家族病史基因筛查等项目在内的基因检测医疗研究人员可以通过过往医疗数据和疗效记录进行药物研发3.4大数据的应用公共安全公共安全应用:

嫌疑人行为预测分析、恐怖活动检测、危险性分析、关系人分析商业价值:

更好地对外提供公共服务、舆情分析、准确预判安全威胁结合身份信息(身份证、指纹、血型、籍贯等)以移动手机为主的电子设备所接收、发送的信息、摄像头监控信息、导航定位信息案件的侦破更容易,嫌疑人更难于脱逃法网3.4大数据的应用智慧交通智慧交通应用:

整合传感器、监控视频和GPS等设备产生的海量数据,结合气象监测设备产生的天气状况数据、人口分布数据、移动通信数据,实现智能交通公共信息服务的实时传递和快速反应交通事故分析、交通信息研判、交通拥挤情况分析、交通稽查布控4大数据的未来发展趋势PARTFOUR大数据思维大数据技术大数据应用4.1大数据思维4.2大数据技术基础架构数据采、存数据治理数据分析挖掘数据呈现数据共享大数据技术还将与其他技术如云计算、物联网、人工智能紧密结合4.3大数据应用数据数据资源化资源化数据孤数据孤岛将被连接、岛将被连接、数据保数据保护逐渐开放护逐渐开放数据价数据价值被发现利用值被发现利用从互从互联网走向传统生产联网走向传统生产大数据将大数据将摆脱互联网开源技摆脱互联网开源技术形象,成为企业数据处理术形象,成为企业数据处理的通用的通用计算框架计算框架精准精准营销营销精准分析、精准投放,精准分析、精准投放,将效果将效果监测转变为效监测转变为效果果预测预测行行业数据垂直整合业数据垂直整合整合整合产业链数据,利产业链数据,利用用业务系统产生的数业务系统产生的数据更好地服据更好地服务生产、务生产、经营、决策经营、决策数据服数据服务成为盈利手段务成为盈利手段数据本身就是数据本身就是竞争力,通过竞争力,通过控制、分析和出售数据及相控制、分析和出售数据及相关服关服务成为直接的盈利手段务成为直接的盈利手段基于大数据的智能化基于大数据的智能化大数据大数据为机器学习等技术提为机器学习等技术提供数据基供数据基础,促进人工智能础,促进人工智能的的发展发展基于大数据的智能物基于大数据的智能物联网也联网也将蓬勃将蓬勃发展发展讨论的问题1、大数据分析在哪些领域可能有创新应用?

2、大数据分析与应用可能会对哪些领域造成冲击,哪些人将会被替代;而哪些领域的人的创造性是不可或缺的?

3、大数据时代人还会不会有隐私?

.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2