大数据介绍课件优质PPT.pptx

资源描述

大数据介绍课件优质PPT.pptx

《大数据介绍课件优质PPT.pptx》由会员分享，可在线阅读，更多相关《大数据介绍课件优质PPT.pptx（71页珍藏版）》请在冰点文库上搜索。

大数据介绍课件优质PPT.pptx

云存储；

分布式文件系统等计算结果展现：

云计算；

标签云；

关系图等,存储：

结构化数据：

海量数据的查询、统计、更新等操作效率低非结构化数据：

图片、视频、word等文件存储不利于检索、查询和存储半结构化数据：

转换为结构化存储按照非结构化存储解决方案：

Hadoop流计算,Hbase的优劣,1、动态可扩展的，创建表的时候不需要知道有几列，只需要指定有几个columnfamily，并且列为空就不存储数据,节省存储空间。

为什么列是动态的？

统计淘宝访问量和购买量，新平台的统计，传统关系型数据库需要停机维护，而Hbase支持动态增加2、多版本数据根据Rowkey和Columnkey定位到的Value可以有任意数量的版本值，因此对于需要存储变动历史记录的数据，用HBase就非常方便了。

3、支持事务较弱，所以有事务支持的时候都会选择传统的关系型数据库，Hbase事务仅仅是针对某一行的一系列Put/Delete操作。

不同行、不同表间一系列操作是无法放在一个事务中的。

对一张多Region表来说，还是无法保证每次修改都能封装为一个事务。

计算框架,批处理：

mapreduce实时性：

（毫秒级）storm交互式分析：

（秒级）spark,例：

报表例：

信用卡欺诈,数据挖掘,数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程数据挖掘,数据可视化,大数据主要应用技术-Hadoop,Hadoop是一个由Apache基金会所开发的分布式系统基础架构Hadoop的框架最核心的设计就是：

HDFS和MapReduce。

HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

运行平台：

Linux、MacOS/X，Solaris，Windows,Hadoop优点,1、高可靠性：

hadoop按位存储和处理数据的能力值得人们信赖。

2、高扩展性：

hadoop是在可用的计算机集簇之间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

3、高效性：

能够在节点之间动态地移动数据，并保证各个节点之间的动态平衡，因此处理速度非常快。

4、高容错性：

hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

5、低成本：

hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的，这些服务器集群是可以支持数千个节点的。

Hadoop核心设计,MapReduce,HDFS,Map：

任务的分解Reduce：

结果的汇总,NameNode：

文件管理DataNode：

文件存储Client：

文件获取,HDFS架构,主从（Master/Slave）体系结构只含有一二NameNode主服务节点这个节点管理文件系统中的命名空间和调度客服端对文件的访问通常一个机器就是一个DataNode数据节点，DataNode管理本节点上数据的存储在HDFS内部，一个文件被分割为一个货多个数据块，并且这些数据块被存储在一批DataNode中NameNode执行文件系统中命名空间的操作（打开、关闭、重命名文件和目录），NameNode需要执行数据块到DataNode映射的决策DataNode负责响应来自客户端的文件读写要求，也要负责执行来自NameNode的关于数据块创建、删除和冗余存储的指令,Map/Reduce处理过程,一次Map/Reduce任务过程。

用户提交给JobTracer，JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中；

输入模块负责把输入数据分成小数据块。

然后把他们传给Map节点；

Map节点得到每一个key/value对，处理后产生一个或多个key/value对，然后写入文件；

Reduce节点获取临时文件中的数据，对代用相同key的数据进行迭代计算，然后把最终结果写入文件。

我们要数图书馆中的所有书。

你数1号书架，我数2号书架。

这就是“Map”。

我们人越多，数书就更快。

现在我们到一起，把所有人的统计数加在一起。

这就是“Reduce”。

Hadoop体系架构,Pig,Hive,Avro,Mahout,MapReduce/YARN,Cassandra,HBase,HDFS,ApacheAmbari是一个基于Web的工具，用于配置、管理和监视ApacheHadoop集群，支持HadoopHDFS、HadoopMapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。

ApacheAmbari,ApachePig是一个用于大型数据集分析的平台，它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。

Pig应用的闪光特性在于它们的结构经得起大量的并行，也就是说让它们支撑起非常大的数据集。

Pig的基础设施层包含了产生Map-Reduce任务的编译器,ApachePig,ApacheHive是Hadoop的一个数据仓库系统，促进了数据的综述（将结构化的数据文件映射为一张数据库表）、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。

Hive提供完整的SQL查询功能HiveQL语言，同时当使用这个语言表达一个逻辑变得低效和繁琐时，HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。

Hive类似CloudBase，基于hadoop分布式计算平台上的提供datawarehouse的sql功能的一套软件。

使得存储在hadoop里面的海量数据的汇总，即席查询简单化。

ApacheHive,HBase是一个分布式的、面向列的开源数据库，该技术来源于FayChang所撰写的Google论文“Bigtable：

一个结构化数据的分布式存储系统”。

就像Bigtable利用了Google文件系统（FileSystem）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。

HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

ApacheHBase,ApacheCassandra是一个高性能、可线性扩展、高有效性数据库，可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。

在横跨数据中心的复制中，Cassandra同类最佳，为用户提供更低的延时以及更可靠的灾难备份。

通过log-structuredupdate、反规范化和物化视图的强支持以及强大的内置缓存，Cassandra的数据模型提供了方便的二级索引（columnindex）,ApacheCassandra,Avro是一个数据系列化系统；

Avro是dougcutting主持的RPC项目，有点类似Google的protobuf和Facebook的thrift。

Avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑ApacheMahout是个可扩展的机器学习和数据挖掘库，当前Mahout支持主要的4个用例：

推荐挖掘：

搜集用户动作并以此给用户推荐可能喜欢的事物。

聚集：

收集文件并进行相关文件分组。

分类：

从现有的分类文档中学习，寻找文档中的相似特征，并为无标签的文档进行正确的归类。

频繁项集挖掘：

将一组项分组，并识别哪些个别项会经常一起出现。

Zookeeper是Google的Chubby一个开源的实现。

它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：

配置维护、名字服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

ApacheChukwa是个开源的数据收集系统，用以监视大型分布系统。

建立于HDFS和Map/Reduce框架之上，继承了Hadoop的可扩展性和稳定性。

Chukwa同样包含了一个灵活和强大的工具包，用以显示、监视和分析结果，以保证数据的使用达到最佳效果。

Hadoop平台的安装配置,Hadoop安装配置参考如下：

http:

/,Zookeeper从程序员的角度来讲可以理解为Hadoop的整体监控系统。

如果namenode,HMaster宕机后，这时候Zookeeper的重新选出leader。

这是它最大的作用所在。

下面详细介绍zookeeper的作用Hadoop有NameNode，HBase有HMaster，为什么还需要zookeeper，下面给大家通过例子给大家介绍。

一个Zookeeper的集群中,3个Zookeeper节点.一个leader,两个follower的情况下,停掉leader,然后两个follower选举出一个leader.获取的数据不变.我想Zookeeper能够帮助Hadoop做到:

Hadoop,使用Zookeeper的事件处理确保整个集群只有一个NameNode,存储配置信息等.HBase,使用Zookeeper的事件处理确保整个集群只有一个HMaster,察觉HRegionServer联机和宕机,存储访问控制列表等.,Hbase是一个分布式的、面向列的数据库。

Hbase利用hadoop的HDFS作为其的文件存储系统，Hbase利用hadoop的MapReduce来处理Hbase中的海量数据，利用Zookeeper作为协同服务HBaseshell的基本用法hbase提供了一个shell的终端给用户交互。

通过执行helpget可以看到命令的帮助信息。

以网上的一个学生成绩表的例子来演示hbase的用法。

这里grad对于表来说是一个列,course对于表来说是一个列族,这个列族由两个列组成math和art,当然我们可以根据我们的需要在course中建立更多的列族,如computer,physics等相应的列添加入course列族。

name,grad,course,mathart97878980,zkb5baoniu4,列族columnfamilyhbase表中的每个列，都归属与某个列族。

列族是表的chema的一部分（而列不是），必须在使用表之前定义。

列名都以列族作为前缀。

例如courses:

history，courses:

math都属于courses这个列族。

单元CellHBase中通过row和columns确定的为一个存贮单元称为cell。

由rowkey,column（=+）,version唯一确定的单元。

cell中的数据是没有类型的，全部是字节码形式存贮。

时间戳timestamp每个cell都保存着同一份数据的多个版本。

版本通过时间戳来索引。

时间戳的类型是64位整型。

时间戳可以由hbase（在数据写入时自动）赋值，此时时间戳是精确到毫秒的当前系统时间。

时间戳也可以由客户显式赋值。

如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。

每个cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理（包括存贮和索引）负担，hbase提供了两种数据版本回收方式。

一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。

用户可以针对每个列族进行设置。

Thinks,一、大数据的涵义与研究意义二、与空间信息和位置相关的大数据三、空间大数据的应用四、空间大数据的存储五、总结,大数据：

大型复杂数据集的聚合，这些数据集的规模和复杂程度常超出目前数据库管理软件和传统数据处理技术在可接受时间下的获取、管理、检索、分析、挖掘和可视化能力。

大数据的特点：

）Volume（体量大）：

大量TB级以上已有的数据等待处理；

）Velocity（速度快）：

需要响应以s甚至ms计的流数据不断产生；

）Variety（模态多样）：

数据来源和类型繁多文本、图片、视频等结构化和非结构化数据并存；

）Veracity（真伪难辨）：

由于数据的噪音、缺失、不一致性、歧义等引起的数据不确定性；

）Value（价值）：

大数据使得人们以前所未有的维度量化和理解世界，蕴含了巨大的价值，大数据的终极目标在于从数据中挖掘价值。

大数据的核心：

预测,研究大数据的意义：

科学进步图灵奖获得者吉姆格雷提出：

大数据是科学研究的第四范式，是从计算密集型科研发展到以大数据为基础的数据密集型科研方法。

科学研究方法的发展真正的革命并不发生在分析数据的机器，而在于数据本身和我们如何运用数据。

研究大数据的意义：

社会变革,2009至今美国政府全面开放了40万联邦政府原始数据集。

大数据已成为美国国家创新战略、国家安全战略、国家IT产业发展战略以及国家信息网络战略的交叉领域、核心领域。

21世纪数据的价值有可能等同于20世纪的石油，大数据研究使得人们降低了对因果关系的渴求，而关注相关关系。

只需要知道是什么，而不需知道为什么。

这将使得理解现实和做决定的基础也将受到根本性挑战。

社会,价值,研究大数据的意义：

经济增长,地理数据指直接或间接关联着相对于地球的某个地点的数据，包括自然地理数据和社会经济数据。

空间媒体数据包含位置的数字化的文字、图形、图像、视频影像等媒体数据，主要来源于移动社交网络、微博等新型互联网应用,轨迹数据指通过GNSS等测量手段以及网络签到等方法获得的用户活动数据，可以被用来反映用户的位置和用户的社会偏好。

位置大数据的分类,地理数据,内容：

土地覆盖类型数据、地貌数据、土壤数据、水文数据、植被数据、居民地数据、河流数据、行政境界及社会经济方面的数据等。

特点：

数据体量大、较为规则化、变化较慢。

轨迹数据内容：

个人轨迹数据、群体轨迹数据、车辆轨迹数据等特点：

数据体量大、信息碎片化、准确性较低、半结构化,出租车轨迹数据示例,社会交流、个性化信息推送、驾驶安全、智能驾驶,为个人生活服务,城市规划、疾病控制、智能交通、节能减排、环境保护、应急响应,企业调度、门店选址、广告推送、位置营销,为企业经济服务,为城市运行服务,位置大数据的作用,1.空间大数据与智能交通,Inrix是美国的一家交通数据处理公司，也是全球领先的道路交通信息和驾驶员服务供应商。

他们设计的APP是一款致力于为全球交通问题带来智能数据和先进的分析方法的交通智能化平台。

利用大数据预判未来交通信息和路况是核心,2012年英国伦敦奥运会利用INRIX软件和在线服务确保交通顺畅;

在美国有超过25个州的交通部门使用INRIX数据辅助交通管理。

2015年2月11日，国内智能交通行业领军企业北京千方科技股份有限公司与INRIX签署战略合作协议。

千方科技在国内智能交通行业具有深厚的理解和市场、技术积累，INRIX在欧美地区具有成熟的交通信息化解决方案和先进理念。

双方将结合各自的优势，整合交通信息化及数据分析解决方案和产品，共同拓展智能交通行业市场，双方将在交通大数据分析、增值挖掘、交通仿真等技术方向深度交流，提升双方专业化及技术能力。

不过，由于涉及国内职能部门的数据保护问题，国内手机用户还未能够体验这款App。

2.空间大数据与社会生活,2014年春节期间，百度地图定位可视化大数据播报的国内春节人口迁徙情况。

2015年最近一周南京夫子庙景区热力图,3.空间大数据与应急管理,2013年4月15日，波士顿马拉松爆炸案事发几小时内，数以千计的在场群众将事发现场拍摄的照片和视频放到了公共网络平台上，这些照片和视频图像来自各种相机，手机和平板电脑。

不到一天时间，嫌犯被确认并在纽约被抓获这是一种典型的利用空间社会媒体的位置大数据与反犯罪机构的专业能力结合，建立的城市安全与应急新体制,位置大数据研究涉及到数据采集、数据处理、计算和存储以及可视化等一套完整的方法体系,大数据下对于数据库的需求海量数据的高效存储支持丰富的数据类型数据库应当易于扩展处理速度快,CAP,NOSQL,BASE,不保证遵循ACID原则,分布式的,非关系型的,必须保证,两者权衡,一致性,可用性,分区容错性,BASE,灵活,高可用性,高性能,易扩展,NoSQL数据库的特点,定义一个大的有序结构数组HashValuem，用来存放各信息,查询,哈希表,哈希函数,当查询的时候再使用哈希函数得到这个下标值,编写一个哈希函数将关键值的名字转换为HashValuem中的某个下标值x,Key-value型,文档,集合,数据库,集合就是一组文档。

集合是无模式的。

多个文档组成集合,多个集合数据库。

它包含多个键/值对,文档中的键/值对是有序的,文档型数据库,分类,Examples举例,典型应用场景,数据模型,优点,缺点,键值（key-value）,TokyoCabinet/Tyrant,Redis,Voldemort,OracleBDB,内容缓存，主要用于处理大量数据的高访问负载，也用于一些日志系统等等。

Key指向Value的键值对，通常用hashtable来实现,查找速度快,数据无结构化，通常只被当作字符串或者二进制数据,列存储数据库,Cassandra,HBase,Riak,分布式的文件系统,以列簇式存储，将同一列数据存在一起,查找速度快，可扩展性强，更容易进行分布式扩展,功能相对局限,文档型数据库,CouchDB,MongoDb,Web应用（与Key-Value类似，Value是结构化的，不同的是数据库能够了解Value的内容）,Key-Value对应的键值对，Value为结构化数据,数据结构要求不严格，表结构可变，不需要像关系型数据库一样需要预先定义表结构,查询性能不高，而且缺乏统一的查询语法。

图形（Graph）数据库,Neo4J,InfoGrid,InfiniteGraph,社交网络，推荐系统等。

专注于构建关系图谱,图结构,利用图结构相关算法。

比如最短路径寻址，N度关系查找等,很多时候需要对整个图做计算才能得出需要的信息，而且这种结构不太好做分布式的集群方案。

这便是一个document，使用JSON格式，一目了然。

其中的geom即为Geometry类型的数据，即地理空间数据，也是采用JSON格式存储，这样后续的空间索引与空间查询将十分方便。

db.xqpoint.find（geom.coordinates:

122.53233,52.968872）邻域查询db.xqpoint.find（geom.coordinates:

$near:

122,52）db.xqpoint.find（geom.coordinates:

122,52）.limit（5）db.xqpoint.find（geom.coordinates:

122,52,$maxDistance:

5）.limit（5）,精确查询,范围查询,box=80,40,100,50db.xqpoint.find（geom.coordinates:

$within:

$box:

box）center=80,44radius=5db.xqpoint.find（geom.coordinates:

$center:

center,radius）polygon1=75,35,80,35,80,45,60,40db.xqpoint.find（geom.coordinates:

$polygon:

polygon1）,大数据研究带来的挑战,多源数据的分析和挖掘,空间大数据的位置安全,结合地理计算的可视分析,可扩展的动态海量数据管理,新的数据共享机制需要建立,

展开阅读全文