云计算与大数据处理.docx

资源描述

云计算与大数据处理.docx

《云计算与大数据处理.docx》由会员分享，可在线阅读，更多相关《云计算与大数据处理.docx（18页珍藏版）》请在冰点文库上搜索。

云计算与大数据处理.docx

云计算与大数据处理

考点：

云计算部分

云计算定义；云计算的特点；

云计算的三种不同部署模式；

Google文件系统的特点及平台结构；

云存储的相关解决方案；

云服务的三种类型及其特点；

虚拟化技术的特点；虚拟化的业界集中不同的解决方案；

云桌面的定义；桌面云的基本架构；无盘工作站的特点；

大数据处理部分

大数据的4V特征；

掌握hdfs中namenode与datanode的作用；

MapReduce处理模型；

理解WordCount程序处理流程；

Hadoop中运行MapReduce作业的工作原理；

1.Memcache主要应用于（B）

A. 静态页面缓存 B. 动态页面缓存 C. 页面片段缓存 D. 数据缓存

2.Mapreduce 适用于（D）

A.任意应用程序

B.任意可在 windows servet2008 上运行的程序

C.可以串行处理的应用程序

D.可以并行处理的应用程序

1.云计算的特点？

（ABCDE）

A．大规模B.平滑扩展C.资源共享D.动态分配E.跨地域

2.与传统的分布式程序设计相比，MapReduce 封装了（ABCD）等细节，还提供了一个简单而强大的接口。

A. 并行处理 B. 容错处理 C. 本地化计算 D. 负载均衡

3.云存储解决方案价值有哪些？

（ABCD）

A. 海量小文件的高效管理

B. PB级的存储空间与线行扩展能力

C. 可动态提升的性能

D. 数据高可靠性

4.目前，选用开源的虚拟化产品组建虚拟化平台，构建基于硬件的虚拟化层，可以选用（BCD）

A. Xen B. VMware

C. Hyper-v

D. Citrix

5.在云计算中，虚拟层主要包括（ABC）

A.服务器虚拟化

B.存储虚拟化

C.网络虚拟化

D.桌面虚拟化

6.云安全主要的考虑的关键技术有哪些？

（ABC）

A.数据安全

B.应用安全

C.虚拟化安全

D.服务器安全

7.Google 文件系统将整个系统的节点分为（ABC）的角色

A.客户端 B.主服务器 C.数据块服务器 D.监测服务器

8.云计算基础架构的层次结构中包含（ABCD）

A.基础设施层 B.中间件层 C.显示层 D.管理层

9.下列属于 Google 云计算平台技术架构的是（ ABC ）

A. 并行数据处理 MapReduce B.分布式锁 Chubby

C. 结构化数据表 BigTable D.弹性云计算 EC2

10.Hadoop项目包括（ABD）

A. Hadoop Distributed （HDFS）

B. Hadoop MapReduce编程模型

C. Hadoop Streaming

D. Hadoop Common

云计算部分：

云计算定义：

云计算模型能以按需方式，通过网络，方便的访问云系统的可配置计算资源共享池（如：

网络，服务器，存储，应用程序与服务）。

同时它以最少的管理开销及最少的与供应商的交互，迅速配置提供或释放资源。

1、狭义云计算：

是指IT基础设施的交付与使用模式，通过网络以按需、易扩展的方式获得所需的资源（硬件、平台、软件）。

提供资源的网络被称为“云”。

“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

2、广义云计算：

是指服务的交付与使用模式，通过网络以按需、易扩展的方式获得所需的服务。

这种服务可以是IT、软件与互联网相关的，也可以是其他任意的服务。

云计算特点：

1、自助式服务：

消费者无需同服务提供商交互就可得到自助的计算、资源能力，如服务器的服务、网络存储等。

2、无所不在的网络访问：

借助于不同的客户端来通过标准的应用对网络访问的可用能力。

3、服务可计量：

云系统对服务类型通过计量的方法来自动控制与优化资源使用，如存借助于不同的客户端来通过标准的应用对网络访问的可用能力。

4、划分独立资源池：

根据消费者的需求来动态地划分或释放不同的物理与虚拟资源。

5、快速弹性：

提供：

资源快速与弹性提供的能力

释放：

资源快速与弹性释放的能力。

对消费者来说，所提供的这种能力是无限的并且可在任何时间以任何量化方式购买。

云计算的三种不同部署模式：

公有云：

在此种模式下，应用程序、资源、存储与其他服务，都由云服务供应商来提供给用户，这些服务多半都是免费的，也有部分按需按使用量来付费，这种模式只能使用互联网来访问与使用。

同时，这种模式在私人信息与数据保护方面也比较有保证。

这种部署模型通常都可以提供可扩展的云服务并能高效设置。

私有云：

这种云基础设施专门为某一个企业服务，不管是自己管理还是第三方管理，自己负责还是第三方托管，都没有关系。

只要使用的方式没有问题，就能为企业带来很显着的帮助。

不过这种模式所要面临的是，纠正、检查等安全问题则需企业自己负责，否则除了问题也只能自己承担后果，此外，整套系统也需要自己出钱购买、建设与管理。

这种云计算模式可非常广泛的产生正面效益，从模式的名称也可看出，它可以为所有者提供具备充分优势与功能的服务。

混合云：

混合云是两种或两种以上的云计算模式的混合体，如公有云与私有云混合。

他们相互独立，但在云的内部又相互结合，可以发挥出所混合的多种云计算模型各自的优势。

Google文件系统的特点及平台结构：

特点：

以用户数据为中心；数据存储在云中；数据访问不收地理位置限制；数据能够很方便的共享。

平台结构：

Google文件系统海量数据分布存储技术（GFS）、

分布式计算编程模型MapReduce、

分布式锁服务Chubby

分布式结构化数据存储系统Bigtable等。

云存储的解决方案：

1、DAS

采用直接外挂存储方案的服务器结构如同PC机架构，外部数据存储设备采用SCSI技术，或者FC（FibreChannel）技术，直接挂接在内部总线上的方式，数据存储是整个服务器结构的一部分。

DAS依赖服务器主机操作系统进行数据的IO读写与存储维护管理，数据备份与恢复要求占用服务器主机资源（包括CPU、系统IO等），数据流需要回流主机再到服务器连接着的磁带机（库），数据备份通常占用服务器主机资源20-30%，直连式存储的数据量越大，备份与恢复的时间就越长，对服务器硬件的依赖性与影响就越大。

2、NAS（上图答案）

NAS是将存储设备作为存储系统的附加设备，通过网络连接到系统中。

网络附加存储是一个相对于普通服务器只少了大量计算功能的专用文件服务器，因此它的功能很完备。

它是一种将分布、独立的数据整合为大型、集中化管理的数据中心，以便于对不同主机与应用服务器进行访问的技术。

NAS是一种文件级的网络存储模式。

NAS拥有自己的文件系统，一般通过网络文件系统（Network，NFS）或通用因特网文件系统（CommonInternet，CIFS）对外提供文件访问服务。

NAS提供统一的存储接口，所有的存储设备连接到现有网络的网络拓扑结构相同，因此NAS的共享性很好。

NAS不仅仅是作为存储设备，更多的是作为数据备份与恢复的设备。

3、SAN

SAN是一种快速的专用子网，子网内部是通过光纤交换机、光纤路由器、光纤集线器等网络连接设备，将磁盘阵列、磁带等存储设备与相关服务器连接起来的。

SAN（存储区域网络）根据连接的方式分为光纤通道（FiberChannel，FC）SAN与IPSAN。

FCSAN是以光纤通道作为传输介质；

IPSAN技术是一种在传统IP以太网上架构一个SAN存储网络，通过IP以太网把服务器与存储设备连接起来的SAN存储技术。

IPSAN技术采用的是集中存储方式，大大提高了存储空间的利用率。

云服务的三种类型及特点:

三种类型：

IaaS、PaaS、SaaS

SaaS：

通过网络向最终用户提供软件应用服务。

SaaS能降低企业信息化成本，提高企业信息化水平，为用户提供一站式服务。

PaaS：

通过网络向用户提供可定制，可开发的平台服务。

例如应用开发环境、数据库服务、电信能力开放等。

IaaS：

通过网络为用户提供IT基础设施服务。

包括计算存储与网络资源出租、以及灾备、负载均衡、网络加速、综合信息等服务。

虚拟化技术的特点：

①软件实现：

以软件的方式模拟硬件，通过软件的方式逻辑切分服务器资源，形成统一虚拟资源池，创建虚拟机运行的独立环境。

②隔离运行：

运行在同一物理服务器上的多个虚拟机之间隔离，虚拟机与虚拟机之间互不影响。

包括计算隔离、数据隔离、存储隔离、网络隔离、访问隔离，虚拟机之间不会泄露数据，应用程序只能通过配置的网络连接进行通信。

③封装抽象：

操作系统与应用被封装成虚拟机，封装是虚拟机具有自由迁移能力的前提。

真实硬件被封装成标准化的虚拟硬件，整个虚拟机以文件形式保存，便于进行备份、移动与复制。

④硬件独立：

服务器虚拟化带来了虚拟机与硬件相互依赖性的剥离，为虚拟机的自由移动提供了良好的平台。

⑤广泛兼容：

兼容多种硬件平台，支持多种操作系统平台。

6.标准接口：

虚拟硬件遵循业界标准化接口，以保证兼容

虚拟化的业界集中不同的解决方案：

1.基于VirtualBox的虚拟化技术

模拟的环境：

VirtualBox能够安装多个客户端操作系统，每个客户端系统皆可

独立打开、暂停与停止。

主端操作系统与客户端操作系统皆能相

互通信，多个操作系统同时运行的环境也彼此能够同时使用网络。

功能特色：

①支持64位客户端操作系统，及时主机使用32位CPU；②支持SATA硬盘NCQ技术；③虚拟硬盘快照；④无缝视图模式；⑤能够在主机端与客户端共享剪贴板；⑥在主机端与客户端间创建共享文件夹；⑦自带远程桌面服务器；⑧支持VMwareVMDK软盘档及VirtualPCVHD软盘档格式；⑨3D虚拟化技术支持OpenGL；⑩最多虚拟32颗CPU；⑪支持VT-x与AMD-V硬件虚拟化技术；⑫iSCSI支持；⑬USB与USB2.0支持。

2.基于VMware的虚拟化技术

VMware是真正“同时”运行，多个操作系统在主系统的平台上，就像标准Windows程序那样切换。

而且每个操作系统用户都可以进行虚拟的分区、配置而不影响真实硬盘的数据，用户甚至可用过网卡将几台虚拟机用网卡连接成一个局域网。

主要产品：

VMware-ESX-Server、VMware-GSX-Server、VMware-WorkStation

VMware产品的主要功能：

①不需要分区或重开机就能在同一台计算机上使用两种以上的OS；②完全隔离并且保护不同OS的操作环境及所有安装在OS上的应用软件与资料；③不同的OS之间还能互动操作，包括网络、周边、文件分享及复制、粘贴功能；④有复原功能；⑤能够设定并且随时修改OS的操作环境；⑥能够热迁移，具有高可用性。

3.基于KVM的硬件虚拟化技术

KVM是通过简单地加载内核模块而将Linux内核转换成一个系统管理程序。

安装KVM之后，可以在用户空间启动客户操作系统。

每个客户操作系统都是主机操作系统的一个单个进程。

KVM向Linux中引入了一种除现有的内核与用户模式之外的新进程模式——客户模式，它用来执行客户的操作系统代码，但是只针对那些非I/O的代码。

4.基于Xen的虚拟化系统

Xen是一款半虚拟化的虚拟机监视器，调用系统管理程序时，要有选择地修改操作系统，不需要修改操作系统上运行的应用程序。

Xen虚拟机可以在不停止的情况下在多个物理主机之间实时迁移。

在操作过程中，虚拟机在没有停止工作的情况下内存被反复的复制到目标机器。

虚拟机在最终目的地开始执行之前，会有一次60-300秒的非常短暂的暂停以执行最终的同步化，给人无缝迁移的感觉。

云桌面的定义：

可以通过瘦客户端或者其他任何与网络相连的设备来访问跨平台的应用程序，以及整个客户桌面。

桌面云的基本架构：

虚拟桌面架构（VDI）：

通过在数据中心的服务器运行WindowsXP，将用户的桌面进行虚拟化。

用户通过来自客户端设备的瘦客户计算协议与虚拟桌面进行连接，用户访问虚拟桌面就像是访问传统的本地安装桌面一样。

两种方式实现：

①运行若干WindowsXP虚拟机的MicrosoftVirtualServer的VMwareServer，每个用户以一对一的方式连接到他们的VM；②安装WindowsXP刀片的刀片式服务器，每个用户以一对一的方式连接到刀片服务器。

基于服务器计算技术（server-basedcomputing，简称SBC）:

多用户共享一台主机，通过不同会话区分用户。

无盘工作站的特点：

只能分配固定的资源

只能运行一个统一的操作系统

需要保留除了硬盘以外传统PC所有硬件

前端设备有特殊的要求

大数据部分：

大数据的4V特征：

大量化（Volume）：

企业面临着数据量的大规模增长。

例如，IDC最近的报告预测称，到2020年，全球数据量将扩大50倍。

目前，大数据的规模尚是一个不断变化的指标，单一数据集的规模范围从几十TB到数PB不等。

简而言之，存储1PB数据将需要两万台配备50GB硬盘的个人电脑。

此外，各种意想不到的来源都能产生数据。

多样化（Variety）：

一个普遍观点认为，人们使用互联网搜索是形成数据多样性的主要原因，这一看法部分正确。

然而，数据多样性的增加主要是由于新型多结构数据，以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。

其中，部分传感器安装在火车、汽车与飞机上，每个传感器都增加了数据的多样性。

快速化（Velocity）：

高速描述的是数据被创建与移动的速度。

在高速网络时代，通过基于实现软件性能优化的高速电脑处理器与服务器，创建实时数据流已成为流行趋势。

企业不仅需要了解如何快速创建数据，还必须知道如何快速处理、分析并返回给用户，以满足他们的实时需求。

价值化（Value）：

大量的不相关信息，浪里淘沙却又弥足珍贵。

对未来趋势与模式的可预测分析，深度复杂分析（机器学习、人工智能Vs传统商务智能（咨询、报告等）

掌握hdfs读写过程：

HDFS文件写入过程：

1）Client（客户端）向NameNode发起文件写入的请求。

2）NameNode根据文件大小与文件块配置情况，检查用户是否具有写入文件的权限。

如果有，则可进行写入操作，否则返回异常。

3）文件写入过程中，Client将文件划分为多个packets，并向NameNode申请多个Block，返回DataNode的地址信息，然后顺序地以流水线的形式通过管道把packets送到每一个DataNode块中。

HDFS文件读取过程：

1）通过HDFS的Client向NameNode发起文件读取的请求。

2）NameNode返回文件存储的部分或者全部Block列表，对于每一个Block，NameNode返回该Block的DataNode的信息，即首地址。

3）Client选择最近的DataNode读取Block，如果Client本身就是一个DataNode，将直接读取本地Block信息。

4）读取完一个Block后，关闭与当前DataNode的连接，再重复前一个过程读取下一个Block，直到读取完所有的Block。

5）读完一批Block列表后，将读取下一批Block列表，直到读取完整个文件。

掌握hdfs中namenode与datanode的作用：

名称节点管理文件系统的命名空间。

它维护着这个文件系统树及这个树内所有的文件与索引目录。

这些信息以两种形式将文件永久保存在本地磁盘上：

命名空间镜像与编辑日志。

名称节点也记录着每个文件的每个块所在的数据节点，但它并不永久保存块的位置，因为这些信息会在系统启动时由数据节点重建。

数据节点是文件系统的工作者。

它们存储并提供定位块的服务（被用户或名称节点调用时），并且定时的向名称节点发送它们存储的块的列表。

MapReduce处理模型：

网络版本：

MapReduce是一个用于数据处理的编程模型，它简化了复杂的数据处理计算过程，它将数据处理过程分为两个阶段，即map阶段与reduce阶段。

每个阶段都将一系列key/value对作为输入与输出，其中的键与值的类型为MapReduce用户指定。

用户同时指定两个函数：

map函数与reduce函数。

用户自定义的map函数，接受一个输入key/value对，然后产生一系列临时中间key/value对。

我们把所有具有相同中间key的临时key/value对聚合在一起,然后把它们传递给reduce函数。

用户自定义的reduce函数，接受一个中间key与相关的一个value集。

它合并这些value，形成一个比较小的value集。

通常，每次reduce调用只产生1个输出value。

以这种函数式编写的程序能自动的在大规模的普通机器上并行的执行。

我们设计基于MapReduce模型的分布式系统时要特别关注以下细节：

分割输入数据；在机群上的执行调度；机器的错误处理；管理机群内机器之间必要的通信。

这样就允许系统用户在没有任何并行或分布式系统经验的情况下容易地利用大量分布式系统的资源。

其他版本：

在经典的MapReduce运行作业如图6-1所示。

在最高级别，有四种独立的实体：

客户端,负责提交MapReduce工作。

JobTracke,负责协调作业运行。

它是一个Java应用程序,其主类是JobTracker

TaskTracker，它运行已被分配好的作业任务。

它是一个Java应用程序,其主类是TaskTracker。

分布式文件系统（普通的HDFS），用于与其他实体间共享作业文件。

作业提交

hadoopjar[mainClass]args...

hadoopjarwordcount.jartest.WordCount

Jobclient的runJob（）创建JobClient实例并通过submitJob（）。

runJob（）每秒轮询作业进度，如果发现进度报告变化，便把进度报告到控制台。

作业完成后，如果成功就显示作业计数器。

如果失败，导致作业失败的错误被记录到控制台。

理解WordCount程序处理流程：

（1）将文件拆分为splits，并由MapReduce框架自动完成分割，将每一个split分割为对

（2）每一对调用一次map函数，处理后生产新的对，由Context传递给reduce处理

（3）Mapper对对进行按key值进行排序，并执行Combine过程，将key值相同的value进行合并。

最后得到Mapper的最终输出结果

（4）reduce处理，处理后将新的对输出。

Hadoop中运行MapReduce作业的工作原理：

第一部分：

MapReduce工作原理

MapReduce角色

•Client：

作业提交发起者。

•JobTracker:

初始化作业，分配作业，与TaskTracker通信，协调整个作业。

•TaskTracker：

保持JobTracker通信，在分配的数据片段上执行MapReduce任务。

提交作业

•在作业提交之前，需要对作业进行配置

•程序代码，主要是自己书写的MapReduce程序。

•输入输出路径

•其他配置，如输出压缩等。

•配置完成后，通过JobClinet来提交

作业的初始化

•客户端提交完成后，JobTracker会将作业加入队列，然后进行调度，默认的调度方法是FIFO调试方式。

任务的分配

•TaskTracker与JobTracker之间的通信与任务的分配是通过心跳机制完成的。

•TaskTracker会主动向JobTracker询问是否有作业要做，如果自己可以做，那么就会申请到作业任务，这个任务可以使Map也可能是Reduce任务。

任务的执行

•申请到任务后，TaskTracker会做如下事情：

•拷贝代码到本地

•拷贝任务的信息到本地

•启动JVM运行任务

状态与任务的更新

•任务在运行过程中，首先会将自己的状态汇报给TaskTracker，然后由TaskTracker汇总告之JobTracker。

•任务进度是通过计数器来实现的。

作业的完成

•JobTracker是在接受到最后一个任务运行完成后，才会将任务标志为成功。

•此时会做删除中间结果等善后处理工作。

第二部分：

错误处理

任务失败

•MapReduce在设计之出，就假象任务会失败，所以做了很多工作，来保证容错。

•一种情况:

子任务失败

•另一种情况：

子任务的JVM突然退出

•任务的挂起

TaskTracker失败

•TaskTracker崩溃后会停止向Jobtracker发送心跳信息。

•Jobtracker会将该TaskTracker从等待的任务池中移除。

并将该TaskTracker上的任务，移动到其他地方去重新运行。

•TaskTracker可以被JobTracker放入到黑名单，即使它没有失败。

JobTracker失败

•单点故障，Hadoop新的0.23版本解决了这个问题。

第三部分：

作业调度

FIFO

Hadoop中默认的调度器，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业

公平调度器

为任务分配资源的方法，其目的是随着时间的推移，让提交的作业获取等量的集群共享资源，让用户公平地共享集群。

具体做法是：

当集群上只有一个任务在运行时，它将使用整个集群，当有其他作业提交时，系统会将TaskTracker节点空间的时间片分配给这些新的作业，并保证每个任务都得到大概等量的CPU时间。

容量调度器

支持多个队列，每个队列可配置一定的资源量，每个队列采用FIFO调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。

调度时，首先按以下策略选择一个合适队列：

计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值，选择一个该比值最小的队列；然后按以下策略选择该队列中一个作业：

按照作业优先级与提交时间顺序选择，同时考虑用户资源量限制与内存限制。

但是不可剥夺式

第四部分：

Shuffle与排序

Mapreduce的map结束后，把数据重新组织，作为reduce阶段的输入，该过程称之为shuffle---洗牌。

而数据在Map与Reduce端都会做排序。

Map

•Map的输出是由collector控制的

•我们从collect函数入手

Reduce

•reduce的Shuffle过程，分成三个阶段：

复制Map输出、排序合并、reduce处理。

•主要代码在reduce的run函数

Shuffle优化

•首先Hadoop的Shuffle在某些情况并不是最优的，例如，如果需要对2集合合并，那么其实排

展开阅读全文