云计算与大数据概论教学指导Word文档格式.docx
《云计算与大数据概论教学指导Word文档格式.docx》由会员分享,可在线阅读,更多相关《云计算与大数据概论教学指导Word文档格式.docx(38页珍藏版)》请在冰点文库上搜索。
教师指明本章的重要性(开场白):
为什么要学习云计算与大数据,学好云计算与大数据的重要性。
(2)认识云计算与大数据
首先介绍云计算与大数据的概念和发展,然后讲解云计算与大数据的特点与作用。
(3)国内外云计算与大数据的发展
首先讲解国外云计算与大数据的发展,然后讲解我国政府对大数据实行的一些政策。
(4)私有云、公有云和混合云
介绍三者的基本概念。
(5)云计算与大数据的联系
介绍云计算与大数据是如何相辅相成的。
1.3讲解指导
1.3.1云计算和大数据的概念
讲解要点
1.云计算的发展
云计算是由分布计算、并行处理、网格计算发展而来,是一种新兴的商业计算模型。
2.云计算的特点和优势
超大规模、虚拟化、高可靠性、通用性、高可扩展性、按需服务、及其廉价,是目前普遍被大众接受的云计算的特点。
云计算的主要优势在于由技术特征和规模效应所带来的较高性价比,简单来说就是:
通过廉价的普通机器即可建立集群,因而能提供高性价比的计算和存储服务。
3.大数据的概念
按国内普遍的理解,大数据可以认为是具有数量巨大、来源多样、生成极快、多变等特征且难以使用传统数据体系有效处理的包含大量数据集的数据。
大数据技术包括数据采集、预处理、存储、分析挖掘与可视化等;
大数据应用则是对特定的大数据集和集成应用大数据系列技术与方法,以获得有价值信息的过程。
4.大数据的特点与作用
大数据的特征主要包括:
数据量大、种类和来源多样化、数据价值密度相对较低、数据增长速度和处理速度快、真实性。
大数据的作用包括:
带来社会和经济管理新方法、促进行业融合发展、推动产业转型升级、改变科学研究的方法论。
1.3.2云计算与大数据现状
1.国外云计算发展现状
总体来看,当前全球云计算市场的发展态势如下:
美国在云计算市场的领导地位进一步巩固,欧洲与日本是云计算市场的重要组成部分,以中国、印度、巴西等为代表的新兴国家云计算市场高速增长。
金砖国家巴西、俄罗斯、南非云计算市场占有率总和仅3%左右,但增速较快,且市场潜力较大,预计未来几年市场会进一步扩大。
2.我国云计算发展现状
云计算产业在中国的起步稍晚,但发展迅猛。
目前,中国IT业界涉足该行业的具体情况如下:
一是部分地方政府投入资源搭建平台,积极推进云计算发展。
二是本土IT企业和高校先后启动云计算项目,加速云计算研发和应用端建设。
3.国外大数据发展现状
欧美等国家对大数据的探索和发展已走在世界前列,各国政府都已将大数据发展提升至战略高度,大力推进大数据产业的发展。
美国政府提出“大数据研究和发展倡议”,发起全球开放政府数据运动。
英国政府也将大数据作为重点发展的科技领域,在发展8类高新技术的6亿英镑投资中,大数据的注资占三成。
4.我国大数据发展现状
在国家层面,科技部“十二五”计划部署了关于物联网、云计算发展的专项战略。
2012年3月,科技部发布《“十二五”国家科技计划信息技术领域2013年度备选项目征集指南》,其中“先进计算”板块明确提出,要发展“面向大数据的先进存储结构及关键技术”。
国家“973计划”“863计划”、国家自然科学基金等也分别设立了针对大数据的研究计划和专项。
在学术研究层面,国内许多高等院校和研究所成立了大数据的研究机构,与大数据相关的学术活动也纷纷开展。
在产业层面,国内不少知名企业或组织也成立了大数据产品团队和实验室,力争在大数据产业竞争中占据领先地位。
1.3.3云计算分类
1.私有云、公有云和混合云
公有云是由第三方(供应商)提供的云服务,由云提供商完全承载和管理,可通过Internet使用,成本比较低廉。
私有云是在企业内提供的云服务,这些云在公司防火墙之内,由企业管理。
混合云是公有云和私有云的混合,这些云一般由企业创建,而管理职责由企业和公有云提供商共同承担。
2.IaaS、PaaS、SaaS、DaaS
按服务类型,可以将云计算分为基础设施即服务、平台即服务、软件即服务、数据即服务四种类型。
IaaS(Infrastructure-as-a-Service):
基础设施即服务
IaaS即是把厂商的由多台服务器组成的“云端”基础设施作为计量服务提供给用户的模式。
PaaS(Platform-as-a-Service):
平台即服务
PaaS是指将软件研发的平台作为服务提供的模式,是将应用程序的基础结构视为服务,主要目的是支持应用程序运行。
SaaS(Software-as-a-Service):
软件即服务
使用SaaS模式的服务提供商将应用软件统一部署在自己的服务器上,用户根据需求,通过互联网向厂商订购应用软件服务,服务提供商通过浏览器向客户提供软件,并根据用户所定软件的数量以及时间的长短等因素收费。
DaaS(Data-as-a-Service):
数据即服务
DaaS就是把大数据中潜在的价值发掘出来,并根据用户需求提供服务的模式。
1.3.4云计算与大数据的联系
从技术上看,大数据根植于云计算,云计算关键技术中的海量数据存储和管理技术以及MapReduce并行编程模型都是大数据技术的基础,除此之外,云计算技术还包含了虚拟化技术和云平台管理等技术。
从整体上看,大数据与云计算是相辅相成的,大数据利用云计算的强大计算能力,可以更加迅速地处理海量数据的丰富信息,为用户提供更加方便的服务;
而通过大数据的业务需求,也能为云计算的落地找到更多更好的实际应用。
1.4课堂总结
3.通过提问的方式,检查学生当堂课的学习效果。
4.布置课后作业。
1.5Q&
A
5.云计算分为哪三种类型?
以所有权为划分标准,可将云计算分为公有云、私有云和混合云三种类型。
6.云计算的主要优势是什么?
7.简述大数据的特征与作用?
第2章云计算技术
■了解虚拟化技术的发展历史
■掌握虚拟化技术的定义及特点
■掌握虚拟化技术的分类
■掌握服务器虚拟化的原理
■掌握分布式技术的定义及特点
■了解典型的分布式文件系统
■了解典型的分布式数据库
■虚拟化技术的概念
■分布式技术的定义及特点
2.1预习检查、目标、任务部分
在20世纪,虚拟化技术基本只是在服务器和普通PC机上应用。
进入21世纪之后,随着IT产业的发展,虚拟化的思路被进一步借用到存储、网络、桌面应用等其他领域,这些技术带给用户多样化的应用和选择,进而推动了虚拟化技术的广泛应用。
计算机虚拟化(Virtualization),简单来说,是指计算机相关模块在虚拟的基础上而不是真实独立的物理硬件基础上运行,这种把有限的固定资源根据不同的需求进行重新规划以达到最大利用率,从而实现简化管理、优化资源等目的的思路,就叫做虚拟化技术。
检查的主要内容有虚拟化技术的概念及优势,分布式文件系统和数据库有哪些。
目标是讲解虚拟化技术的概念和发展史,分布式文件系统的架构和原理。
2.2本章授课思路
本章依次讲解了5个问题:
虚拟化技术的发展史、虚拟化技术的概念和实现、虚拟化技术的应用领域,分布式文件系统的架构以及分布式数据库。
(6)章节引入
为什么要学习虚拟化与分布式技术。
(7)了解虚拟化技术
虚拟化技术的发展史、概念、实现和应用领域
(8)分布式技术
布式文件系统的最大特点是:
数据分散存储在分布式文件系统的各个独立节点上,供用户透明地存取。
分布式计算将大任务化为小任务,任务之间相互独立,上个任务的结果未返回或者是结果处理错误,对下一个任务的处理几乎没有什么影响,因此,分布式的实时性要求不高,而且允许存在计算错误。
2.3讲解指导
2.3.1虚拟化技术
8.发展史
1959年,英国计算机科学家ChristopherStrachey发表了一篇学术报告,题为《大型高速计算机中的时间共享》(TimeSharinginLargeFastComputers),在文中提出了虚拟化的基本概念。
1972年,IBM发布了用于创建灵活大型主机的虚拟机(VirtualMachine,缩写为VM)技术,该技术可以根据动态的需求快速而有效地分配各种资源,自此,一批拥有虚拟化功能的新产品涌现出来。
9.概念
10.实现
基础设施虚拟化、系统虚拟化、软件虚拟化。
11.应用领域
应用程序虚拟化、服务器虚拟化、桌面虚拟化、网络虚拟化、存储虚拟化。
2.3.2分布式技术
12.分布式文件系统
分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源并不一定直接连接在本地节点上,也有可能是通过计算机网络与节点相连,亦称集群文件系统,可以支持大数量的节点以及PB级的数据存储。
分布式文件系统的最大特点是:
中心化体系架构是以一个系统中的节点作为中心节点,其他节点直接与该中心节点相连而构成的网络。
相对于中心化体系架构,去中心化体系架构中不再存在某种中心节点,此类架构每个节点的功能都是类似的或者说对称的。
13.分布式数据库系统
分布式数据库系统,通俗地说,就是物理上分散而逻辑上集中的数据库系统。
分布式数据库系统使用计算机网络,将地理位置分散但管理和控制又需要不同程度集中的多个逻辑单位(通常是集中式数据库系统)连接起来,共同成一个统一的数据库系统。
因此,分布式数据库系统可以看成是计算机网络与数据库系统的有机结合。
目前几种主流的分布式数据库系统:
BigTable、Hbase、CouchDB、MongoDB。
14.分布式计算
传统上认为,分布式计算是一种把需要进行大量计算的数据分割成小块,由多台计算机分别计算后上传计算结果,再将结果合并起来得出所需结果的计算方式。
一般来说,分布式计算具有以下特征:
✧由于网络可跨越的范围非常广,因此如果设计得当,分布式计算的可扩展性会非常好。
✧分布式计算中的每个节点都有自己的处理器和内存,并且该节点的处理器只能访问自己的内存。
✧在分布式计算中,节点之间的通信以消息传递为主,数据传输较少,因此每个节点看不到全局,只知道自己负责部分的输入和输出。
✧在分布式计算中,节点的灵活性很大,单个节点可随时加入或退出,各个节点的配置也不尽相同,但一个拥有良好设计的分布式计算机制应该保证整个系统的可靠性不受单个节点的影响。
2.4课堂总结
15.回顾当前章节的目标、任务、总结当前章节的重点、难点
16.通过提问的方式,检查学生当堂课的学习效果。
17.布置课后作业。
2.5Q&
18.虚拟化技术的概念及优势?
虚拟化技术具有以下优势:
虚拟化技术可以大大提高资源的利用率。
虚拟化技术可以提供相互隔离的安全、高效的应用执行环境。
虚拟化系统能够方便地管理和升级资源。
19.分布式文件系统的架构有哪些?
设计原理分别是什么?
中心化体系架构:
去中心化体系架构:
第3章云计算平台
■掌握Google云计算体系结构
■掌握Google文件系统GFS
■了解GoogleAppEngine
■掌握Amazon云平台相关技术和服务
■了解微软云平台服务
■了解阿里云平台、XX云平台和腾讯云平台服务
3.1预习检查、目标、任务部分
Google拥有全球最强大的搜索引擎。
除了搜索业务以外,Google还有GoogleMaps、GoogleEarth、Gmail、YouTube等各种业务。
这些应用的共性在于数据量巨大,而且要面向全球用户提供实时服务,因此Google必须解决海量数据存储和快速处理问题。
Google的诀窍在于它发展出简单而又高效的技术,让多达百万台的廉价计算机协同工作,共同完成这些前所未有的任务,这些技术是在诞生几年之后才被命名为Google云计算技术。
检查的主要内容有Google云平台核心技术有哪些,国内目前流行的云平台有哪些。
目标是讲解Google核心云平台技术。
3.2本章授课思路
Google云平台、Amazon云平台、微软Azure云平台、阿里云服务平台、XX开发者云服务以及腾讯云服务平台。
(9)章节引入
讲解云计算平台的重要性和Google云平台的体系结构。
(10)Google云平台
Google云计算技术主要包括:
Google文件系统GFS、并行计算编程模型MapReduce、分布式锁服务Chubby、分布式结构化数据存储系统BigTable、分布式存储系统Megastore以及分布式监控系统Dapper等。
(11)Amazon云平台
Amazon的云计算服务主要包括:
弹性计算云服务EC2、简单存储服务S3、简单数据库服务SimpleDB、简单队列服务SQS、弹性MapReduce服务、内容推送服务CloudFront、移动服务、安全服务和身份服务等。
这些服务涉及云计算的方方面面,用户可以根据自己的需要选用一个或多个,而且所有这些服务都是按需获取计算资源,具有极强的可扩展性和灵活性。
(12)微软Azure云平台
WindowsAzure平台是一个为应用程序提供托管和运行的互联网规模的平台,该平台完全按照云计算的要求和技术构建,比如资源按需动态分配,开发人员只需针对平台开发应用程序,而不用关心底层平台的安全、系统升级、补丁安装等具体情况。
(13)阿里云服务平台
阿里云服务器(ElasticComputeService,简称ECS)是一种简单高效、处理能力可弹性伸缩的云计算服务,能够帮助用户快速构建更稳定、更安全的应用,提升运维效率,降低IT成本,使企业更专注于核心业务创新。
(14)XX开发者云服务
XX云计算(BaiduCloudCompute,简称BCC)是基于XX虚拟化技术及分布式集群操作系统构建的云服务器,允许用户在任何时间、任何地点轻松构建包括网站站点、移动应用、在线游戏、企业级服务等在内的任何应用与服务。
BCC支持弹性伸缩、镜像及快照,支持分钟级丰富灵活的计费模式。
(15)腾讯云服务平台
腾讯云平台作为云上互联网的供应商,致力于打造高质量、最佳生态的公有云服务平台。
3.3讲解指导
本章建议参考授课思路进行讲解,重点讲解Google云平台的体系结构、核心技术和GoogleAppEngine。
。
3.4课堂总结
20.回顾当前章节的目标、任务、总结当前章节的重点、难点
21.通过提问的方式,检查学生当堂课的学习效果。
22.布置课后作业。
3.5Q&
23.Google云计算技术主要包括哪些?
24.Google文件系统(GFS)的特点?
GFS的特点:
单Master模式、块规模为64MB、不缓存文件数据,缓存元数据。
第4章大数据技术
■掌握大数据应用系统架构
■了解常用数据挖掘算法
■了解常用可视化工具
■掌握Google提供的大数据服务
■了解微软、IBM等提供的大数据服务
■掌握目前主要开源大数据平台
4.1预习检查、目标、任务部分
随着Hadoop项目的不断发展,围绕着Hadoop已经形成了一个庞大的生态系统,如Hadoop的族群中的分布式数据仓库Hive、分布式数据库HBase、机器学习类库Mahout等项目。
此外,数据分析也是大数据处理流程中的重要环节,如与企业级数据仓库集成、进行数据库内分析或使用分析工具。
此外,云计算服务商也提供了基于云的分析大数据的服务,如亚马逊的弹性MapReduce服务。
检查的主要内容有目前关键的大数据技术都有哪些。
参照PPT教师引导说明本章的任务及目标,目标是讲解大数据的应用系统架构、关键的大数据技术。
4.2本章授课思路
本章依次讲解了4个问题:
大数据应用系统架构、大数据关键技术、主流大数据服务、开源大数据平台。
(16)章节引入
讲解大数据技术的重要性。
(17)大数据应用系统架构
大数据的产生、组织和处理主要是通过分布式文件处理系统实现的,目前的主流技术为Hadoop+MapReduce。
Apache大数据应用平台的总体架构由以下几部分组成:
Servers、OperatingSystem和Hypervisor、StorageFramework、ProcessingFramework、Network、AccessFramework、Hive、Sqoop、Pig、Hive等。
(18)大数据关键技术
大数据技术就是从各种类型的数据中快速获得有价值信息的技术。
大数据领域的关键技术包括:
大数据收集、大数据预处理、大数据存储、大数据处理、大数据挖掘、大数据分析与可视化、大数据安全等。
(19)主流大数据服务
Percolator、Pregel、Dremel、HDInsight、InfoSphere。
(20)开源大数据平台
Hadoop、Storm、Spark。
4.3讲解指导
4.3.1大数据应用系统架构
25.架构的原则
一满足大数据“5V”的要求,具备大容量数据的加载、处理和分析的能力;
具备各种类型数据的加载、处理和分析的能力;
满足大数据处理速度的要求。
二满足企业级应用的要求,具有高可扩展性、高可用性、安全性、开放性和易用性。
三满足对原始格式数据进行分析的要求,系统具备对复杂的原始格式数据进行整合分析的能力。
26.Apache大数据应用系统架构模型
Servers:
整个系统的基础,系统的物理服务器。
OperatingSystem和Hypervisor为物理服务器之上的虚拟机或操作系统。
StroageFramework:
数据存储,在Apache提供的模型中,数据存放于HDFS。
ProcessingFramework:
数据处理,采用MapReduce处理模型。
Network:
多台服务器通过网络构成整个分布式大数据系统。
AccessFramework:
访问层,主要完成为对已经存储的数据进行统计分析等工作,通过Pig、Hive、Sqoop工具对数据进行处理和访问。
27.企业大数据应用系统架构模型
大数据应用架构参考模型可分为五层,分别是数据源、存储层、计算层、分析层、应用层。
4.3.2大数据关键技术
1.数据收集技术
目前,数据收集一般可分为设备数据收集和Web数据爬取两类,常用的数据收集软件有Splunk、Sqoop、Flume以及各种网络爬虫,如Heritrix、Nutch等
2.数据预处理技术
数据预处理的引入能够提升数据质量,并使后续的数据处理、分析、可视化过程更加容易、有效,有助于获得更好的用户体验。
在形式上,数据预处理包括数据清理、数据集成、数据归约和数据转换等阶段
3.数据存储技术
分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错性好等特点。
分布式文件系统是由多个网络节点组成的、向上层应用提