大数据云计算系统高级架构师课程学习路线图.docx

资源描述

大数据云计算系统高级架构师课程学习路线图.docx

《大数据云计算系统高级架构师课程学习路线图.docx》由会员分享，可在线阅读，更多相关《大数据云计算系统高级架构师课程学习路线图.docx（26页珍藏版）》请在冰点文库上搜索。

大数据云计算系统高级架构师课程学习路线图.docx

大数据、云计算系统高级架构师课程学习路线图

大数据之Linux+大数据开发篇

Java Linux基础 Shell编程 Hadoop2.x HDFS YARN MapReduce ETL数据清洗Hive Sqoop Flume/Oozieo 大数据WEB工具Hue HBase Storm Storm ScalaSpark Spark核心源码剖析 CM5.3.x管理 CDH5.3.x集群

项目部分

项目一:

北风网用户行为分析项目二:

驴妈妈离线电商平台分析平台项目三:

基于Spark技术实现的大型离线电商数据分析平台

大数据之阿里云企业级认证篇

阿里云数据处理和分析报表场景的实现（企业案例）企业自助沙箱实验（10个）阿里云企业认证（ACP11003模块）

大数据之Java企业级核心技术篇

Java性能调优 Tomcat、Apache集群数据库集群技术分布式技术 WebLogic企业级技术

大数据之PB级别网站性能优化篇

CDN镜像技术虚拟化云计算共享存储海量数据队列缓存 Memcached+Redis\No-SqlLVS负载均 Nginx

项目部分

PB级通用电商网站性能优化解决方案

大数据之数据挖掘\分析&机器学习篇

Lucene 爬虫技术 Solr集群 KI分词 Apriori算法 Tanagra工具决策树贝叶斯分类器人工神经网络 K均值算法层次聚类聚类算法 SPSSModeler R语言数据分析模型统计算法回归聚类数据降维关联规则决策树 Mahout->Python金融分析

项目部分

项目一:

地震预警分析系统项目二:

文本挖掘（Mathout\中文分词）项目三:

电商购物车功能实现（R语言）项目四:

使用Python构建期权分析系统

大数据之运维、云计算平台篇

Zookeeper Docker OpenStack云计算

项目部分

项目部分:

Maven+Jenkins、日志管理ELK、WordPress博客

了解更多详情

课程体系

北风大数据、云计算系统架构师高级课程

阶段一、大数据、云计算-Hadoop大数据开发技术

课程一、大数据运维之Linux基础

本部分是基础课程，帮大家进入大数据领域打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等众多课程。

因为企业

中的项目基本上都是使用Linux环境下搭建或部署的。

1）Linux系统概述

2）系统安装及相关配置

3）Linux网络基础

4）OpenSSH实现网络安全连接

5）vi文本编辑器

6）用户和用户组管理

7）磁盘管理

8）Linux文件和目录管理

9）Linux终端常用命令

10）linux系统监测与维护

课程二、大数据开发核心技术-Hadoop2.x从入门到精通

本课程是整套大数据课程的基石：

其一，分布式文件系统HDFS用于存储海量数据，无论是Hive、HBase或者Spark数据存储在其上面；其二是分布式资源管理框架

YARN，是Hadoop云操作系统（也称数据系统），管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控；分布式并行计算框架

MapReduce目前是海量数据并行处理的一个最常用的框架。

Hadoop2.x的编译、环境搭建、HDFSShell使用，YARN集群资源管理与任务监控，MapReduce编

程，分布式集群的部署管理（包括高可用性HA）必须要掌握的。

一、初识Hadoop2.x

1）大数据应用发展、前景

2）Hadoop2.x概述及生态系统

3）Hadoop2.x环境搭建与测试

二、深入Hadoop2.x

1）HDFS文件系统的架构、功能、设计

2）HDFSJavaAPI使用

3）YARN架构、集群管理、应用监控

4）MapReduce编程模型、Shuffle过程、编程调优

三、高级Hadoop2.x

1）分布式部署Hadoop2.x

2）分布式协作服务框架Zookeeper

3）HDFSHA架构、配置、测试

4）HDFS2.x中高级特性

5）YARNHA架构、配置

6）Hadoop主要发行版本（CDH、HDP、Apache）

四、实战应用

1）以【北风网用户浏览日志】数据进行实际的分析2）原数据采集3）数据的预处理（ETL）4）数据的分析处理（MapReduce）

课程三、大数据开发核心技术-大数据仓库Hive精讲

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行

运行。

其优点是学习成本低，可以通类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

一、Hive初识入门

1）Hive功能、体系结构、使用场景

2）Hive环境搭建、初级使用

3）Hive原数据配置、常见交互方式

二、Hive深入使用

1）Hive中的内部表、外部表、分区表

2）Hive数据迁移

3）Hive常见查询（select、where、distinct、join、groupby）

4）Hive内置函数和UDF编程

三、Hive高级进阶

1）Hive数据的存储和压缩

2）Hive常见优化（数据倾斜、压缩等）

四、结合【北风网用户浏览日志】实际案例分析

1）依据业务设计表

2）数据清洗、导入（ETL）

3）使用HiveQL，统计常见的网站指标

课程四、大数据协作框架-Sqoop/Flume/Oozieo精讲

Sqoop是一款开源的工具，主要用于在Hadoop（Hive）与传统的数据库（mysql、postgresql...）间进行数据的传递，可以将一个关系型数据库（例如：

MySQL

Oracle,Postgres等）中的数据导进到关系型数据库中。

Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部

署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

一、数据转换工具Sqoop

1）Sqoop功能、使用原则

2）将RDBMS数据导入Hive表中（全量、增量）

3）将HDFS上文件导出到RDBMS表中

二、文件收集框架Flume

1）Flume设计架构、原理（三大组件）

2）Flume初步使用，实时采集数据

3）如何使用Flume监控文件夹数据，实时采集录入HDFS中4）任务调度框架Oozie

三、Oozie功能、安装部署

1）使用Oozie调度MapReduceJob和HiveQL

2）定时调度任务使用

课程五、大数据Web开发框架-大数据WEB工具Hue精讲

Hue是一个开源的ApacheHadoopUI系统，最早是由ClouderaDesktop演化而来，由Cloudera贡献给开源社区，它是基于PythonWeb框架Django实现的。

通

过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduceJob等等。

1）Hue架构、功能、编译

2）Hue集成HDFS

3）Hue集成MapReduce

4）Hue集成Hive、DataBase

5）Hue集成Oozie

课程六、大数据核心开发技术-分布式数据库HBase从入门到精通

HBase是一个分布式的、面向列的开源数据库，该技术来源于FayChang所撰写的Google论文“Bigtable：

一个结构化数据的分布式存储系统”。

HBase在

Hadoop之上提供了类似于Bigtable的能力，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PCServer上搭建起大

规模结构化存储集群

一、HBase初窥使用

1）HBase是什么、发展、与RDBMS相比优势、企业使用

2）HBaseSchema、表的设计

3）HBase环境搭建、shell初步使用（CRUD等）

二、HBase深入使用

1）HBase数据存储模型

2）HBaseJavaAPI使用（CRUD、SCAN等）

3）HBase架构深入剖析

4）HBase与MapReduce集成、数据导入导出

三、HBase高级使用

1）如何设计表、表的预分区（依据具体业务分析讲解）

2）HBase表的常见属性设置（结合企业实际）

3）HBaseAdmin操作（JavaAPI、常见命令）

四、【北风网用户浏览日志】进行分析

1）依据需求设计表、创建表、预分区

2）进行业务查询分析

3）对于密集型读和密集型写进行HBase参数调优

课程七、大数据核心开发技术-Storm实时数据处理

Storm是Twitter开源的分布式实时大数据处理框架，被业界称为实时版Hadoop。

随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、

推荐系统、预警系统、金融系统（高频交易、股票）等等，大数据实时处理解决方案（流计算）的应用日趋广泛，目前已是分布式技术领域最新爆发点，而Storm更是

流计算技术中的佼佼者和主流。

按照storm作者的说法，Storm对于实时计算的意义类似于Hadoop对于批处理的意义。

Hadoop提供了map、reduce原语，使我

们的批处理程序变得简单和高效。

同样，Storm也为实时计算提供了一些简单高效的原语，而且Storm的Trident是基于Storm原语更高级的抽象框架，类似于基于

Hadoop的Pig框架，让开发更加便利和高效。

本课程会深入、全面的讲解Storm，并穿插企业场景实战讲述Storm的运用。

淘宝双11的大屏幕实时监控效果冲击

了整个IT界，业界为之惊叹的同时更是引起对该技术的探索。

学完本课程你可以自己开发升级版的“淘宝双11”，还等什么？

1）Storm简介和课程介绍

2）Storm原理和概念详解

3）Zookeeper集群搭建及基本使用

4）Storm集群搭建及测试

5）API简介和入门案例开发

6）Spout的Tail特性、storm-starter及maven使用、Grouping策略

7）实例讲解Grouping策略及并发

8）并发度详解、案例开发（高并发运用）

9）案例开发——计算网站PV，通过2种方式实现汇总型计算。

10）案例优化引入Zookeeper锁控制线程操作

11）计算网站UV（去重计算模式）

12）【运维】集群统一启动和停止shell脚本开发

13）Storm事务工作原理深入讲解14）Storm事务API及案例分析

15）Storm事务案例实战之ITransactionalSpout

16）Storm事务案例升级之按天计算

17）Storm分区事务案例实战

18）Storm不透明分区事务案例实战

19）DRPC精解和案例分析

20）StormTrident入门

21）TridentAPI和概念

22）StormTrident实战之计算网站PV

23）ITridentSpout、FirstN（取TopN）实现、流合并和Join

24）StormTrident之函数、流聚合及核心概念State

25）StormTrident综合实战一（基于HBase的State）

26）StormTrident综合实战二

27）StormTrident综合实战三

28）Storm集群和作业监控告警开发

课程八、Spark技术实战之基础篇-Scala语言从入门到精通

为什么要学习Scala？

源于Spark的流行，Spark是当前最流行的开源大数据内存计算框架，采用Scala语言实现，各大公司都在使用Spark：

IBM宣布承诺大力推进

ApacheSpark项目，并称该项目为：

在以数据为主导的，未来十年最为重要的新的开源项目。

这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台，

Scala具有数据处理的天然优势，Scala是未来大数据处理的主流语言

1）kafka是什么

2）kafka体系结构

3）kafka配置详解

4）kafka的安装

5）kafka的存储策略

6）kafka分区特点

7）kafka的发布与订阅

8）java编程操作kafka

9）scala编程操作kafka

10）flume和kafka的整合

11）Kafka和storm的整合

课程九、大数据核心开发技术-内存计算框架Spark精讲

Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点。

启用了内存分布数据集，除

了能够提供交互式查询外，它还可以优化迭代工作负载。

SparkStreaming:

构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断

（几秒），以类似batch批量处理的方式来处理这小部分数据

1）Spark初识入门

2）Spark概述、生态系统、与MapReduce比较

3）Spark编译、安装部署（StandaloneMode）及测试

4）Spark应用提交工具（spark-submit，spark-shell）

5）Scala基本知识讲解（变量，类，高阶函数）

6）Spark核心RDD

7）RDD特性、常见操作、缓存策略

8）RDDDependency、Stage常、源码分析

9）Spark核心组件概述

10）案例分析

11）Spark高阶应用

12）SparkonYARN运行原理、运行模式及测试

13）SparkHistoryServer历史应用监控

14）SparkStreaming流式计算

15）SparkStreaming原理、DStream设计

16）SparkStreaming常见input、out

17）SparkStreaming与Kafka集成

18）使用Spark对【北风网用户浏览日志】进行分析

课程十、大数据核心开发技术-Spark深入剖析

本课程主要讲解目前大数据领域热门、火爆、有前景的技术——Spark。

在本课程中，会从浅入深，基于大量案例实战，深度剖析和讲解Spark，并且会包含

完全从企业真实复杂业务需求中抽取出的案例实战。

课程会涵盖Scala编程详解、Spark核心编程、SparkSQL和SparkStreaming、Spark内核以及源码剖析、

性能调优、企业级案例实战等部分

1）Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优、SparkSQL、SparkStreaming

2）Spark源码剖析

3）基于排序的wordcount，Spark二次排序，Spark分组取topn，DataFrame与RDD的两种转换方式，SparkSQL的内置函数、开窗函数、

UDF、UDAF，SparkStreaming的KafkaDirectAPI、updateStateByKey、transform、滑动窗口、foreachRDD性能优化、与Spark

SQL整合使用、持久化、checkpoint、容错与事务

4）项目实战：

多个从企业实际需求抽取出的复杂案例实战：

每日uv和销售额统计案例、top3热卖商品统计案例、每日top3热点搜索词统计、广

告计费日志实时黑名单过滤案例、热点搜索词滑动统计案例、top3热门商品实时统计案例

课程十一、企业大数据平台高级应用

本阶段主要就之前所学内容完成大数据相关企业场景与解决方案的剖析应用及结合一个电子商务平台进行实战分析，主要包括有：

企业大数据平台概述、搭建企业

大数据平台、真实服务器手把手环境部署、使用CM5.3.x管理CDH5.3.x集群

1）企业大数据平台概述

2）大数据平台基本组件

3）Hadoop发行版本、比较、选择

4）集群环境的准备（系统、基本配置、规划等）

5）搭建企业大数据平台

6）以实际企业项目需求为依据，搭建平台

7）需求分析（主要业务）

8）框架选择（Hive\HBase\Spark等）

9）真实服务器手把手环境部署

10）安装ClouderaManager5.3.x

11）使用CM5.3.x安装CDH5.3.x

12）如何使用CM5.3.x管理CDH5.3.x集群

13）基本配置，优化

14）基本性能测试

15）各个组件如何使用

课程十二、项目实战：

驴妈妈旅游网大型离线数据电商分析平台

离线数据分析平台是一种利用hadoop集群开发工具的一种方式，主要作用是帮助公司对网站的应用有一个比较好的了解。

尤其是在电商、旅游、银行、证券、游戏

等领域有非常广泛，因为这些领域对数据和用户的特性把握要求比较高，所以对于离线数据的分析就有比较高的要求了。

本课程讲师本人之前在游戏、旅游等公司

专门从事离线数据分析平台的搭建和开发等，通过此项目将所有大数据内容贯穿，并前后展示！

1）Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、离线数据分析，SpringMVC，Highchat

2）Flume+Hadoop+Hbase+SpringMVC+MyBatis+MySQL+Highcharts实现的电商离线数据分析

3）日志收集系统、日志分析、数据展示设计

课程十三、项目实战：

基于1号店的电商实时数据分析系统

课程基于1号店的业务及数据进行设计和讲解的，主要涉及

1、课程中完整开发3个Storm项目，均为企业实际项目，其中一个是完全由StormTrident开发。

项目源码均可以直接运行，也可直接用于商用或企业。

2、每个技术均采用最新稳定版本，学完后会员可以从Kafka到Storm项目开发及HighCharts图表开发一个人搞定！

让学员身价剧增！

3、搭建CDH5生态环境完整平台，且采用ClouderaManager界面化管理CDH5平台。

让Hadoop平台环境搭建和维护都变得轻而易举。

4、分享实际项目的架构设计、优劣分析和取舍、经验技巧，陡直提升学员的经验值

1）全面掌握Storm完整项目开发思路和架构设计

2）掌握StormTrident项目开发模式

3）掌握Kafka运维和API开发、与Storm接口开发

4）掌握HighCharts各类图表开发和实时无刷新加载数据

5）熟练搭建CDH5生态环境完整平台

6）灵活运用HBase作为外部存储

7）可以做到以一己之力完成从后台开发（Storm、Kafka、Hbase开发）

到前台HighCharts图表开发、Jquery运用等，所有工作一个人搞定！

可以一个人搞定淘宝双11大屏幕项目！

课程十四、项目实战：

基于某团购网的大型离线电商数据分析平台

本项目使用了Spark技术生态栈中最常用的三个技术框架，SparkCore、SparkSQL和SparkStreaming，进行离线计算和实时计算业务模块的开发。

实现了包括用

户访问session分析、页面单跳转化率统计、热门商品离线统计、广告点击流量实时统计4个业务模块。

过合理的将实际业务模块进行技术整合与改造，该项目完全

涵盖了SparkCore、SparkSQL和SparkStreaming这三个技术框架中几乎所有的功能点、知识点以及性能优化点。

仅一个项目，即可全面掌握Spark技术在实际项

目中如何实现各种类型的业务需求！

在项目中，重点讲解了实际企业项目中积累下来的宝贵的性能调优、troubleshooting以及数据倾斜解决方案等知识和技术

1）真实还原完整的企业级大数据项目开发流程：

项目中采用完全还原企业大数据项目开发场景的方式来讲解，每一个业务模块的讲解都包括了数据分

析、需求分析、方案设计、数据库设计、编码实现、功能测试、性能调优、troubleshooting与解决数据倾斜（后期运维）等环节，真实还原

企业级大数据项目开发场景。

让学员掌握真实大数据项目的开发流程和经验！

2）现场Excel手工画图与写笔记：

所有复杂业务流程、架构原理、Spark技术原理、业务需求分析、技术实现方案等知识的讲解，采用Excel画

图或者写详细比较的方式进行讲解与分析，细致入微、形象地透彻剖析理论知识，帮助学员更好的理解、记忆与复习巩固。

课程十五、大数据高薪面试剖析

本阶段通过对历来大数据公司企业真实面试题的剖析，讲解，让学员真正的一个菜鸟转型为具有1年以上的大数据开发工作经验的专业人士，也是讲师多年来大数据

企业开发的经验之谈。

1）大数据项目

2）企业大数据项目的类型

3）技术架构（如何使用各框架处理数据）

4）冲刺高薪面试

5）面试简历编写（把握重点要点）

6）面试中的技巧

7）常见面试题讲解

8）如何快速融入企业进行工作（对于大数据公司来说非常关键）

9）学员答疑

10）针对普遍问题进行公共解答

11）一对一的交流

阶段二、阿里云企业级大数据认证技术培训

课程十六、ACP11003全面理解阿里云上的数据处理和分析

如何快速有效的处理海量数据，并从中分析出宝贵的信息内容是每一个架构师和开发者梦寐以求的目标；对于运维人员来说，怎样部署维护庞大复杂的集群系统也是

一个非常现实的问题。

本课程将向您详细介绍阿里云的DRDS、RDS、OTS、ODPS、ADS及DPC等相关数据处理和分析服务。

课程由专业的阿里云讲师主讲，结合

s丰富的实验资源，对阿里云产品、技术、解决方案等进行专业讲解和引导。

一、课程价值

1）架构师和开发人员：

如何快速有效的处理海量数据，

并从中分析出宝贵的信息内容

2）运维人员：

怎样部署维护庞大复杂的集群系统

二、课程内容

1）详细介绍阿里云的DRDS、RDS、OTS、ODPS、ADS及DPC

等相关数据处理和分析服务。

2）真实客户案例：

报表场景的实现

阶段三、大数据、云计算-Java企业级核心应用

课程十七、深入Java性能调优

国内关于Java性能调优的课程非常少，如此全面深入介绍Java性能调优，北风算是，Special讲师，十余年Java方面开发工作经验，资深软件开发系统架构师，

本套课程系多年工作经验与心得的总结，课程有着很高的含金量和实用价值，本课程专注于java应用程序的优化方法，技巧和思想，深入剖析软件设计层面、代码层面、JVM虚拟机层面的优化方法，理论结合实际，使用丰富的示例帮助学员理解理论知识。

课程十八、JAVA企业级开放必备高级技术（WeblogicTomcat集群Apach集群）

Java自面世后就非常流行，发展迅速，对C++语言形成有力冲击。

在全球云计算和移动互联网的产业环境下，Java更具备了显著优势和广阔前景，那么滋生的基于

java项目也越来越多，对java运行环境的要求也越来越高，很多java的程序员只知道对业务的扩展而不知道对java本身的运行环境的调试，例如虚拟机调优，服务器集群等，所以也滋生本门课程的产生。

阶段四、大数据、云计算-分布式集群、PB级别网站性能优化

课程十九、大数据高并发系统架构实战方案（LVS负载均衡、Nginx、共享存储、海量数

展开阅读全文