高校大数据实验室建设解决方案.docx

上传人:b****8 文档编号:9111027 上传时间:2023-05-17 格式:DOCX 页数:21 大小:2.30MB
下载 相关 举报
高校大数据实验室建设解决方案.docx_第1页
第1页 / 共21页
高校大数据实验室建设解决方案.docx_第2页
第2页 / 共21页
高校大数据实验室建设解决方案.docx_第3页
第3页 / 共21页
高校大数据实验室建设解决方案.docx_第4页
第4页 / 共21页
高校大数据实验室建设解决方案.docx_第5页
第5页 / 共21页
高校大数据实验室建设解决方案.docx_第6页
第6页 / 共21页
高校大数据实验室建设解决方案.docx_第7页
第7页 / 共21页
高校大数据实验室建设解决方案.docx_第8页
第8页 / 共21页
高校大数据实验室建设解决方案.docx_第9页
第9页 / 共21页
高校大数据实验室建设解决方案.docx_第10页
第10页 / 共21页
高校大数据实验室建设解决方案.docx_第11页
第11页 / 共21页
高校大数据实验室建设解决方案.docx_第12页
第12页 / 共21页
高校大数据实验室建设解决方案.docx_第13页
第13页 / 共21页
高校大数据实验室建设解决方案.docx_第14页
第14页 / 共21页
高校大数据实验室建设解决方案.docx_第15页
第15页 / 共21页
高校大数据实验室建设解决方案.docx_第16页
第16页 / 共21页
高校大数据实验室建设解决方案.docx_第17页
第17页 / 共21页
高校大数据实验室建设解决方案.docx_第18页
第18页 / 共21页
高校大数据实验室建设解决方案.docx_第19页
第19页 / 共21页
高校大数据实验室建设解决方案.docx_第20页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

高校大数据实验室建设解决方案.docx

《高校大数据实验室建设解决方案.docx》由会员分享,可在线阅读,更多相关《高校大数据实验室建设解决方案.docx(21页珍藏版)》请在冰点文库上搜索。

高校大数据实验室建设解决方案.docx

高校大数据实验室建设解决方案

高校大数据实验室建设方案

 

一、 建设目标

 

章鱼大数据实验室的建设目的是作为大数据教学实验及科研平台,包括数据挖掘与大数据

分析平台。

实验室的设计全面落实“产、学、研、用”一体化的思想和模式,从教学、实践、

科研和使用多方面注重专业人才和特色人才的培养。

利用虚拟化教学资源,搭建教学系统和集群平台,将理论学习、实践教学和大数据项目实

战融为一体,由难而易、循序渐进,逐步提升学生的学习技能和实践水平,

提高“学”的质量和成效。

利用大数据分析主流软件框架,搭建与业界主要用户一致的实

验与科研环境,将理论课程中学到的数据挖掘算法运用到实际的数据分析过程中,提升学生的

动手操作和项目实践能力。

使得学生所学与企业项目人才需求无缝衔接,与教师的科研工作紧

密配合。

通过专业的大数据分析计算资源搭建的开放式大数据分析平台,可以充分的融合教师的

科研需求,教师可以在开放的平台环境下开展大数据科研工作,提升教师的科研创新能力,充

分提高“研”的成效。

 

二、 产品优势

 

⏹交互式学习模式

提供体系完整、简单易用的在线教学课堂;以基础知识学习、在线视频教学、习题、

线上测试、评估等为主线的一系列方法,确保学生在短时间内掌握大数据虚拟仿真实验、

分析部署技能。

⏹真机实验训练

实验训练体系设计成各模块相对独立的形式,各模块交互式的实验任务、大数据实验机、

实际项目上机操作,通过多方位的训练,最终灵活的、渐进式地掌握大数据生态体系。

⏹大数据实战及案例分析

提供实验数据,包括网站流量数据、租房及二手房数据、电商商品交易数据、搜索引擎访

问等多种行业数据,数据内容超过 20TB,同时周期更新数据内容。

 

⏹充分支撑科研工作

提供行业数据及案例解剖用于基础研究,提供数据分析方案及流程,提供数据更新接口,

 

可以对行业数据进行分析统计,按需求生成数据报表,为科研工作提供数据支撑。

例如某地区

经济数据分析、股市数据分析、全国地震数据分析、食品价格行业数据分析等。

三、 建设规模

 

按照 60 台大数据实验机容量进行同时在线使用进行建设为基础,整体系统提供快速扩容

升级服务。

四、 硬件配置

 

采用十六台高性能品牌服务器作为大数据节点进行建设,采用企业级全千兆三层交换机进

行网络数据交换。

每台节点的配置如下:

处理器

高速缓存

QPI 总线速率

内存

每节点支持 2 个英特尔® 至强® 处理器 E5-2650 CPU

15MB

7.2GT/s

提供 12 个内存插槽,标配 192G 内存,

支持高级内存纠错,内存镜像,内存热备等高级功能

磁盘标配 4 块 3TB SATA 硬盘

标配 2 块 120G SSD 硬盘

300G 10000 转 SAS 系统盘

网络控制器集成 1 个高性能千兆以太网控制器(双口),支持虚拟化加速,网络加

速,负载均衡,冗余等高级功能

电源

虚拟化技术

标配大功率高效白金级电源,1+1 冗余

支持 VMware vSphere、Docker、OpenStack 等

 

五、 软件平台介绍

 

1、大数据教学管理系统

1.1 专业管理

提供对专业信息的增加、删除、修改、查询功能。

1.2 班级管理

提供对专业下属班级的增加、删除、修改、查询功能。

1.3 学生管理

提供对班级内学生的管理,学生内容包含姓名、学号、所属班级、所属专业、联系手机、

登录次数等内容。

1.4 交流日志查阅

对实验机分享交流的内容进行查询,包含交流 IP、相关学员、相关老师、实验机编号、交

流内容等内容。

1.5 成绩管理

对于学习中心在线学习的学习考核成绩进行管理,包含查询及删除等功能。

1.6 学习记录

提供每个学生在学习中心平台内学习课程的学习记录,包含日期、计划、课程、章节、学

习 IP 等。

1.7 学习行为报表

对所有学生的课程学习记录进行统计,包含个体统计、班级统计、全体统计等。

1.8 课程管理

 

对学习课程进行查询、修改、删除等操作。

1.9 开通课程计划

对于学习开课计划的字段内容包含计划名称、授课讲师、授课时间段、开通状态、允许申

请周期,允许申请人数等,功能提供绑定课程计划相关实训平台课程、授课助教、云实验机绑

定、实验任务绑定等功能。

1.10 课程测验习题管理

提供对课程相关的习题管理,题型包含单选、多选、判断题等类型,对习题进行增、册、

改、查操作。

1.11 分级权限功能

系统分为总管理员、助教等二级管理角色,总管理员进行管理所有的功能点,助教可以进

行班级管理、学生管理、开课计划制作、实验机远程协助等。

1.12 学生实训系统

提供学生根据姓名、学号、密码登录系统进行实训操作,学生只需安装浏览即可进行实验

任务操作;提供实训课程在线学习功能、实验机在线操作、实验报告提交、实验机界面截图、

记录课程学习时长等。

1.13 实验机桌面分享

提供实验机桌面分享功能,如学生在学习、操作云实验机的过程中,有问题可以向老师发

起协助请求,助教在收到请求时,可以远程访问学生的实验机,并指导如何操作。

2、云实验机及实验任务

 

2.1 云实验机

提供基于 Web 浏览器的实验机可视化操作,操作终端无需安装其它开发软件即可进行实

验操作;云实验机可以根据学生编号、实验任务和环境要求自动创建,无需管理人员参与实验

 

机创建操作过程。

管理平台对云实验机可以进行停止、销毁操作。

2.2 云实验机集群管理功能

提供云实验机集群管理,对实验机所属服务器进行新增、删除等操作。

2.3 云实验机类型

包含 Hadoop 实验机、Hive 实验机、HBase 实验机、R 语言实验机、Scala 实验机、Spark 实

验机、Kafka 实验机、Sqoop 实验机、Flume 实验机、数据可视化实验机等。

2.4 实验机运行监控系统

系统提供对实验集群运行的所有实验机进行监控,可以查询编号、所属服务器、创建时间、

运行状态、开放端口等内容。

2.5 实验任务管理

提供对实验任务内容的管理,包含任务课程、绑定实验机、设定任务成绩总分,排序值等,

提供多种实验任务内容,例如 Hadoop 实验任务、Hive 实验任务、HBase 实验任务、Flume 与

kafka 实验任务等。

2.6 实验报告审阅功能

在实验任务过程中学生上交的任务报告进行审阅评分,提供按照学生、实验任务等字段进

行检索功能。

2.7 云实验机桌面分享系统

提供实验机桌面基于浏览器的分享功能,允许学生与学生、学生与老师同步操作实验机桌

面系统,提供基于浏览器的交流功能。

 

3、大数据实战平台系统

 

3.1 大数据集群管理系统

基于分布式集群管理系统,提供大数据集群管理系统,功能包含 Hadoop、Hive、HBase、

Sqoop、Flume、Spark 等节点部属及管理,提供实时监控集群的 CPU、内存、硬盘等使用率及

相关信息,可以对管理节点、计算节点进行启动、停止等操作管理。

3.2 大数据作业工作流系统

提供大数据相关作业的上传、部属、流程管理等功能,基于 Web 的任务调度、兼容 Hadoop、

Spark 主流版本、失败任务的、运行状态监控等。

 

六、 大数据课程及行业案例

 

实验平台提供 100 个课时的 Hadoop、Spark 等大数据主流课程,课程与大数据实验机完美

结合,学员在教学管理系统学习课程,随时进行实训操作,包含项目设计、数据采集、清洗、

建模、技术实现等,快速提升实操技能,最终掌握大数据开发、数据分析与数据挖掘等大数据

能力。

部分案例图片:

 

【电商大数据分析案例】

 

【电商大数据分析架构】

 

【房产大数据分析架构】

 

【房产大数据分析可视化】

 

【搜索大数据分析架构】

 

【网站日志大数据分析架构】

 

课程实验内容包含:

课程名称

Hadoop 基础

 

HDFS 程序开发

 

MapReduce 开发

课时

10

 

6

 

6

课程内容介绍

讲解 Hadoop 生态系统,包括操作与开发;详细讲解 HDFS 和 Map-

Reduce 的功能及作用;了解 MapReduce 原理、运行流程、压缩

数据处理、作业调度、计算器等环节。

讲解 Hadoop 文件系统 HDFS JAVA API的使用。

掌握如何使用 HDFS

Java API,读写文件、读写目录、以及对文件进行压缩处理等。

本课程针对 Hadoop MapReduce 开发进行讲解。

课程以案例为基

础,重点介绍 MapReduce 程序结构,以及如何使用 MapReduce

进行数据统计,去重,排序,Map 端 Join,Reduce 端 Join 等关联

操作,掌握 MapReduce 处理过程。

Hive 数据仓库24

 

分布式数据库 HBase6

 

数据迁移工具 Sqoop4

 

分布式日志框架 Flume4

 

Kafka 流式数据采集4

 

Spark6

 

Spark Streaming4

 

Spark SQL4

Hive 是基于 Hadoop 构建的数据仓库分析系统,通过学习掌握 Hive

的函数、Hive 数据的加载、Hive 的 DDL 操作、自定义函数(UDF)

等内容,达到使用 Hive 进行查询、汇总、分析数据的能力。

HBase 是 Hadoop 生态系统中的重要一员,主要用于海量结构化

数据存储;通过学习对 HBase 表设计、表操作、数据操作、Java

API 等内容,掌握对 HBase 系统的开发及使用。

Sqoop 是关系型数据库和 Hadoop 生态系统之间进行数据转换的

主要工具;通过学习将 mysql 中的数据导入到 hdfs 中、将数据导

入到 HBase 中、定义导入导出任务等,掌握对数据迁移的能力。

Flume 对海量日志进行采集、聚合和传输的主流大数据工具;课

程内容包含 Flume 应用场景、FlumeNG、FlumeOG、Flume 的核心

组件、Flume 的架构、Flume 的 source、sink 配置说明等。

Kafka 是分布式的消息队列,广泛应用于实时数据处理。

学习内容

包含 Kafka 的体系结构、安装模式及安装部署、Topic、Producer、

Consumer、发布订阅消息以及 Kafka JAVA 开发等。

Spark 是一款高性能的分布式计算框架,比 MapReduce 计算快百

倍;本课程内容全面涵盖了 Spark 生态系统、Spark 与 Hadoop 对

比、开发环境搭建、RDD、编程模型、Web 监控等内容。

Spark Streaming 是用户结合流式、批处理和交互式查询应用的实

时计算框架;本课程内容详细讲解原理与特点、适用场景、

Dstream 操作、容错、性能优化和内存优化等。

Spark SQL 的出现,使得 SQL-on-Hadoop 的性能相对于 Hive 有了

显著的提高。

达到 Spark 兼容 Hive 的功能。

本课程详细讲解特

点、运行架构、数据源、数据缓存、DataFrame 等。

实战案例

搜索引擎日志

数据统计分析

实战案例

电子商务平台

大数据分析

6

 

6

讲解 Hadoop 系统架构设计以及项目分析流程;通过对用户搜索

记录数据的清洗,分析指标内容,得出关键词排行榜、用户停留

时间最高页面等。

讲解 Spark 系统架构设计以及项目分析流程;本课程主要讲解搭

建电商的数据处理平台、数据统计、分析及可视化技术的应用开

发流程。

 

七、 行业数据及案例

 

提供大数据实战案例以及行业数据,提供包含海量网站日志分析案例、租房及二手房大数

据分析案例、电商商品交易大数据挖掘、搜索引擎关键词分析算法案例、汽车销售数据分析案

例等案例讲解及实战作业工作流内容。

数据名称

 

地区房产数据

全国汽车数据

数据描述

 

包含二手房在售数据、出租房屋数据、经纪人评价数据等。

包含国内不同种类汽车详细配置信息、汽车使用评论数据、汽车销售

数据以及二手车数据等。

可用于汽车行业市场行情分析。

更新

 

每周

每月

法律咨询数据

 

疾病问答数据

 

股票基金交易数据

 

天气、气象数据

包含国内所有法律咨询服务机构数据、机构评论数据、有关法律咨询 每周

话题的数据。

可用于法律咨询行业市场行情分析,社会治安情况分

析。

包含国内不同种类疾病问题数据、医生回复数据、有关疾病常识等话 每月

题的数据。

包含国内、港股、美股等国内外股票行情及交易数据、按照时间段提 每日

供详细数据;也包含证券投资基金、保险基金、信托投资基金等行情

数据。

包含全国各个地区气象数据(气温、降水量、风、气压等) 气象观 每日

测产品数据。

可用于气象业务、天气预报、气候预测以及气象服务。

人脸图像数据

 

电商评价数据

包含国内多种年龄段的人脸图像数据。

用于脸部特征分析、人脸识

别、人脸检测等,每个人提供多个角度的图片。

包含上百万条国内知名电商平台产品评价数据。

可用于用户购买产

每月

 

每周

品意愿分析、个性化推荐和精准营销,进行商业舆情监控和产品的市

场行情分析。

包含历年北京市蔬菜、水果、肉禽蛋、水产等生鲜食品的最低价、最

北京生鲜食品价格数据每日

高价以及平均价以及最新价格。

利用大数据可进行生鲜食品行业分

析。

搜索引擎访问日志数据

包含用户搜索记录数据。

通过对用户搜索记录的分析,可以分析用户

行为特征,构建广告点击模型。

每周

海量网站访问日志数据

包含海量用户访问网站的日志数据。

通过对日志的分析,我们可以知 每周

道获取网站每类页面的 PV 值(PageView,页面访问量)、独立 IP

数,哪个网页最有价值等。

 

八、 安装配置

 

1、大数据教学管理系统

 

2、大数据实战集群及案例

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2