高校大数据实验室建设解决方案.docx

上传人:b****8 文档编号:9191787 上传时间:2023-05-17 格式:DOCX 页数:16 大小:2.17MB
下载 相关 举报
高校大数据实验室建设解决方案.docx_第1页
第1页 / 共16页
高校大数据实验室建设解决方案.docx_第2页
第2页 / 共16页
高校大数据实验室建设解决方案.docx_第3页
第3页 / 共16页
高校大数据实验室建设解决方案.docx_第4页
第4页 / 共16页
高校大数据实验室建设解决方案.docx_第5页
第5页 / 共16页
高校大数据实验室建设解决方案.docx_第6页
第6页 / 共16页
高校大数据实验室建设解决方案.docx_第7页
第7页 / 共16页
高校大数据实验室建设解决方案.docx_第8页
第8页 / 共16页
高校大数据实验室建设解决方案.docx_第9页
第9页 / 共16页
高校大数据实验室建设解决方案.docx_第10页
第10页 / 共16页
高校大数据实验室建设解决方案.docx_第11页
第11页 / 共16页
高校大数据实验室建设解决方案.docx_第12页
第12页 / 共16页
高校大数据实验室建设解决方案.docx_第13页
第13页 / 共16页
高校大数据实验室建设解决方案.docx_第14页
第14页 / 共16页
高校大数据实验室建设解决方案.docx_第15页
第15页 / 共16页
高校大数据实验室建设解决方案.docx_第16页
第16页 / 共16页
亲,该文档总共16页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

高校大数据实验室建设解决方案.docx

《高校大数据实验室建设解决方案.docx》由会员分享,可在线阅读,更多相关《高校大数据实验室建设解决方案.docx(16页珍藏版)》请在冰点文库上搜索。

高校大数据实验室建设解决方案.docx

高校大数据实验室建设解决方案

高校大数据实验室建设方案

一、建设目标

章鱼大数据实验室的建设目的是作为大数据教学实验及科研平台,包括数据挖掘与大数据分析平台。

实验室的设计全面落实“产、学、研、用”一体化的思想和模式,从教学、实践、科研和利用多方面注重专业人材和特色人材的培育。

利用虚拟化教学资源,搭建教学系统和集群平台,将理论学习、实践教学和大数据项目实战融为一体,由难而易、循序渐进,慢慢提升学生的学习技术和实践水平,

提高“学”的质量和成效。

利用大数据分析主流软件框架,搭建与业界要紧用户一致的实验与科研环境,将理论课程中学到的数据挖掘算法运用到实际的数据分析进程中,提升学生的动手操作和项目实践能力。

使得学生所学与企业项目人材需求无缝衔接,与教师的科研工作紧密配合。

通过专业的大数据分析计算资源搭建的开放式大数据分析平台,能够充分的融合教师的科研需求,教师能够在开放的平台环境下开展大数据科研工作,提升教师的科研创新能力,充分提高“研”的成效。

二、产品优势

交互式学习模式

提供体系完整、简单易用的在线教学课堂;以基础知识学习、在线视频教学、习题、线上测试、评估等为主线的一系列方式,确保学生在短时刻内把握大数据虚拟仿真实验、分析部署技术。

真机实验训练

实验训练体系设计成各模块相对独立的形式,各模块交互式的实验任务、大数据实验机、实际项目上机操作,通过量方位的训练,最终灵活的、渐进式地把握大数据生态体系。

大数据实战及案例分析

提供实验数据,包括网站流量数据、租房及二手房数据、电商商品交易数据、搜索引擎访问等多种行业数据,数据内容超过20TB,同时周期更新数据内容。

充分支撑科研工作

提供行业数据及案例解剖用于基础研究,提供数据分析方案及流程,提供数据更新接口,可以对行业数据进行分析统计,按需求生成数据报表,为科研工作提供数据支撑。

例如某地域经济数据分析、股市数据分析、全国地震数据分析、食物价钱行业数据分析等。

三、建设规模

依照60台大数据实验机容量进行同时在线利用进行建设为基础,整体系统提供快速扩容升级效劳。

四、硬件配置

采纳十六台高性能品牌效劳器作为大数据节点进行建设,采纳企业级全千兆三层互换机进行网络数据互换。

每台节点的配置如下:

处理器

每节点支持2个英特尔®至强®处理器E5-2650CPU

高速缓存

15MB

QPI总线速率

s

内存

提供12个内存插槽,标配192G内存,

支持高级内存纠错,内存镜像,内存热备等高级功能

磁盘

标配4块3TBSATA硬盘

标配2块120GSSD硬盘

300G10000转SAS系统盘

网络控制器

集成1个高性能千兆以太网控制器(双口),支持虚拟化加速,网络加速,负载均衡,冗余等高级功能

电源

标配大功率高效白金级电源,1+1冗余

虚拟化技术

支持VMwarevSphere、Docker、OpenStack等

 

五、软件平台介绍

1、大数据教学治理系统

1.1专业治理

提供对专业信息的增加、删除、修改、查询功能。

1.2班级治理

提供对专业下属班级的增加、删除、修改、查询功能。

1.3学生治理

提供对班级内学生的治理,学生内容包括姓名、学号、所属班级、所属专业、联系电话、登录次数等内容。

1.4交流日记查阅

对实验机分享交流的内容进行查询,包括交流IP、相关学员、相关教师、实验机编号、交流内容等内容。

1.5成绩治理

关于学习中心在线学习的学习考核成绩进行治理,包括查询及删除等功能。

1.6学习记录

提供每一个学生在学习中心平台内学习课程的学习记录,包括日期、打算、课程、章节、学习IP等。

1.7学习行为报表

对所有学生的课程学习记录进行统计,包括个体统计、班级统计、全部统计等。

1.8课程治理

对学习课程进行查询、修改、删除等操作。

1.9开通课程打算

关于学习开课打算的字段内容包括打算名称、讲课讲师、讲课时刻段、开通状态、许诺申请周期,许诺申请人数等,功能提供绑定课程打算相关实训平台课程、讲课助教、云实验机绑定、实验任务绑定等功能。

1.10课程考试习题治理

提供对课程相关的习题治理,题型包括单项选择、多项选择、判定题等类型,对习题进行增、册、改、查操作。

1.11分级权限功能

系统分为总治理员、助教等二级治理角色,总治理员进行治理所有的功能点,助教能够进行班级治理、学生治理、开课打算制作、实验机远程协助等。

1.12学生实训系统

提供学生依照姓名、学号、密码登录系统进行实训操作,学生只需安装阅读即可进行实验任务操作;提供实训课程在线学习功能、实验机在线操作、实验报告提交、实验机界面截图、记录课程学习时长等。

1.13实验机桌面分享

提供实验机桌面分享功能,如学生在学习、操作云实验机的进程中,有问题能够向教师发起协助请求,助教在收到请求时,能够远程访问学生的实验机,并指导如何操作。

2、云实验机及实验任务

2

2.1云实验机

提供基于Web阅读器的实验机可视化操作,操作终端无需安装其它开发软件即可进行实验操作;云实验性能够依照学生编号、实验任务和环境要求自动创建,无需治理人员参与实验机创建操作进程。

治理平台对云实验性能够进行停止、销毁操作。

2.2云实验机集群治理功能

提供云实验机集群治理,对实验机所属效劳器进行新增、删除等操作。

2.3云实验机类型

包括Hadoop实验机、Hive实验机、HBase实验机、R语言实验机、Scala实验机、Spark实验机、Kafka实验机、Sqoop实验机、Flume实验机、数据可视化实验机等。

2.4实验机运行监控系统

系统提供对实验集群运行的所有实验机进行监控,能够查询编号、所属效劳器、创建时刻、运行状态、开放端口等内容。

2.5实验任务治理

提供对实验任务内容的治理,包括任务课程、绑定实验机、设定任务成绩总分,排序值等,提供多种实验任务内容,例如Hadoop实验任务、Hive实验任务、HBase实验任务、Flume与kafka实验任务等。

2.6实验报告审阅功能

在实验任务进程中学生上交的任务报告进行审阅评分,提供依照学生、实验任务等字段进行检索功能。

2.7云实验机桌面分享系统

提供实验机桌面基于阅读器的分享功能,许诺学生与学生、学生与教师同步操作实验机桌面系统,提供基于阅读器的交流功能。

3、大数据实战平台系统

3

3.1大数据集群治理系统

基于散布式集群治理系统,提供大数据集群治理系统,功能包括Hadoop、Hive、HBase、Sqoop、Flume、Spark等节点部属及治理,提供实时监控集群的CPU、内存、硬盘等利用率及相关信息,能够对治理节点、计算节点进行启动、停止等操作治理。

3.2大数据作业工作流系统

提供大数据有关作业的上传、部属、流程治理等功能,基于Web的任务调度、兼容Hadoop、Spark主流版本、失败任务的、运行状态监控等。

六、大数据课程及行业案例

实验平台提供100个课时的Hadoop、Spark等大数据主流课程,课程与大数据实验机完美结合,学员在教学治理系统学习课程,随时进行实训操作,包括项目设计、数据搜集、清洗、建模、技术实现等,快速提升实操技术,最终把握大数据开发、数据分析与数据挖掘等大数据能力。

部份案例图片:

【电商大数据分析案例】

【电商大数据分析架构】

 

【房产大数据分析架构】

【房产大数据分析可视化】

【搜索大数据分析架构】

【网站日记大数据分析架构】

 

课程实验内容包括:

课程名称

课时

课程内容介绍

Hadoop基础

10

讲解Hadoop生态系统,包括操作与开发;详细讲解HDFS和Map-Reduce的功能及作用;了解MapReduce原理、运行流程、压缩数据处理、作业调度、计算器等环节。

HDFS程序开发

6

讲解Hadoop文件系统HDFSJAVAAPI的使用。

掌握如何使用HDFSJavaAPI,读写文件、读写目录、以及对文件进行压缩处理等。

MapReduce开发

6

本课程针对HadoopMapReduce开发进行讲解。

课程以案例为基础,重点介绍MapReduce程序结构,以及如何使用MapReduce进行数据统计,去重,排序,Map端Join,Reduce端Join等关联操作,掌握MapReduce处理过程。

Hive数据仓库

24

Hive是基于Hadoop构建的数据仓库分析系统,通过学习掌握Hive的函数、Hive数据的加载、Hive的DDL操作、自定义函数(UDF)等内容,达到使用Hive进行查询、汇总、分析数据的能力。

分布式数据库HBase

6

HBase是Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;通过学习对HBase表设计、表操作、数据操作、JavaAPI等内容,掌握对HBase系统的开发及使用。

数据迁移工具Sqoop

4

Sqoop是关系型数据库和Hadoop生态系统之间进行数据转换的主要工具;通过学习将mysql中的数据导入到hdfs中、将数据导入到HBase中、定义导入导出任务等,掌握对数据迁移的能力。

分布式日志框架Flume

4

Flume对海量日志进行采集、聚合和传输的主流大数据工具;课程内容包含Flume应用场景、FlumeNG、FlumeOG、Flume的核心组件、Flume的架构、Flume的source、sink配置说明等。

Kafka流式数据采集

4

Kafka是分布式的消息队列,广泛应用于实时数据处理。

学习内容包含Kafka的体系结构、安装模式及安装部署、Topic、Producer、Consumer、发布订阅消息以及KafkaJAVA开发等。

Spark

6

Spark是一款高性能的分布式计算框架,比MapReduce计算快百倍;本课程内容全面涵盖了Spark生态系统、Spark与Hadoop对比、开发环境搭建、RDD、编程模型、Web监控等内容。

SparkStreaming

4

SparkStreaming是用户结合流式、批处理和交互式查询应用的实时计算框架;本课程内容详细讲解原理与特点、适用场景、Dstream操作、容错、性能优化和内存优化等。

SparkSQL

4

SparkSQL的出现,使得SQL-on-Hadoop的性能相对于Hive有了显著的提高。

达到Spark兼容Hive的功能。

本课程详细讲解特点、运行架构、数据源、数据缓存、DataFrame等。

实战案例

搜索引擎日志

数据统计分析

6

讲解Hadoop系统架构设计以及项目分析流程;通过对用户搜索记录数据的清洗,分析指标内容,得出关键词排行榜、用户停留时间最高页面等。

实战案例

电子商务平台

大数据分析

6

讲解Spark系统架构设计以及项目分析流程;本课程主要讲解搭建电商的数据处理平台、数据统计、分析及可视化技术的应用开发流程。

七、行业数据及案例

提供大数据实战案例和行业数据,提供包括海量网站日记分析案例、租房及二手房大数据分析案例、电商商品交易大数据挖掘、搜索引擎关键词分析算法案例、汽车销售数据分析案例等案例讲解及实战作业工作流内容。

数据名称

数据描述

更新

地区房产数据

包含二手房在售数据、出租房屋数据、经纪人评价数据等。

每周

全国汽车数据

包含国内不同种类汽车详细配置信息、汽车使用评论数据、汽车销售数据以及二手车数据等。

可用于汽车行业市场行情分析。

每月

法律咨询数据

包含国内所有法律咨询服务机构数据、机构评论数据、有关法律咨询话题的数据。

可用于法律咨询行业市场行情分析,社会治安情况分析。

每周

疾病问答数据

包含国内不同种类疾病问题数据、医生回复数据、有关疾病常识等话题的数据。

每月

股票基金交易数据

包含国内、港股、美股等国内外股票行情及交易数据、按照时间段提供详细数据;也包含证券投资基金、保险基金、信托投资基金等行情数据。

每日

天气、气象数据

包含全国各个地区气象数据(气温、降水量、风、气压等)、气象观测产品数据。

可用于气象业务、天气预报、气候预测以及气象服务。

每日

人脸图像数据

包含国内多种年龄段的人脸图像数据。

用于脸部特征分析、人脸识别、人脸检测等,每个人提供多个角度的图片。

每月

电商评价数据

包含上百万条国内知名电商平台产品评价数据。

可用于用户购买产品意愿分析、个性化推荐和精准营销,进行商业舆情监控和产品的市场行情分析。

每周

北京生鲜食品价格数据

每日

包含历年北京市蔬菜、水果、肉禽蛋、水产等生鲜食品的最低价、最高价以及平均价以及最新价格。

利用大数据可进行生鲜食品行业分析。

搜索引擎访问日志数据

包含用户搜索记录数据。

通过对用户搜索记录的分析,可以分析用户行为特征,构建广告点击模型。

每周

海量网站访问日志数据

包含海量用户访问网站的日志数据。

通过对日志的分析,我们可以知道获取网站每类页面的PV值(PageView,页面访问量)、独立IP数,哪个网页最有价值等。

每周

 

八、安装配置

1、大数据教学治理系统

2、大数据实战集群及案例

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2