大数据可视化教案.docx

上传人:b**** 文档编号:14665799 上传时间:2023-06-25 格式:DOCX 页数:24 大小:340.72KB
下载 相关 举报
大数据可视化教案.docx_第1页
第1页 / 共24页
大数据可视化教案.docx_第2页
第2页 / 共24页
大数据可视化教案.docx_第3页
第3页 / 共24页
大数据可视化教案.docx_第4页
第4页 / 共24页
大数据可视化教案.docx_第5页
第5页 / 共24页
大数据可视化教案.docx_第6页
第6页 / 共24页
大数据可视化教案.docx_第7页
第7页 / 共24页
大数据可视化教案.docx_第8页
第8页 / 共24页
大数据可视化教案.docx_第9页
第9页 / 共24页
大数据可视化教案.docx_第10页
第10页 / 共24页
大数据可视化教案.docx_第11页
第11页 / 共24页
大数据可视化教案.docx_第12页
第12页 / 共24页
大数据可视化教案.docx_第13页
第13页 / 共24页
大数据可视化教案.docx_第14页
第14页 / 共24页
大数据可视化教案.docx_第15页
第15页 / 共24页
大数据可视化教案.docx_第16页
第16页 / 共24页
大数据可视化教案.docx_第17页
第17页 / 共24页
大数据可视化教案.docx_第18页
第18页 / 共24页
大数据可视化教案.docx_第19页
第19页 / 共24页
大数据可视化教案.docx_第20页
第20页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

大数据可视化教案.docx

《大数据可视化教案.docx》由会员分享,可在线阅读,更多相关《大数据可视化教案.docx(24页珍藏版)》请在冰点文库上搜索。

大数据可视化教案.docx

授课时数

教学目的:

1.介绍数据可视化概念和发展历史

2.介绍可视化的三种类别

3.理解可视化作用,了解可视化的发展方向

教学内容(课程导入)

一可视化概念

1.数据定义

2.数据可视化的定义

3.数据可视化从数据中提取的信息:

l模式数据的规律

l关系数据之间的相关性

l异常问题数据

二数据可视化发展历史

数据可视化的起源可追溯到公元2世纪,但是在之后的很长一段时间并没有特别大的发展。

数据可视化的主要进展都是在最近两个半世纪才出现,尤其是近四十年。

目前最热门的可视化形式可以追溯到17世纪,那时的地质探索、数学和历史的普及促进了早期的地图、图表和时间线的出现。

随着工艺技术的完善,到19世纪上半叶,人们已经掌握了整套统计数据可视化工具(包括柱状图、饼图、直方图、折线图、时间线、轮廓线等),关于社会、地理、医学和基金的统计数据越来越多。

到19世纪下半叶,系统构建可视化方法的条件日渐成熟,人类社会进入了统计图形学的黄金时期。

到了20世纪上半叶,政府、商业机构和科研部门开始大量使用可视化统计图形。

进入21世纪,新的可视化媒介互联网出现,这催生了许多新的可视化技术和功能。

三可视化的分类

根据所处理的数据对象的不同,数据可视化可分为科学可视化与信息可视化。

1.科学可视化

科学可视化是可视化领域发展最早、最成熟的一个学科,其应用领域包括物理、化学、气象气候、航空航天、医学、生物学等各个学科,涉及对这些学科中数据和模型的解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况。

2.信息可视化

信息可视化的数据更贴近我们的生活与工作,包括地理信息可视化、时变数据可视化、层次数据可视化、网络数据可视化、非结构化数据可视化等我们常见的地图是地理信息数据,属于信息可视化的范畴。

3.可视分析学

可视分析学被定义为一门以可视交互界面为基础的分析推理科学,综合了图形学、数据挖掘和人机交互等技术。

四大数据可视化作用及发展方向

数据可视化的作用包括记录信息、分析推理、信息传播与协同等。

伴随大数据时代的来临,数据可视化日益受到关注,可视化技术也日益成熟。

然而,数据可视化依然存在许多问题,且面临着如下巨大的挑战。

ll 数据规模大

ll 数据质量问题

ll 数据快速动态变化

ll 面临复杂高维数据

ll 多来源数据的类型和结构各异

未来主要有四个发展方向:

l可视化技术与数据挖掘技术的紧密结合。

l可视化技术与人机交互技术的紧密结合

l可视化技术广泛应用于大规模、高维度、非结构化数据的处理与分析。

l处理数据能力的弹性变化。

本章节的教学重点、难点:

本章重点是数据及数据可视化概念,难点是可视化面临的挑战

教学方法、教学手段:

使用教具:

计算机和投影仪

¨习题:

P25

讲授章节

第2讲数据可视化基础

授课时数

2

教学目的:

1.介绍数据可视化流程

2.能够了解可视化用到的数据存储工具

3.理解并可以简单运用可视化设计原则。

教学内容(讲授提纲)

一可视化流程

1.数据采集

在可视化设计过程中,一定要事先了解数据的来源、采集方法和数据属性,这样才能准确地反映要解决的问题。

2.数据处理和变换

可视化之前需要将原始数据转换成用户可以理解的模式和特征并显示出来。

所以,数据处理和变换是非常有必要的,它包括去噪、数据清洗、提取特征等流程

3.可视化映射

可视化映射过程是整个流程的核心,其主要目的是让用户通过可视化结果去理解数据信息以及数据背后隐含的规律

4.用户感知

可视化映射后的结果只有通过用户感知才能转换成知识和灵感。

二可视化数据组织工具

数据良好的组织与管理是优秀数据可视化方案的前提条件。

在大数据时代,只有选择适合的数据组织与管理方式,才能得到最好的可视化性能,才又可能实现实时数据的可视化展示。

有以下常见数据存储工具

l分布式文件系统

l文档存储

l列式存储

l键值存储

l图形数据库

l关系数据库

l内存数据库

三可视化设计原则

数据可视化的主要目的是准确地为用户展示和传达出数据所包含(隐藏)的信息,需要平衡信息与美感。

有如下原则指导设计:

l数据筛选原则

l数据到可视化的直观映射原则

l视图选择与交互设计原则

l美学原则

l适当运用隐喻原则

l颜色与透明度选择原则

本章节的教学重点、难点

本讲重点是理解可视化的原则,难点是可视化数据组织工具

教学方法、教学手段:

使用教具:

计算机和投影仪

作业、讨论题、思考题:

P33

讲授章节

第3讲时间数据可视化

授课时数

2

教学目的:

1.了解时间数据可视化的应用

2.了解连续型时间数据的特点及可视化的方法

3.了解离散型时间数据的特点及可视化的方法

教学内容(讲授提纲)

一时间数据可视化的应用

时间是一个非常重要的维度和属性。

历史数据的积累是大数据“大”的一个重要原因。

时间序列数据存在于各个领域,比如金融和商业交易记录,社会经济指标记录,气象观测数据,动植物种群数据等。

金融和商业记录包括股票交易价格以及交易量,各种商品的销售价格和销售量;社会经济指标包括GDP(国民生产总值)、CPI(消费者物价指数)等指数。

这些带时间维度的数据中蕴含着大量的信息,是指导国家制定政策、企业调整战略的重要依据。

表单属性:

二连续型时间数据

1.特点

连续型时间数据在任意两个时间点之间可以细分出无限多个数值,它是连续不断变化现象的记录。

2.可视化方法

l阶梯图

l散点图

l拟合曲线

三离散型时间数据

1.特点

离散型时间数据又称不连续性时间数据,这类数据在任何两个时间点之间的个数是有限的。

2.可视化方法

l散点图

l柱形图

l堆叠柱形图

本章节的教学重点、难点:

本讲重点是掌握时间数据的类型、可视化方法。

教学方法、教学手段:

使用教具:

计算机和投影仪

作业、讨论题、思考题:

P41

讲授章节

第4讲比例数据可视化

授课时数

2

教学目的:

1.了解比例数据在大数据中的应用

2.掌握比例数据可视化的方法

3.了解时空比例数据可视化

教学内容(讲授提纲)

一比例数据在大数据中的应用

对于比例数据,进行可视化的目的,是为了寻找整体中的最大值、最小值、整体的分布构成以及各部分之间的相对关系。

二比例数据可视化方法

l饼图

l环形饼图

l比例中的堆叠

l矩形树图

三时空比例数据

现在的数据往往都带有时间维度的信息,时间属性的比例数据也是经常出现的。

例如,每年都会对各项消费占居民总消费的比例进行统计,每一的调查结果都会积累下来。

各种消费占比随着时间的变化情况是国家很关心的信息,这可以反映国民的生活是越来越好了还是越来越差了。

本章节的教学重点、难点:

本讲重点是比例数据中蕴藏的部分与整体的关系,学会比例数据的可视化方法,理解时空比例数据的表示方法。

教学方法、教学手段:

使用教具:

计算机和投影仪

作业、讨论题、思考题:

P46

讲授章节

第5讲关系数据可视化

授课时数

2

教学目的:

1.了解关系数据的概念

2.掌握具有关联的数据的可视化方法

3.掌握数据分布性的可视化方法

教学内容(讲授提纲)

一了解关系数据的概念

大数据的一个重要价值是可以帮助我们找到变量之间的联系,发掘事物背后的因果。

在进行大数据挖掘前的重要一步就是探索变量的相关关系,进而才能探索背后可能隐藏着的因果关系。

二数据的关联性

事物之间的关联性是比较容易被发现的,但是关联并不代表存在因果关系。

数据的关联性,其核心就是指量化的两个数据间的数理关系。

关联性强,是指当一个数值变化时,另一个数值也会随之相应地发生变化。

相反地,关联性弱,就是指当一个数值变化时另一个数值几乎没有发生变化。

关联性可以由以下图像看出。

l散点图

l散点图矩阵

l气泡图

三数据的分布性

分布性可以由以下图像看出。

l茎叶图

l直方图

l密度图

本章节的教学重点、难点:

重点掌握关系数据的概念以及关联性、分布性的可视化方法

教学方法、教学手段:

使用教具:

计算机和投影仪

作业、讨论题、思考题:

P54

讲授章节

第6讲文本数据可视化

授课时数

4

教学目的:

1.了解文本数据可视化的用途、对文本信息需求的层级、文本数据的分类

2.了解文本数据的获取方法

3.掌握文本内容可视化方法

4.了解文本关系可视化方法

教学内容(讲授提纲)

一文本数据可视化应用、层级、分类

从人文研究到政府决策,从精准医疗到量化金融,从客户管理到市场营销,这些海量的文本作为最重要的信息载体之一,处处发挥着举足轻重的作用。

一般把对文本的理解需求分为三级:

词汇级(LexicalLevel)、语法级(SyntacticLevel)和语义级(SemanticLevel)。

有不同的信息挖掘方法来支持对应层级信息的挖掘。

一般来说,词汇级使用各类分词算法,语法级使用一些句法分析算法,语义级则使用主题提取算法。

文本数据大致可分为三种:

单文本、文档集合和时序文本数据。

对应的文本可视化也可分为:

文本内容的可视化、文本关系的可视化、文本多层面信息的可视化。

文本内容可视化是对文本内的关键信息分析后的展示;文本关系的可视化既可以对单个文本进行内部的关系展示,也可以对多个文本进行文本之间的关系展示;文本多特征信息的可视化,是结合文本的多个特征进行全方位的可视化展示。

二文本数据的获取

网络爬虫(WebCrawler)是指一类能够自动化访问网络并抓取某些信息的程序,有时候也被称为“网络机器人”。

它们最早被应用于互联网搜索引擎及各种门户网站的开发中,现在也是大数据和数据分析领域中的重要角色。

爬虫可以按一定逻辑大批量采集目标页面内容,并对数据做进一步的处理,人们借此能够更好更快的获得并使用他们感兴趣的信息,从而方便地完成很多有价值的工作

大部分编程语言都可以实现爬虫程序的编写,也有部分商业软件提供爬虫服务。

目前比较流行的就是用Python编写爬虫,有大量的第三方库可以使用,常见的有Request、urlib、Scrapy等。

其中Scrapy库提供了比较完善的爬虫框架。

三文本内容可视化

一段文本的内容可以用高频词、短语、句子、主题等代表,但是文本可视化遇到的任务通常是对有海量文本的集合进行可视化分析,针对不同类型的文本集合,我们有不同的方法来进行可视化分析。

一个词语若在一个文本中出现频率较高,那么这个词语可能就是这个文本的关键词。

在实际应用当中还要考虑到这些词是否在其他文本中也经常出现,通常使用TF-IDF(TermFrequency-InverseDocumentFrequency)方法来计算词语对表达文本信息的重要程度。

标签云是一种常见的关键词可视化方法。

文档散使用词汇库中的结构关系来布局关键词,同时使用词语关系网中具有上下语义关系的词语来布局关键词,从而揭示文本内容。

时序文本具有时间性和顺序性,通常采用主题河流、文本流和故事流进行可视化。

文本分布可视化实际上是引入了词语在文本当中的位置、句子长度等信息,这些信息常被制作成文本弧。

四文本关系可视化

文本关系包括文本内或者文本间的关系,以及文本集合之间的关系,文本关系可视化的目的就是呈现这些关系。

文本内的关系有词语的前后关系;文本间的关系有网页之间的超链接关系,文本之间内容的相似性,文本之间的引用等;文本集合之间的关系是指文本集合内容的层次性等关系。

文本内关系可用词语树、短语网络进行可视化

当对多个文档进行可视化展示时,可以引人向量空间模型来计算出各个文档之间的相似性,单个文档被定义成单个特征向量,最终以投影等方式来呈现各文档之间的关系。

比如星系视图和文档集抽样投影。

本章节的教学重点、难点:

本讲的重点及难点是掌握文本数据可视化的多种类型及对应方法

教学方法、教学手段:

使用教具:

计算机和投影仪

作业、讨论题、思考题:

P66

讲授章节

第7讲复杂数据可视化

授课时数

2

教学目的:

1.理解复杂数据可视化的难点

2.了解高维多元数据的可视化方法;

3.了解非结构化数据的可视化方法

教学内容(讲授提纲)

一复杂数据可视化难点

对高维多元数据进行分析的困难如下:

1.数据复杂度大大增加。

复杂数据包括非结构化数据和从多个数据源采集、整合而成的异构数据,传统单一的可视化方法无法支持对此类复杂数据的分析;

2.数据的量级大大增加。

复杂数据的量级已经超过了单机、外存模型甚至小型计算集群处理能力的上限,需要采用全新思路来解决大尺度的调整;

3.数据质量问题

在数据获取和处理过程中,不可避免地会产生数据质量的问题,其中特别需要关注的是数据的不确定性;

4.数据快速动态変化。

数据常以流式数据形成存在,对流式数据的实时分析与可视化技术还存在一定问题;

二高维多元数据可视化方法

高维多元数据指每个数据对象有两个或两个以上独立或者相关属性的数据。

高维(Multidimensional)指数据具有多个独立属性,多元(Multivariate)指数据具有多个相关属性。

l空间映射法

包含散点图、表格透镜、平行坐标、降维等多种方法

l图标法

以雷达图为典型代表

三非结构化数据可视化

1.基于并行的大尺度数据高分辨率可视化

复杂数据并不只有高维度数据。

还包括异构数据等。

异构数据是指在同一个数据集中存在的如结构或者属性不同的数据。

存在多个不同种类节点和连接的网络被称为异构网络。

异构数据通常可采用网络结构进行表达。

2.分而治之的大尺度数据分析与可视化

可视化领域以及计算机图形学有一种标准方法叫作分治(DivideandConquer)法,如二叉树、四叉树等空间管理结构等。

统计分析层的分而重组包括条件变量分割法、重复分割法

数据挖掘层的分而治之使用分而后合的方法对数据进行分类。

大体分为三个步骤:

首先,输入数据或者文本信息,将输入数据等份成n份或者按规则划分;然后,对每份数据使用最适合的分类器进行分类,并将分类结果融合;最后,通过一个强分类器计算获取最终结果。

目前比较流行的Hadoop和Mapreduce等处理框架通常被用来处理非空间型数据,Mapreduce框架应用于科学计算的空间型数据,这就意味着使用统一的分而治之的框架可以处理科学计算的空间型数据和非结构化数据。

本章节的教学重点、难点:

重点掌握高维多元数据的概念和可视化的方法

难点是非结构化数据的可视化

教学方法、教学手段:

使用教具:

计算机和投影仪

作业、讨论题、思考题:

P78

实验

讲授章节

Tableau数据可视化方法

授课时数

4

教学目的:

1.了解Tableau软件的基本特点

2.学会安装Tableau软件

3.掌握使用Tableau绘制基础图表的方法

4.学会使用Tableau创建仪表盘

5.了解TableauServer的安装与特点

6.了解TableauReader的安装与特点

教学内容(讲授提纲)

一Tableau的下载;

二Tableau的特点

l支持数据类型的任意性

l简单易用性

l智能仪表板与瞬时共享

三使用TableauDesktop绘制图表

四下载并探索TableauServer、TableauReader的功能特点

本章节的教学重点、难点:

重点在于使用Tableau软件进行简单的可视化

难点在于理解Tableau软件的功能特点

教学方法、教学手段:

学生实验

作业、讨论题、思考题:

讲授章节

DataV数据可视化方法

授课时数

4

教学目的:

1.掌握DataV的功能特点

2.掌握DataV可视化应用管理以及数据源管理

3.了解DataV的组件管理

4.掌握使用DataV提供的模板进行可视化的方法

教学内容(讲授提纲)

一DataV功能特点

l多种场景模板

l丰富的图标库与地理绘制支持

l支持多种数据源

l容易实现的图形化搭建工具

l灵活的发布方式

二在DataV中创建可视化应用

三在DataV中添加数据源

四尝试使用DataV组件包的功能

五使用DataV的模板创建可视化结果

本章节的教学重点、难点:

重点在于DataV可视化模板的使用

难点在于DataV数据源的管理以及DataV的功能特点

教学方法、教学手段:

学生实验

作业、讨论题、思考题:

讲授章节

ECharts数据可视化方法

授课时数

4

教学目的:

1.掌握Echarts的功能特点

2.熟悉Echarts的基础概念

3.掌握Echarts绘制简单可视化图表的方法

4.了解Echarts主题和扩展管理工具

教学内容(讲授提纲)

一ECharts的功能特点

l丰富的可视化类型

l多种数据格式无需转换直接使用

l千万数据的前端展现

l移动端优化

l支持多渲染方案与跨平台使用

l深度的交互式数据探索

l多维数据的支持以及丰富的视觉编码手段

l动态数据

l绚丽特效以及强大的三维可视化

二配置ECharts运行环境

从官网或者GitHub获取源码

三随机生成数据并使用Echarts进行可视化

根据人口增长模型随机生成一段时间的人口数据并进行可视化。

本章节的教学重点、难点:

重点是理解Echarts的功能特点

难点是掌握Echarst绘图语法

教学方法、教学手段:

学生实验

作业、讨论题、思考题:

讲授章节

FineBI数据可视化方法

授课时数

1

教学目的:

1.掌握FineBI的产品定位以及安装

2.使用FineBI设计自己的仪表盘。

教学内容(讲授提纲)

一FineBI的产品定位

FineBI的产品定位就是提供一种自助数据分析模式,帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析,适当减少IT人员在其中的参与,从而减少跨部门沟通产生的时间等成本。

二安装FineBI并制作出仪表盘

本章节的教学重点、难点:

重点在于使用FineBI进行仪表盘的设计和制作

教学方法、教学手段:

学生实验

作业、讨论题、思考题:

讲授章节

R语言可视化方法

授课时数

1

教学目的:

1.掌握R语言功能特点

2.掌握R语言绘图基础语法

教学内容(讲授提纲)

一R语言功能特点

R是一套完整的数据处理、计算和制图软件系统。

其功能主要包括:

1.R语言有强大的数据存储和处理系统,除了在R语言使用各种数学或统计工具进行数据的处理,R语言本身也提供了强大的数据存储处理系统,在R语言中可以完成数据的初步存储与处理。

2.数组运算工具,R语言的向量、矩阵运算功能尤其强大。

3.完整连贯的统计分析工具,通过R语言可以使用绝大多数的经典或者最新的统计方法。

4.优秀的统计制图功能,输出的图形可以直接保存为常用的JPG等图片格式,也可以直接保存为PDF格式,之所以特别强调,是因为如果存成PDF格式可以保存为矢量图。

5.基于R语言的可编程性,R也是一个简便而强大的编程语言,可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。

二R语言绘图基础语法

文件预处理、数据清洗、图像绘制相关语法

本章节的教学重点、难点:

重点在于R语言绘图语法的掌握

教学方法、教学手段:

学生实验

作业、讨论题、思考题:

讲授章节

Python可视化方法

授课时数

1

教学目的:

1.掌握Python语言功能特点

2.掌握Python绘图基础语法

教学内容(讲授提纲)

一Python功能特点

在数据分析领域,Python语言简单易用,第三方库强大,并提供了完整的数据分析框架,因此深受数据分析人员的青睐,Python已经当仁不让地成为数据分析人员的一把利器。

二使用Python绘制基础图像

NumPy、Pandas、Matplotlib的使用

本章节的教学重点、难点:

重点在于Python绘图语法的掌握

教学方法、教学手段:

学生实验

作业、讨论题、思考题:

讲授章节

Excel数据可视化方法

授课时数

1

教学目的:

1.掌握Excel功能特点

2.掌握Excel绘图基础

教学内容(讲授提纲)

一Excel功能特点

MicrosoftExcel是1985年Microsoft为使用Windows和AppleMacintosh操作系统的电脑编写的一款电子表格软件。

直观的界面、强大的数据整理和计算能力、数据库管理能力、图形图表制作能力和网络化的数据共享能力,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。

在1993年,作为MicrosoftOffice的组件发布了5.0版之后,Excel就开始成为所适用操作平台上的电子制表软件的霸主。

二使用Excel绘制基础图像

散点图、柱状图、雷达图、堆叠柱状图绘制;

数据面板制作。

本章节的教学重点、难点:

重点在于使用Excel绘制基础图像

教学方法、教学手段:

学生实验

作业、讨论题、思考题:

VPN是实现保密通信的基本手段,在Windows系统上,可以直接进行VPN服务的搭建,本实训就是在Windows系统上实现VPN的连接。

实训任务

基于Windows实现VPN的连接。

实训目的

1.掌握基于Windows实现VPN连接的方法;

2.VPN技术原理及特点,熟悉常用的VPN隧道协议;

3.熟悉常用的VPN技术。

实训步骤

1.规划实训环境和网络拓扑

为保证实训环境的适应性,本次实训使用虚拟机进行。

如图3-17所示,运行两台虚拟机,一台使用Windows2003server,一台使用WindowsXP,分别VPN服务器和客户端,IP规划如图中所示。

这里将192.168.1.0/24作为外网网段,172.16.1.0/24作为内网网段。

作为VPN服务器的Windows2003server,需要添加一块网卡,作为连接内部权限子网的端口。

添加方式:

点开“虚拟机设置”,添加硬件设备,在“添加硬件向导”中选择硬件类型-网络适配器,适配器模式选择“NAT”,点“确定”即可添加一块网卡。

如果系统中看不到新添加的网卡,只需将虚拟机重新启动即可。

图3-17实训环境网络拓扑

2.配置VPN服务器

Windows2003server系统中,在开始-程序-管理工具-选择路由和远程访问。

步骤如下:

步骤一:

在本地服务器上右键,选择配置并启用路由和远程访问。

步骤二:

在公共配置中选择虚拟专用网络VPN服务器,然后点击下一步。

图3-18启用路由和远程访问图3-19选择配置VPN服务器

步骤三:

指定服务器与互联网相连接的网卡。

步骤四:

选择远程拔入客户的IP地址来源。

图3-20选择外网网卡图3-21选择远程

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2