大数据导论第7章大数据分析PPT课件下载推荐.pptx

资源描述

大数据导论第7章大数据分析PPT课件下载推荐.pptx

《大数据导论第7章大数据分析PPT课件下载推荐.pptx》由会员分享，可在线阅读，更多相关《大数据导论第7章大数据分析PPT课件下载推荐.pptx（48页珍藏版）》请在冰点文库上搜索。

大数据导论第7章大数据分析PPT课件下载推荐.pptx

笼统地说，凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的，就可称之为数据。

步入现代社会，信息的种类和数量越来越丰富，载体也越来越多。

数字是数据，文字是数据，图像、音频、视频等都是数据。

数据的类型,计数资料,计量资料,数据的类型,等级资料,数据的类型,数据的表现形式还不能完全表达其内容，需要经过解释，数据和关于数据的解释是不可分的。

如93是一个数据，可以是一个同学某门课的成绩，也可以是某个人的体重，还可以是计算机系2013级的学生人数。

数据的解释是指对数据含义的说明，数据的含义称为数据的语义，数据与其语义是不可分的。

并且单纯的数据是毫无作用的，需要人们进行整理分析才能起到作用。

可以说数据分析和数据有着同等重要的作用。

7.3统计数据分析,样本=全体？

现在社会上有一种流行的说法，认为在大数据时代，“样本=全体”，人们得到的不是抽样数据而是全数据，因而只需要简单地数一数就可以下结论了，复杂的统计学方法可以不再需要了。

这种观点非常错误。

首先，大数据仅告知信息，但不解释信息。

如股票市场，即使把所有的数据都公布出来，不懂的人依然不知道数据代表的信息。

所以在大数据时代，统计学依然是数据分析的灵魂。

其次，全数据的概念本身很难经得起推敲。

全数据就是全部数据。

这在某些特定的场合对于某些特定的问题确实可能实现。

如要比较清华、北大两校同学数学能力整体上哪个更强，可以收集到两校同学高考时的数学成绩作为研究的数据对象。

从某种意义上说，这是全数据。

但是，并不是说我们有了这个全数据就能很好地回答问题。

一方面，这个数据虽然是全数据，但仍然具有不确定性。

统计数据的四种类型,定类数据,定类数据（NominalData），表现为类别，但不区分顺序，是由定类尺度计量形成的,定序数据,定序数据（OrdinalData），表现为类别，但有顺序，是由定序尺度计量形成的,定距数据,定距数据（IntervalData），表现为数值可进行加、减运算，是由定距尺度计量形成的,定比数据,定比数据（RatioData），表现为数值可进行加、减、乘、除运算，是由定比尺度计量形成的。

统计数据的四种类型,在描述数据的集中趋势时，对定类数据通常是计算众数，对定序数据通常是计算中位数，但对定距和定比数据同样也可以计算众数和中位数。

反之，适用于高层次测量数据的统计方法，则不能用于较低层次的测量数据，因为低层次数据不具有高层次测量数据的数学特性。

如对于定距和定比数据可以计算平均数，但对于定类数据和定序数据则不能计算平均数。

理解这一点，对于选择统计分析方法是十分有用的。

统计数据分析的步骤,通过问题确定分析目标,采用科学方法收集数据,整理数据,统计分析,出具分析报告,统计数据分析的步骤,当数据属于分类数据时，整理需要列出所分的类别，计算出每一类别的频数、频率或比例、比率，制作频数分布表。

这样做的目的是对数据及其特征进行初步地了解。

可以使用Excel、SPSS完成前期的数据分析，可以使用条形图、帕累托图、饼图、环形图来整理和展示分类数据。

图中显示的是户口分布条形图，我们将户口分为两类，城镇户口和农村户口，并且年龄也分成好几个年龄段，这就是一个分类数据的例子。

统计数据分析的步骤,当数据属于顺序数据时，整理时需按照特定的顺序（如年龄、年级）进行排序分类，计算每一类别的频数、频率或比例、比率，制作频数分布表。

目的是对具有特定顺序的目标对象进行纵向比较，研究。

同样可以使用条形图、帕累托图、饼图、环形图、累计频数分布图或频率图来整理和展示分类数据。

图显示的是文化程度分布条形图，其中，未上过学、小学、初中、高中、大专以上就是一个顺序结构，按照时间顺序处理和展示顺序数据。

统计数据分析的步骤,除了上述的两种处理数据的方式外，还有一些特殊的数据分析方法，数据的分组观测，这种观测方法第一步需要先确定组数，组数的确定主要是用于数据特征的观测，因此具体需视其数据特征而定；

第二步需要确定各组的组距，组距就是每一组的上限减组的下限；

最后一步需根据分组整理成频数分布表。

数值型数据分析，这是按数字尺度测量的观察值，其结果表现为具体的数值。

如收入300元、年龄2岁、考试分数100分、重量3公斤等，这些数值就是数值性数值。

对数值型数值，可直接用算术方法进行汇总和分析，而对其他类型的数值则需特殊方法来处理。

当处理完数据之后一定给出意见和建议，统计数据分析的每一次分析都要从“结果”出发，没有结论的数据罗列并不是分析。

7.4基于机器学习的数据分析,机器学习（MachineLearning，ML）是一类算法的总称，这些算法企图从大量历史数据中挖掘出其中隐含的规律，并用于预测或者分类，更具体的说，机器学习可以看作是寻找一个函数，输入是样本数据，输出是期望的结果，只是这个函数过于复杂，以至于不太方便形式化表达。

需要注意的是，机器学习的目标是使学到的函数很好地适用于“新样本”，而不仅仅是在训练样本上表现很好。

这种将学到的函数应用于新样本的能力，称为泛化（Generalization）能力。

机器学习发展历程,回归,分类,机器学习的主要任务,分类是将新数据划分到合适的类别中，一般用于类别型的目标特征,回归是对新目标特征进行预测，一般用于连续型数据,分类与回归比较,机器学习分类,监督学习,无监督学习,强化学习,监督学习,监督学习就是用已知某种或某些特性的样本作为训练集，以建立一个数学模型，再用已建立的模型来预测未知样本，此种方法被称为有监督学习。

监督学习五步骤,数据采集,特征提取,图片转换,开始学习,测试,监督学习,我们以图片识别猫为例来学习有监督学习的过程，首先我们需要采集很多猫的图片，当然这个数目要足够大。

然后我们进行特征提取，也就是向计算机指认图片中哪一部分是猫，哪一部分又是背景。

第三步机器要进行图片转换，机器和人看图的方式是不一样的，机器看到的图片是由一堆数字组成的如图所示，这是一张黑白照数据范围从0255。

假设上图是一张黑白图的表格，第一个小格子数字是255，那么这个小格的黑色程度是255（最低是0，最高是255）。

如果这个格子是0，那么我们看到的这个格子就是全白的。

机器将图片转换为这样的数据之后，根据刚才的标签就可以进行学习。

当机器学习完这么多的猫图后，它就大概知道上面样子的物体是猫了。

之后就可以进行测试了，实现自动让机器判断猫，通过一些公式来计算误差，就能了解学习效果，如学习的结果里面有90%是猫，那么训练的效果就很好了。

无监督学习,在无监督学习中，数据是无标签的，只通过特征信息去归纳出一些新的规律出来，这个方法称之为无监督学习。

由于大多数真实世界的数据都没有标签，因此无监督学习不用特征提取，导致学习方式与有监督学习不一样。

无监督学习分为聚类和降维。

聚类用于根据属性和行为对象进行分组。

这与分类不同，因为这些组不是你提供的。

聚类的一个例子是将一个组划分成不同的子组（如基于年龄和婚姻状况），然后应用到有针对性的营销方案中。

降维通过找到共同点来减少数据集的变量。

无监督学习,无监督学习就是给机器一堆猫图和一堆狗图，实现相似的图片归为一类，自动分成了猫图和狗图。

怎么算是相似呢？

其实一类图片和另一类图片之间是有某种距离的，而这种距离就是关键。

距离短的就是相似，距离长的就是不相似。

这个距离就是最黑和最白，在机器看来就是0和255，那么0和255的差距就是0-255=-255，这个差距带入到某公式里，就可以计算距离。

从上可以看到，无监督学习的训练集中没有人为的标注的结果，在无监督的学习过程中，数据并不被特别标识，学习模型是为了推断出数据的一些内部结构。

强化学习,强化学习又称再励学习、评价学习或增强学习，强化学习使用机器的个人历史和经验来做出决定。

不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数，这反映了人类是如何根据积极和消极的结果学习的。

强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习的经典应用是玩游戏。

贝叶斯算法,决策树算法,Apriori关联规则算法,K-均值聚类算法,算法分类,7.5经典的机器学习算法,决策树算法,决策树是一种用于对实例进行分类的树形结构。

一种托于策略抉择而建立起来的树。

决策树由节点（Node）有向边（DirectedEdge）组成。

节点的类型有两种：

部节点和叶子节点。

其中，内部节点表示一个特征或性的测试条件（用于分开具有不同特性的记录），叶节点表示一个分类。

一旦构造了一个决策树模型，以它为基础来进行分类是非常容易的。

具体做法是，从根节点开始，由实例某一特征进行测试，根据测试结构将实例分配到其子点（也就是选择适当的分支）；

沿着该分支可能达到子节点或者到达另一个内部节点时，那么就使用新的试条件递归执行下去，直到抵达一个叶子节点。

当到叶子节点时，便得到了最终的分类结果。

依和内属子将的节叶测达,决策树算法,决策树分类的思想类似于找对象。

图中显示的是一个女孩的母亲要给这个女孩介绍男朋友，于是有了上面的决策。

这个女孩的决策过程就是典型的分类树决策。

相当于通过年龄、长相、收入和是否公务员将男人分为两个类别：

见和不见。

假设这个女孩对男人的要求是：

30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员，那么最终满足这些条件的才会选择去见。

这就是分类算法的一个例子。

K-均值聚类算法,K均值聚类算法（K-meansClusteringAlgorithm）是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。

聚类中心以及分配给它们的对象就代表一个聚类。

每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。

这个过程将不断重复直到满足某个终止条件。

终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，或者是没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

图中显示的是人为给的两个组，机器会按照上面介绍的步骤将坐标上的点分成两个组。

Apriori关联规则算法,Apriori算法是一种挖掘关联规则的频繁项集算法，其核心是基于频繁项集的递推算法。

Apriori算法通过对数据的关联性进行了分析和挖掘，得到的这些信息在决策制定过程中具有重要的参考价值，因此Apriori算法被广泛应用于商业和网络安全等多个领域。

而且算法已经被广泛的应用到商业、网络安全等各个领域。

Apriori关联规则算法,Apriori算法与大多数关联规则挖掘算法采用的策略一致，即将关联规则挖掘任务分解为如下两个主要步骤：

第一步，产生频繁项集：

其目标是发现满足最小支持度阈值的所有项集，这些项集称作频繁项集（frequentitemset）。

这些项集出现的频繁性至少和预定义的最小支持度一样。

第二步：

产生规则：

这些规则必须满足最小支持度和最小置信度。

其目标是从上一步发现的频繁项集中提取所有高置信度的规则，这些规则称作强规则（strongrule）。

一旦这些规则被生成，那么只有那些大于用户给定的最小置信度的规则才被留下来。

这里为了生成所有频集，使用了递归的方法。

贝叶斯算法,贝叶斯方法是一种研究不确定性的推理方法，不确定性常用贝叶斯概率表示，它是一种主观概率，是人的认识，是个人主观的估计，随个人的主观认识的变化而变化。

对它的估计取决于先验知识的正确和后验知识的丰富和准确，因此贝叶斯概率常常可能随个人掌握信息的不同而发生变化，基于后验知识的一种判断，取决于对各种信息的掌握。

贝叶斯算法,已知某条件下的概率，如何得到两条件交换后的概率，也就是在已知P（A|B）的情况下如何求得P（B|A）的概率。

P（A|B）是后验概率（PosteriorProbability），也就是我们常说的条件概率，即在条件B下，事件A发生的概率。

朴素贝叶斯分类阶段,第一阶段准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。

这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。

这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。

其输入是特征属性和训练样本，输出是分类器。

这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

第三阶段应用阶段。

这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。

这一阶段也是机械性阶段，由程序完成。

7.6基于图的数据分析,图分析是指利用图模型从海量数据中发现和提取有用的知识和信息的过程。

通过图挖掘所获取的知识和信息已广泛应用于各种领域，如商务管理、市场分析、生产控制、科学探索和工程设计,7.6基于图的数据分析,图分析是指利用图模型从海量数据中发现和提取有用的知识和信息的过程。

通过图挖掘所获取的知识和信息已广泛应用于各种领域，如商务管理、市场分析、生产控制、科学探索和工程设计。

图就是在数据结构中学到的图，它是一种存储信息结构，在数据结构中的定义的基本意思是这样的：

图中的每个节点都可以有多个父节点，多个子节点。

所以图的结构是非常灵活的，它包含了链表的结构，包含了树的结果。

它是整个数据结构的综合体。

它的信息存储也是通过节点和边的形式进行存储。

这就是图的概念，,基于图的数据分析,该图是一个无向带权重的图，在现实生活中这样的图是存在的，如全国的交通网络图就是一个无向图，因为你可以到一个地方去肯定也可以沿着这条路返回，无向是两个节点不管是哪到哪沿着这条路径都可到达，如图7-14中的V1-V6可达，同时V6-V1也可达，称之为无向边，与无向边对应的是有向边。

图分析机制将会返回包含在图中有给定的两种以上关键词的节点的一个关系。

如图所示，假设要查找张三、李四这两个关键词，刚好在上图中有V1包含关键词张三，V2包含关键词李四，那图的关键词搜索返回关系，到底是返回什么关系呢？

在图中，我们知道从V1到V2有多条路径，如：

V1-V5-V2、V1-V3-V2等，那么上面举出的两条路径，不就是一棵树吗？

一个是以V5为根节点，一个是以V3为根节点。

那么节点V5和V3就是这两个关键词之间的一个关系，这就是上面说的如何找出两个关键词之间的关系。

这里就将如何找到两个关键词之间的关系总结一句话：

找到包含关键词的节点公共父节点。

那么这时候就面临这两个关键词的公共父节点肯定不只一个，那么该返回哪个？

这就要看到图中边的权重了，这里就要用到对图遍历的一些算法（Dijkstra）,7.7基于自然语言的数据分析,自然语言处理是文本挖掘的研究领域之一，主要是研究如何利用计算机来理解和生成自然语言，是人工智能和语言学领域的分支学科。

现在的自然语言处理是一门介于语言学、计算机科学和认知心理学之间的交叉科学。

传统语言学分类,传统语言处理方法,两者的区别：

基于规则的方法是利用了语言学家的语言学知识；

基于统计的方法是利用获取的知识来扩大真实文本的规模，可以覆盖几乎所有语言现象，可以克服语言学家总结语言规则的片面性和主观性，并使他们集中精力研究那些最常见的、在统计意义上最重要的语言现象。

自然语言处理主要应用,机器翻译,语言识别与合成,自动文摘,语料库建立,习题,简述什么是数据分析。

数据分析中的数据类型有哪三种分类？

统计数据分析的步骤是什么，获得数据要从哪几个方面检查数据？

请谈谈你对机器学习的理解。

分析下列例子是有监督学习还是无监督学习。

垃圾邮件分类问题，在数据集给定的为一些有标签的样本，该样本是垃圾邮件还是非垃圾邮件。

房价预测问题，给定的数据集为一些带有房价的样本，预测某一个房子的价格，由于房子的价格是一些连续的数值。

分组划分问题，给定一些客户，将这些客户聚集为几类，给定的客户集中的每个客户不会给出其对应的类别，让算法自动聚类。

假设银行要对客户进行分类，从而可以给特定人群推送相应的优惠套餐，那么应该选用哪种算法进行分类？

解释一下Apriori算法中支持度和置信度是什么意思。

基于图的数据分析的实际应用在什么方面？

习题答案,答：

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

答：

计量资料计数资料等级资料答：

统计数据分析分为以下几步：

确定问题确定分析目标；

采用科学方法收集数据；

整理数据；

统计分析；

出具分析报告，提出解决意见或建议。

要检查以下几个方面检查数据的完整性（所查对象是否有遗漏），准确性（数据是否有错误、存在异常值），适用性（明确数据的来源、口径、背景材料是否符合分析研究的需要），实效性（对于时效性较强的问题，如果数据是滞后的对于研究就没有多大的意义）。

从机器学习的任务和机器学习的分类以及机器学习所使用的算法三方面来谈答：

该问题为有监督学习。

该问题是有监督学习。

该问题是无监督问题。

K均值聚类算法答：

支持度：

某两件事物共同发生占总体的比例（如同时购买X、Y的订单数占总订单数的比例），置信度：

某两件事物同时发生占其中一件事单独发生的比例（如购买X的订单中同时购买Y的比例，即同时购买X和Y的订单数占购买X的订单的比例）。

如商务管理、市场分析、生产控制、科学探索和工程设计、社交网络、网络计算等。

感谢大家的全力支持,LOGO,

展开阅读全文

大数据导论第7章 大数据分析PPT课件下载推荐.pptx

大数据导论第7章大数据分析PPT课件下载推荐.pptx