数据分析与可视化.docx

资源描述

数据分析与可视化.docx

《数据分析与可视化.docx》由会员分享，可在线阅读，更多相关《数据分析与可视化.docx（29页珍藏版）》请在冰点文库上搜索。

数据分析与可视化.docx

数据分析与可视化

1.什么是数据分析？

数据分析是基于商业目的，有目的的进行收集、整理、加工和分析数据，提炼有价信息的一个过程。

其过程概括起来主要包括：

明确分析目的与框架、数据收集、数据处理、数据分析、数据展现和撰写报告等6个阶段。

1、明确分析目的与框架

一个分析项目，你的数据对象是谁？

商业目的是什么？

要解决什么业务问题？

数据分析师对这些都要了然于心。

基于商业的理解，整理分析框架和分析思路。

例如，减少新客户的流失、优化活动效果、提高客户响应率等等。

不同的项目对数据的要求，使用的分析手段也是不一样的。

2、数据收集

数据收集是按照确定的数据分析和框架内容，有目的的收集、整合相关数据的一个过程，它是数据分析的一个基础。

3、数据处理

数据处理是指对收集到的数据进行加工、整理，以便开展数据分析，它是数据分析前必不可少的阶段。

这个过程是数据分析整个过程中最占据时间的，也在一定程度上取决于数据仓库的搭建和数据质量的保证。

数据处理主要包括数据清洗、数据转化等处理方法。

4、数据分析

数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析，从中发现因果关系、内部联系和业务规律，为商业目提供决策参考。

到了这个阶段，要能驾驭数据、开展数据分析，就要涉及到工具和方法的使用。

其一要熟悉常规数据分析方法，最基本的要了解例如方差、回归、因子、聚类、分类、时间序列等多元和数据分析方法的原理、使用范围、优缺点和结果的解释；其二是熟悉1+1种数据分析工具，Excel是最常见，一般的数据分析我们可以通过Excel完成，后而要熟悉一个专业的分析软件，如数据分析工具SPSS/SAS/R/Matlab等，便于进行一些专业的统计分析、数据建模等。

5、数据展现

一般情况下，数据分析的结果都是通过图、表的方式来呈现，俗话说：

字不如表，表不如图。

借助数据展现手段，能更直观的让数据分析师表述想要呈现的信息、观点和建议。

常用的图表包括饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵图、漏斗图、帕雷托图等。

6、撰写报告

最后阶段，就是撰写数据分析报告，这是对整个数据分析成果的一个呈现。

通过分析报告，把数据分析的目的、过程、结果及方案完整呈现出来，以供商业目的提供参考。

一份好的数据分析报告，首先需要有一个好的分析框架，并且图文并茂，层次明晰，能够让阅读者一目了然。

结构清晰、主次分明可以使阅读者正确理解报告内容；图文并茂，可以令数据更加生动活泼，提高视觉冲击力，有助于阅读者更形象、直观地看清楚问题和结论，从而产生思考。

另外，数据分析报告需要有明确的结论、建议和解决方案，不仅仅是找出问题，后者是更重要的，否则称不上好的分析，同时也失去了报告的意义，数据的初衷就是为解决一个商业目的才进行的分析，不能舍本求末。

2.数据分析常用的方法有哪些？

他们多用来分析哪些类型的数据？

通过分析可以得到怎样的结果和结论？

怎样得到保证其信度和效度？

常用数据分析方法：

聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析；

数据分析常用的图表方法：

柏拉图（排列图）、直方图（Histogram）、散点图（scatterdiagram）、鱼骨图（Ishikawa）、FMEA、点图、柱状图、雷达图、趋势图。

数据分析统计工具：

SPSS、minitab、JMP。

常用数据分析方法:

1、聚类分析（ClusterAnalysis）

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。

聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。

聚类分析所使用方法的不同，常常会得到不同的结论。

不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。

2、因子分析（FactorAnalysis）

因子分析是指研究从变量群中提取共性因子的统计技术。

因子分析就是从大量的数据中寻找内在的联系，减少决策的困难。

因子分析的方法约有10多种，如重心法、影像分析法，最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。

这些方法本质上大都属近似方法，是以相关系数矩阵为基础的，所不同的是相关系数矩阵对角线上的值，采用不同的共同性□2估值。

在社会学研究中，因子分析常采用以主成分分析为基础的反覆法。

3、相关分析（CorrelationAnalysis）

相关分析（correlationanalysis），相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度。

相关关系是一种非确定性的关系，例如，以X和Y分别记一个人的身高和体重，或分别记每公顷施肥量与每公顷小麦产量，则X与Y显然有关系，而又没有确切到可由其中的一个去精确地决定另一个的程度，这就是相关关系。

4、对应分析（CorrespondenceAnalysis）

对应分析（Correspondenceanalysis）也称关联分析、R-Q型因子分析，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。

可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。

对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

5、回归分析

研究一个随机变量Y对另一个（X）或一组（X1，X2，…，Xk）变量的相依关系的统计分析方法。

回归分析（regressionanalysis）是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。

运用十分广泛，回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

6、方差分析（ANOVA/AnalysisofVariance）

又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。

由于各种因素的影响，研究所得的数据呈现波动状。

造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

数据分析常用的图表方法有：

柏拉图（排列图）

排列图是分析和寻找影响质量主原因素的一种工具，其形式用双直角坐标图，左边纵坐标表示频数（如件数金额等），右边纵坐标表示频率（如百分比表示）。

分折线表示累积频率，横坐标表示影响质量的各项因素，按影响程度的大小（即出现频数多少）从左向右排列。

通过对排列图的观察分析可抓住影响质量的主原因素。

直方图

将一个变量的不同等级的相对频数用矩形块标绘的图表（每一矩形的面积对应于频数）。

直方图（Histogram）又称柱状图、质量分布图。

是一种统计报告图，由一系列高度不等的纵向条纹或线段表示数据分布的情况。

一般用横轴表示数据类型，纵轴表示分布情况。

散点图（scatterdiagram）

散点图表示因变量随自变量而变化的大致趋势，据此可以选择合适的函数对数据点进行拟合。

用两组数据构成多个坐标点，考察坐标点的分布，判断两变量之间是否存在某种关联或总结坐标点的分布模式。

鱼骨图（Ishikawa）

鱼骨图是一种发现问题“根本原因”的方法，它也可以称之为“因果图”。

其特点是简捷实用，深入直观。

它看上去有些象鱼骨，问题或缺陷（即后果）标在"鱼头"外。

FMEA

FMEA是一种可靠性设计的重要方法。

它实际上是FMA（故障模式分析）和FEA（故障影响分析）的组合。

它对各种可能的风险进行评价、分析，以便在现有技术的基础上消除这些风险或将这些风险减小到可接受的水平。

数据分析统计工具：

SPSS：

SPSS是世界上最早采用图形菜单驱动界面的统计软件，它最突出的特点就是操作界面极为友好，输出结果美观漂亮。

它将几乎所有的功能都以统一、规范的界面展现出来，使用Windows的窗口方式展示各种管理和分析数据方法的功能，对话框展示出各种功能选择项。

用户只要掌握一定的Windows操作技能，粗通统计分析原理，就可以使用该软件为特定的科研工作服务。

minitab：

MINITAB功能菜单包括：

假设检验（参数检验和非参数检验），回归分析（一元回归和多元回归、线性回归和非线性回归），方差分析（单因子、多因子、一般线性模型等），时间序列分析，图表（散点图、点图、矩阵图、直方图、茎叶图、箱线图、概率图、概率分布图、边际图、矩阵图、单值图、饼图、区间图、Pareto、Fishbone、运行图等）、蒙特卡罗模拟和仿真、SPC（StatisticalProcessControl-统计过程控制）、可靠性分析（分布拟合、检验计划、加速寿命测试等）、MSA（交叉、嵌套、量具运行图、类型I量具研究等）等。

JMP：

JMP的算法源于SAS，特别强调以统计方法的实际应用为导向，交互性、可视化能力强，使用方便，尤其适合非统计专业背景的数据分析人员使用，在同类软件中有较大的优势。

JMP的应用领域包括业务可视化、探索性数据分析、六西格玛及持续改善（可视化六西格玛、质量管理、流程优化）、试验设计、生存及可靠性、统计分析与建模、交互式数据挖掘、分析程序开发等。

JMP是六西格玛软件的鼻祖，当年摩托罗拉开始推六西格玛的时候，用的就是JMP软件，目前有非常多的全球顶尖企业采用JMP作为六西格玛软件，包括陶氏化学、惠而浦、铁姆肯、招商银行、美国银行、中国石化等等。

1．描述性统计分析

　　包括样本基本资料的描述，作各变量的次数分配及百分比分析，以了解样本的分布情况。

此外，以平均数和标准差来描述市场导向、竞争优势、组织绩效等各个构面，以了解样本企业的管理人员对这些相关变量的感知，并利用t检验及相关分析对背景变量所造成的影响做检验。

2．Cronbach’a信度系数分析

　　信度是指测验结果的一致性、稳定性及可靠性，一般多以内部一致性（consistency）来加以表示该测验信度的高低。

信度系数愈高即表示该测验的结果愈一致、稳定与可靠。

针对各研究变量的衡量题项进行Cronbach’a信度分析，以了解衡量构面的内部一致性。

一般来说，Cronbach’a仅大于0．7为高信度，低于0．35为低信度（Cuieford，1965），0．5为最低可以接受的信度水准（Nunnally，1978）。

3．探索性因素分析（exploratoryfactoranalysis）和验讧性因素分析（confirmatoryfactoranalysis）

　　用以测试各构面衡量题项的聚合效度（convergentvalidity）与区别效度（discriminantvalidity）。

因为仅有信度是不够的，可信度高的测量，可能是完全无效或是某些程度上无效。

所以我们必须对效度进行检验。

效度是指工具是否能测出在设计时想测出的结果。

收敛效度的检验根据各个项目和所衡量的概念的因素的负荷量来决定；而区别效度的检验是根据检验性因素分析计算理论上相关概念的相关系数，检定相关系数的95％信赖区间是否包含1．0，若不包含1．0，则可确认为具有区别效度（Anderson，1987）。

4．结构方程模型分析（structuralequationsmodeling）

　　由于结构方程模型结合了因素分析（factoranalysis）和路径分析（pathanalysis），并纳入计量经济学的联立方程式，可同时处理多个因变量，容许自变量和因变量含测量误差，可同时估计因子结构和因子关系。

容许更大弹性的测量模型，可估计整个模型的拟合程度（Bollen和Long，1993），因而适用于整体模型的因果关系。

在模型参数的估计上，采用最大似然估计法（MaximumLikelihood，ML）；在模型的适合度检验上，以基本的拟合标准（preliminaryfitcriteria）、整体模型拟合优度（overallmodelfit）以及模型内在结构拟合优度（fitofinternalstructureofmodel）（Bagozzi和Yi，1988）三个方面的各项指标作为判定的标准。

在评价整体模式适配标准方面，本研究采用x2（卡方）／df（自由度）值、拟合优度指数（goodness．of．f：

iJt．in．dex，GFI）、平均残差平方根（root—mean．square：

residual，RMSR）、近似误差均方根（root-mean—square-error-of-approximation，RMSEA）等指标；模型内在结构拟合优度则参考Bagozzi和Yi（1988）的标准，考察所估计的参数是否都到达显著水平。

一、信度分析

　　信度（Reliability）即可靠性，是指采用同一方法对同一对象进行调查时，问卷调查结果的稳定性和一致性，即测量工具（问卷或量表）能否稳定地测量所测的事物或变量。

信度指标多以相关系数表示，具体评价方法大致可分为三类：

稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和内在一致性系数（跨项目的一致性）。

信度分析的方法主要有以下四种：

　　大部分的信度指标都以相关系数来表示，即用同一被试样本所得的两组资料的相关作为测量一致性的指标，称作信度系数，主要分为四大类：

1.重测信度

是指用同样的测量工具，对同一组被测者隔一定时间重复测量，考察两次测量结果的相关程度，可以直接采用相关分析，得到的相关系数即为重测信度系数。

也可以对两次重复测试结果做两相关样本差异的统计检验。

2.复本信度

是指让同一组被测者一次填写两份平行问卷，计算两份数据的相关系数，复本信度要求两份问卷除了在问题表述不同之外，其余方面要完全一致，实际操作比较困难。

3.内部一致性信度

是指测验内部所有题目间的一致性程度。

这里的一致性是指题目测量目的的一致，而不是题目描述或形式的一致，主要方法有：

<1>分半信度

是指将一份问卷分成两部分，计算这两部分的相关系数，即分半信度系数，以此来衡量整份问卷的信度

<2>克朗巴哈信度

是最常用的测量内部一致性信度的方法，计算出的克朗巴哈α系数是所有可能分半信度的均值，取值在0-1之间，系数越高一致性越好，常用在量表的信度分析

K为量表做包含的总题目数

si2为量表题项的方差总和

s2为量表题项加总后方差

<3>库德-理查森信度

计算出的KR20系数是克朗巴哈系数的一个特例，用于计算二分类变量的量表

4.评分者信度

用来考察评分者对于问卷评分的信度，有两种方法：

<1>随机抽取一些问卷，由两位评分者评分，然后根据每份问卷的分数计算相关系数

<2>一位评分者两次或两次以上进行评分，然后计算这几次评分的Kendall和谐系数或Kappa系数

对信度系数要注意三点：

1.在不同的情况下，对不同样本，采用不同方法会得到不同的信度系数，因此一个测验可能不止一个信度系数。

2.信度系数只是对测量分数不一致程度的估计，并没有指出不一致的原因。

3.获得较高的信度系数并不是测量追求的最终目标，它只是迈向目标的一步，是使测验有效的一个必要条件。

5.提高信度的方法

1.适当延长问卷长度

2.问卷难度适中

3.问卷内容尽量同质

4.测量时间充分

5.测量程序要统一

二、效度分析

　效度是指测量工具能够准确测量出所要测量特性的程度，除受随机误差影响外，还受系统误差的影响。

效度越高表示测量真实性越高，由于真实值往往未知，所以我们对于效度的评价也不可能有绝对肯定的答案，但是可以用指标来评价，对于一个标准的测量来说，效度比信度更为重要。

效度的性质：

1.效度具有相对性，任何测验的效度都是针对一定的目标而言

2.效度具有连续性?

测验效度通常用相关系数表示，它只有程度上的不同，不是“全有”或“全无”的区别。

效度的评估方法：

效度分为四大类：

标准效度，内容效度、结构效度、区分效度

1.标准效度：

人为指定一种测量结果作为“金标准”，考察其他待测结果与其是否一致

2.内容效度：

是一种定性评价标准，主要通过经验判断进行，评价测量指标（问卷内容）的含义是否能准确反映真实情况，通常用专家评价的方法。

3.结构效度：

是评价量表效度常用的指标，是指测量结果体现出来的某种结构与测量值之间的对应程度，常使用因子分析。

4.区分效度：

如果测量的结果能区分不同的测量结果，就认为该测量具有区分效度，例如如果测量结果能区分A/B两类人群，那么对这两类人群做t检验或方差分析，比较差异是否具有统计学意义，以此判断测量是否具有区分效度。

信度与效度的关系：

1.可信的测量未必有效，而有效的测量必定可信。

2.没有信度就不可能有效度，没有效度，信度也就毫无意义

情况1：

过于分散，既没有效度也没有信度

情况2：

点很集中，虽然有一致性，但是没有命中中心，有信度但是无效度

情况3：

即有信度也有效度

3.影响数据分析的结果因素有哪些？

举例说明？

预期结果分析

（1）描述性模式：

该方法通过挖掘历史和当前数据，分析过去展现情况来决定接下来的计划步骤。

描述性模式能确定许多不同客户或产品之间的关系，来决定需要采取什么方法向前发展。

几乎所有的报表，如：

销售、市场、操作以及财务都适用这样的模式进行事后分析，来提出这些问题：

发什么什么？

多少？

频率如何？

什么地方？

何时？

问题关键是什么？

应该采取怎样的行动？

（2）预测模式：

分析过去可以知道客户可能会有的操作，这样可以预测单一用户的操作。

他可以陈述这样的问题：

将会发生什么？

如果这个趋势持续会怎样？

如果...,下一次会怎样？

（3）规范模式：

又叫做决定模式。

这个模式阐述了所有的决定因素之间的关系，来预测决定可能带来的结果。

我们可以预测这样的问题：

怎样才能达到最好的效果？

怎样应对变数？

客户可能感兴趣的其他商品是什么？

虽然预测分析在现在数据分析中凸显，但是他还是经常以描述模式出现在传统商业智能领域。

一个例子看去年的销售收入，再为下一年指定目标。

回顾以前的数据，指定未来的目标，这就是数年来商业的标准模式。

更加复杂的预测、规范模式现在正在商业中扮演更加重要的角色，这是因为硬件成本的下降，大量的数据随之而来，特别是非结构化和半结构化数据。

深入理解这些模式间的关系对于正确分析预测数据至关重要。

就像所有的项目，刚开始我们都要明确他的商业目标目的一样。

一旦有明确的业务目标目的，任何模式或者这三个模式都可以用在BI系统中，为达到最终目标目的服务。

重复筛选（Rinse-and-Repeat）

我们不能忽略掉预测数据给我们带来的误区。

大多数情况下，100%精准的数据分析师不可能的，原因如下：

1、历史数据不能准确预测未来

2、预测模式中可能会有不定因素

3、操作各种模式的时候，可能会有偏颇以及不符合实际的预测

当实践各个模式的时候，可能的错误区域应该被记录。

通常表现为预测分析系统质量提高，或者说第三方因素对其的影响下降。

因此，不断优化数据分析预测模式非常有必要。

模式部署周期，不断优化，不断操作实践，这样可以保证他在分析预测中以最高精度运行。

4.数据统计，数据分析，数据挖掘，数据处理，知识发现，大数据处理等，这些概念之间的区别和联系？

数据统计：

数据统计，是互联网传媒行业或其他操作流程的数据统计的统称，用于历史资料、科学实验、检验、统计等领域。

以便精准快速的查找与分类。

知识发现：

从数据中鉴别出有效模式的非平凡过程，该模式是新的、可能有用的和最终可理解的。

知识发现是指在积累了大量数据后，利用各种数据挖掘算法来分析数据库中存储的数据，从中识别出有效的、新颖的、潜在有用的及最终可以理解的知识。

我们可以理解为，知识发现就是从数据中发现有用知识的整个过程，即把数据转化为知识、把知识转化为决策的一个多次循环反复的高级处理过程。

数据挖掘：

数据挖掘又叫数据开采，数据采掘，分为基于数据库的数据挖掘、基于应用数据的挖掘、基于信息集合的挖掘等多种概念。

数据挖掘的定义虽然表达方式不同，但本质都是一样的，我们认为数据挖掘是指从各种数据库或观察的数据集合中提取人们事先未知的、隐含的、潜在有用的、感兴趣的概念、规则、规律、模式等形式的知识，用以支持用户的决策。

数据挖掘和知识发现都可以看作是一门交叉性学科，它们都涉及到机器学习、模式识别、统计学、数据可视化、高性能计算机和专家系统等多个领域，特别是都可以被看成是数据库理论和机器学习的交叉科学。

两个术语在定义上有一定的重合度，内涵也大致相同，都是从数据中挖掘或发现隐藏的知识;它们的研究对象、方法和结果的表现形式等方面基本上都是相同的。

因此，有些人认为，数据挖掘与知识发现只是叫法不一样，其含义是相同的。

而且，在现今的文献中，有许多场合，如技术综述等，这两个术语仍然不加区分地使用着。

数据挖掘和知识发现有一定的区别。

关于数据挖掘和知识发现的区别有不同的表述，典型的表述有两种:

①知识发现是数据挖掘的特例，即把用于挖掘的数据集限制在数据库这种数据组织形式上，因此数据挖掘可以看作是知识发现在挖掘对象的延伸和扩展。

②数据挖掘是知识发现过程中的一个特定步骤。

知识发现是从数据库中发现知识的全部过程．而数据挖掘则是此全部过程的一个特定的关键步骤。

从知识发现的含义可以得知，知识发现一般可

包括以下步骤:

①数据清理，消除噪声和不一致数据;②数据集成，多种数据源可以组合在一起;③数据选择，从数据库中检索与分析任务相关的数据;④数据变换，通过汇总、聚集操作等方式将数据统一变换成适合挖掘的形式;⑤数据挖掘，使用智能方法提取数据模式;⑥模式评估，根据某种兴趣度量，识别表示知识的真正有趣的模式;⑦知识表示，使用可视化和知识表示技术，向用户提供挖掘的知识。

从这7个步骤，可以看出，数据挖掘只是知识发现整个过程中的一个特定步骤，它用专门算法从数据中提取数据模式，是知识发现过程中重要的环节。

而知识发现是一个高级的复杂的处理过程，它还包括前期处理和后期评估，即是一个应用了数据挖倔算法和评价解释模式的循环反复过程，它们之间相互影响、反复调整。

数据分析：

数据分析只是在已定的假设，先验约束上处理原有计算方法，统计方法，将数据分析转化为信息，而这些信息需要进一步的获得认知，转化为有效的预测和决策，这时就需要数据挖掘，数据挖掘与数据分析两者紧密相连，具有循环递归的关系，数据分析结果需要进一步进行数据挖掘才能指导决策，而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。

而两者的具体区别在于：

（其实数据分析的范围广，包含了数据挖掘，在这里区别主要是指统计分析）

∙数据量上：

数据分析的数据量可能并不大，而数据挖掘的数据量极大。

∙约束上：

数据分析是从一个假设出发，需要自行建立方程或模型来与假设吻合，而数据挖掘不需要假设，可以自动建立方程。

∙对象上：

数据分析往往是针对数字化的数据，而数据挖掘能够采用不同类型的数据，比如声音，文本等。

∙结果上：

数据分析对结果进行解释，呈现出有效信息，数据挖掘的结果不容易解释，对信息进行价值评估，着眼于预测未来，并提出决策性建议。

数据分析是把数据变成信息的工具，数据挖掘是把信息变成认知的工具，如果我们想要从数据中提取一定的规律（即认知）往往需要数据分析和数据挖掘结合使用。

5.第（4）题中所列出的概念有哪些数学模型？

（写出这些模型的形式化描述），那些是新近的模型，以教育（教学、学习）为例，可以分析和挖掘的数据模型？

数据分析的模型：

（1.）PEST分析模型（2.）5W2H分析模型（3.）逻辑树分析模型（4.）4P营销理论（5）.用户行为

展开阅读全文