数据分析方法与技术描述性方法统计实验报告讲解.docx

资源描述

数据分析方法与技术描述性方法统计实验报告讲解.docx

《数据分析方法与技术描述性方法统计实验报告讲解.docx》由会员分享，可在线阅读，更多相关《数据分析方法与技术描述性方法统计实验报告讲解.docx（11页珍藏版）》请在冰点文库上搜索。

数据分析方法与技术描述性方法统计实验报告讲解.docx

数据分析方法与技术描述性方法统计实验报告讲解

电子科技大学政治与公共管理学院

本科教学实验报告

（实验）课程名称：

数据分析技术系列实验

电子科技大学教务处制表

电子科技大学

实验报告

学生姓名：

学号：

指导教师：

一、实验室名称：

电子政务可视化实验室

二、实验项目名称：

描述性统计方法

三、实验原理

通过调查或观察，采集到样本以后，常用一些统计量描述这些数据的分布状态，并通过这种认识，对数据的总体特征进行总结和归纳。

数据的分布状态常通过数据的进行描写。

本实验主要对数据统计分析的最基础分析——描述性统计分析进行实验，主要包括集中趋势和离中趋势分析，其主要算法原理如下：

1.描述集中趋势的统计

（1）算术平均值（Mean）：

样本数据的总和除以样本数据的个数即是算术平均值。

（2）中位数（Median，Me）

首先将样本数据（假设有n个数）按升序或降序排列，如果n为奇数，则数列中间的数值为中位数；如果n为偶数，则中位数为其中两数值的均值。

（3）众数（Mode，Mo）

样本数据中出现频数（次数）最多的那个数称为众数。

众数不易确定，与中位数一样，它不受极值影响。

但有时会出现两个甚至多个众数，有时又没有众数。

所以，众数的使用受到严格限制。

（4）几何平均数（GeometricMean）

假定银行每年本利（本金加利率）为X1有f1年，年本利为X2有f2年，银行年本利为X3有f3年，⋯，年本利为Xn有fn年，则n年银行平均本利为G，银行平均年利率G－1。

（5）四分位数（Quartiles）

最低数与中位数之间的中位数是25分位数，原中位数与最高数之间的中位数是75分位数。

类似集中趋势的度量还有十分位数和百分位数。

2.描述离中趋势的统计量

（1）极差（Range）

是样本数据中最大值与最小值的差值。

极值舍弃了最大值与最小值之间的其他数据信息，仅仅依靠端点值来确定，因而稳定性差。

（2）平均差（AverageDifference）

指各样本数据与均值间差异绝对值的均值，也称为平均绝对差。

（3）n个数据的方差（Variance）

定义如下式，其中

为这n个数的均值。

（4）标准差（StandardDeviation,StdDev）

是方差的算术平方根

。

标准差是变量与算术平均数的平均离差，也是最常用的反映数据离中趋势的统计量。

但是，在抽样调查中总体标准差往往未知，需要用样本标准差代替总体标准差，总体方差的无偏估计量应该为原方差乘以修正因子（n/n－1），并由此得到无偏标准差的估计量。

四、实验目的

掌握常用的描述性统计方法的原理及操作，包括：

算术平均值、中位数、众数、几何平均数、调和平均数、极差、平均差、方差、标准差等。

五、实验内容及步骤

使用“Analyze”莱单中的“DescriptiveStatistics”功能进行描述性统计分析。

1.频数分析

“Frequencies”过程通过单个数据的频数分析（Frequencies）来达到整理数据的目的，利用该过程，得到一系列描述数据分布状况的统计量。

单击“Frequencies”命令则可打开相应对话框（如图示），对对话框中各选项进行设置。

图2

（1）对话框左侧的源变量名列表框中，给出了当前数据文件中所有变量的变量名。

（2）“Variable（s）”列表框，在变量名列表框中单击变量名以后，单击对话框中间的右箭头按钮，将变量名移到该列表框中。

选定变量名以后，将对选定变量的数据进行频数分析。

（3）选择“Displayfrequencytables”选项，将在浏览器中显示频数分布表，否则只显示直方图,不显示频数表。

（4）若单击“Statistics”按钮，则打开统计量选择对话框，如图示，该对话框中各选项的意义如下。

图3

①“PercentileValues”选项区，可计算并显示如下内容:

四分位数（“Quartiles”）、等间隔n分位数（“Cutpointsfor”后文本框中输入数值为n）和不等间隔“Percentile（s）”分位数p%、q%。

“Percentile（s）”选项后面的文本框中依次先后输人数值p、q，单击“Add”按钮，显示在文本框中，利用“Change”和“Remove”按钮，可以对文本框中列表进行修改。

②“CentralTendency”将显示样本的集中趋势，如计算并显示样本数据的均值“Mean”，数据的中位值“Median”，数据的众数“Mode”，数据的累加和“sum”。

③“Valuesaregroupmidpoints”选项，表示假设数据已经分组，数据取值为组中值，选择此项，可计算百分位数统计和数据的中位数。

④“Dispersion”选项区将计算并显示数据的离中趋势，如计算并显示标准差“std.Deviation”，方差“Variance”，极差“Range”，最小值“Minimum”，最大值“Maximum”，和标准误（平均值的标准误差）“S.E.mean”。

⑤“Distribution”选项区设置描述数据样本分布的统计量。

如显示样本数据的偏度“Skewness”和偏度的标准误差，样本数据的峰度“Kurtosis”和峰度的标淮误差。

（5）“Charts”按钮是图形选择对话框，如图所示，各选项的意义如下。

图4

①“ChartType”确定输出图形的类型。

不生成和显示图形选择“None”单选项（默认选项）；生成和显示条形图（横坐标非等距坐标）选择“Barcharts”；生成和显示饼图选择“Piecharts”；生成和显示直方图（横坐标为等距坐标）则选择“Histograms”。

若选择“Histograms”后，“ShownormaIcurve”选项为可用，选择此项后，在生成和输出直方图时添加正态分布曲线。

②若选择“Barcharts”或“Piecharts”单选项，对话框底部“ChartValues”选项区内的选项为可用，该选顼要求确定生成图形时所用的数据变量。

若用不同取值的样本数作为分类变量的度量，选“Frequencies”（默认项）；若用不同取值对应样本数占总样本的百分数作为分类变量度量，选用“Percentages”选项。

（6）“Format”是频数分析表的输出格式选择对话框，如图所示，各选项的意义如下。

图5

①“Orderby”选项区设置表中数据的排列、输出顺序。

若按照变量值的大小做升序排列（默认选项），选“Ascendingvalues”单选项；若按照变量值的大小做降序排列，选“Descndingvalues”单选项；按照变量值出现的频数做升序排列、输出，选“Λ∞cIldlngcllun‘”单选项；按照变量值出现的频数做降序排列、输出，选“D岱ccndingcounts”单选项。

②“MultipleVariables”选项区是多变量的表格显示格式。

若选择“CompareVariables”（默认选项），将对应于各变量的统计量显示在一张单独的表中。

若选择“OrganizeoutputbyVariables”单选项，将对应于各变量的统计量分别列表显示。

③“Suppresstableswithmanycategories”选项是限定频数表输出的范围，若选择此项，在后面的文本框中输入数值n，即输出数据的组数不得大于窗口中输入的数值。

默认时该数值为10。

2.描述性统计分析

在“Analyze”子菜单中单击“DescriptivesStatistics”命令（如图示），打开“Descriptives”对话框（如图55所示），可见如下选择项。

图6

图7

①从左边的源变量中选择合适变量，用箭头按钮将其移到“Variables”选项框。

对选项框中所有被选中变量数据的分布特征进行描述。

②“Savestandardizedvaluesasvariables”选项，是将被选中变量的数据进行标准化处理（

），变量名为原变量名前添加字母Z。

新生成的变量和数据保存到当前数据文件内，并显示在数据编辑器最后一列。

③若单击“Options”按钮打开对话框，如右图所示，各选项意义如下。

“Mean”选项、“Sum”选项、“Dispersion”选项区内的选项和“Distribution”选项区内选项意义与前面频数分析中“Statistics”对话框的内容相同。

“DisplayOrder”选项区，用来设置描述表格中数据的显示顺序。

“Variablelist”单选项为默认选项，是按照数据文件中变量排列的先后顺序显示表格中的描述统计量;“Alphabetic”单选项，按照变量名的字母顺序显示描述统计量;“AscendingmeansⅡ单选项，是按照数据均值的升序显示描述统计量;“DescendiⅡgmeans”单选项，则按照数据均值的降序显示描述统计量。

六、实验器材（设备、元器件）：

计算机、打印机、硒鼓、碳粉、纸张

八、实验数据及结果分析

1.频数分析结果

在数据编辑器中打开数据文件“Employee.sav”，在“Frequencies”对话框中的“Variables"选项框中输人“jobcat”变量名，单击“Statistics”按钮，打开对话框，选择全部选项，“PercentileValues”选项区中选择“Percentile（s）”，并在后面文本框中输人数值10,20,25,30,40,50,60,70,75,80,85,90,95，其他对话框中的选项按默认情况设置。

设置完毕后，在“Frequencies”对话框中单击“oK”按钮，生成表格如表所示。

该表为变量“jobcat”数据的频数分析表和数据统计量描述表。

Statistics

EmploymentCategory

Valid

474

Missing

Mean

1.41

Std.ErrorofMean

.036

Median

1.00

Mode

Std.Deviation

.773

Variance

.598

Skewness

1.456

Std.ErrorofSkewness

.112

Kurtosis

.268

Std.ErrorofKurtosis

.224

Range

Minimum

Maximum

Sum

669

Percentiles

1.00

2.00

3.00

EmploymentCategory

Frequency

Percent

ValidPercent

CumulativePercent

Valid

Clerical

363

76.6

Custodial

5.7

82.3

Manager

17.7

100.0

Total

474

100.0

2.描述性统计分析结果

打开数据文件“Employee.sav”，在“Descriptive”对话框中的“Variables"选项框中输入变量名“salary”，选择“Options”对话框中的所有选项，单击“OK”按钮，生成如下表格。

DescriptiveStatistics

Range

Minimum

Maximum

Sum

Mean

Variance

Skewness

Kurtosis

Statistic

Std.Error

Statistic

Std.Error

Statistic

Std.Error

CurrentSalary

474

$119,250

$15,750

$135,000

$16,314,875

$34,419.57

$784.311

$17,075.661

2.916E8

2.125

.112

5.378

.224

ValidN（listwise）

474

九、实验结论

SPSS在数据分析方面提供了强大的能力，可以快速地得到丰富的描述性统计分析结果供数据分析人员选用，重点在于理解各输出参量的含义及其与数据分析对象属性之间的关系。

本实验的结果让我比较好地了解了基于本调查数据的统计分布特征。

十、总结及心得体会

利用软件来进行复杂的统计数据分析确实可以带来极大的便利，对于原理的学习、理解需要几天的时间，但在实际实验中，只要理解相关含义，实验很快就可以完成。

但是对原理的理解光靠SPSS软件是不够的，软件直接给出了结果，但其中的计算细节还需要利用EXCEL等工具自己亲自算一遍，才能更进一步地理解，这大概是本实验的难点所在。

十一、对本实验过程及方法、手段的改进建议

老师应该在实验前对总体要求及注意事项进行更多的讲解，这样可以避免在实验中老师总是在回答学生一些简单的问题。

可以强大对学生自主运用公式计算出统计结果的训练，将自己计算的结果与SPSS计算结果进行比较，更好的理解各统计量的含义及其计算过程。

展开阅读全文