描述性统计分析DescriptiveStatistics.docx-资源下载

描述性统计分析DescriptiveStatistics.docx

1、描述性统计分析DescriptiveStatistics第二讲：一般数据分析教学目的：能应用SPSS软件进行：描述分析、频数分析、数据探索、交叉表分析、图形分析等教学内容：1）描述分析 2）频数分析 3）数据探索 4）交叉表分析教学重点：描述分析、频数分析、交叉表教学难点：数据探索、交叉表分析教学时间：1学时描述性统计分析Descriptive Statistics 描述性统计分析是统计分析的第一步，做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中，最常用的是列在最前面的

2、四个过程：Frequencies过程的特色是产生频数表；Descriptives过程则进行一般性的统计描述；Explore过程用于对数据概况不清时的探索性分析；Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验，常用的X2 检验也在其中完成。1.1 Frequencies过程频数分布表是描述性统计中最常用的方法之一，Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表，还可以按要求给出某百分位点的数值，以及常用的条图、饼图等统计图。和国内常用的频数表不同，几乎所有统计软件给出的都是详细频数表，即并不按某种要求确定组段数和组距，而是按照数值精确

3、列表。如果想用Frequencies过程得到熟悉的频数表，请先用第3章学过的Recode过程产生一个新变量来代表所需的各组段。1.1.1界面说明Frequencies对话框的界面如图1.1a所示。选取AnalyzeDescriptive StatisticsFrequencies，系统就会弹出该对话框，其各部分的功能如下：1Variable（s）框：左侧的变量可全部选入右侧的Variable（s）框内，一次性完成所有变量的频数分析；也可逐一选入右侧，进行分析n次分析（这样就太累了）。2Display frequency tables复选框：确定是否在结果中输出频数表。图1.1a Frequen

4、cies对话框3Statistics：单击后弹出Statistics对话框如图1.1b，用于定义需要计算的其他描述统计量。其中：Percentile Values复选框组：定义需要输出的百分位数，可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles)，如直接指定输出P2.5（即累计百分数为2.5%处的变量值）和P97.5（即累计达到97.5%处的变量值）。 Central tendency复选框组：用于定义描述集中趋势的一组指标：均值(Mean)、中位数(Median)、众

5、数(Mode)、总和(Sum)。 Dispersion复选框组：用于定义描述离散趋势的一组指标：标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。 Distribution复选框组：用于定义描述分布特征的两个指标：偏度系数（Skewness）和峰度系数(Kurtosis)。 Values are group midpoints复选框：当输出的数据是分组频数数据，并且具体数值是组中值时，选中该复选框，以通知SPSS，免得它犯错误。图1.1b Frequencies的Statisti

6、cs对话框4Charts：弹出Charts对话框，用于设定所做的统计图。Chart type单选钮组定义统计图类型，有四种选择：无、条图（Bar chart）、圆图(Pie chart)、直方图Histogram），其中直方图还可以选择是否加上正态曲线（With normal curve）。 Chart Values单选钮组定义是按照频数还是按百分比做图（即影响纵坐标刻度）。5Format：弹出Format对话框，用于定义输出频数表的格式，不过用处不大，一般不管。Order by单选钮组定义频数表的排列次序，有四个选项：Ascending values为根据数值大小按升序从小到大作频数分

7、布；Descending values为根据数值大小按降序从大到小作频数分布；Ascending counts为根据频数多少按升序从少到多作频数分布；Descending counts为根据频数多少按降序从多到少作频数分布。 Multiple Variables单选钮组如果选择了两个以上变量做频数表，则Compare variables可以将他们的结果在同一个频数表过程输出结果中显示，便于互相比较，Organize output by variables则将结果在不同的频数表过程输出结果中显示。 Suppress Tables more than.复选框当频数表的分组数大于下面设定数值时禁

8、止它在结果中输出，这样可以避免产生巨型表格。1.1.2 实例分析例1.1 利用111.sav文件中q9（即被访问者最近一次参加促销活动的消费）的调查数据，绘制频数表、直方图，计算平均值、标准差、变异系数CV、中位数Mode、p2.5和p97.5。求解上述要求中，除CV需用手工计算外，其他问题都可通过Frequencie解决。其主要操作如下：1. 从程序中打开SPSS，选择Fileopendata，打开111.sav；2. AnalyzeDescriptive StatisticsFrequencies，弹出Frequencies对话框；3. Variables框：选入q9 4. 单击Stati

9、stics 5. 选中Mean、Std.deviation、Median复选框 6. 单击Percentiles：输入2.5：单击Add：输入97.5：单击Add： 7. 单击Continue 8. 单击Charts： 9. 选中Bar charts 10. 单击Continue 11. 单击OK，系统即在SPSS Viewer中显示所有结果，详见结果解释。而CV可用得到的Std. deviation 与Mean相除求得。问题与处理图1.2是q9的次数分布直方图，它表明：由于q9的取值点较多，使得按变量取值分组进行的Frequencies分析表很长，绘出的直方图也因分组太多而显得不清爽，需要

10、进一步处理。可先对q9分组，可通过重新赋值于新变量来实现，再作直方图。图1.2 q9的次数分布直方图1.1.3结果解释Statistics Table Statistics被访问者最近一次参加促销活动的消费 NValid312Missing0Mean114.03Mode113Std. Deviation18.158Percentiles2.558.0097.5293.70表的最上方是表名，接下来是变量q9的标签被访问者最近一次参加促销活动的消费；表的左侧是统计变量名称，右侧是统计结果。表中数据显示：样本量N为312个，缺失值0个，平均值Mean=114.03，中位数Median=113，标准差

11、STD=18.158，P2.5=58，P97.5=293.7。Frequencies Table上表是系统对变量q9作的频数分布表（此处只列出了开头部分），Vaild右侧为原始值，Frequency为频数，Percent为各组频数占总例数的百分比（包括缺失记录在内），Valid percent为各组频数占总例数的有效百分比，Cum Percent为各组频数占总例数的累积百分比。1.2 Descriptives过程Descriptives过程是连续资料统计描述应用最多的一个过程，他可对变量进行描述性统计分析，计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将

12、原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。1.2.1 界面说明Descriptives对话框的界面如图1.3a所示。选取AnalyzeDescriptive StatisticsDescriptives，系统就会弹出该对话框，其各部分的功能如下：Save standardized values as variables复选框：确定是否将原始数据的标准正态评分存为新变量。Options：Options对话框（见图1.3b）中的大部分内容均在前面Frequences过程的Statistics对话框中见过，只有最下方的Display Order单选钮组是新的，可以选择为变量列表

13、顺序、字母顺序、均值升序或均值降序。1.2.2结果解释利用111.sav文件中的q9数据，选择AnalyzeDescriptive StatisticsDescriptives，在弹出的Descriptives对话框中选q9到Variable（s）框中，点击ok，即可得到如下一个典型的Descriptives过程结果统计表： Descriptive Statistics NMinimumMaximumMeanStd. Deviation被访问者最近一次参加促销活动的消费31252300114.0318.158Valid N (listwise)312 表中各统计项在前面都有解释，这里就不再啰嗦

14、了。图1.3a Descriptives对话框图1.3b Descriptives中的Options对话框1.3 Explore过程Explore过程可对变量进行更为深入详尽的描述性统计分析，主要用于对资料的性质、分布特点等完全不清楚时，故又称之为探索性分析。它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，如茎叶图、箱图等，显得更加详细、全面，有助于用户制定继续分析的方案。1.3.1界面说明Explore对话框的界面如图1.4a所示。选取AnalyzeDescriptive StatisticsExplore，系统就会弹出该对话框，其各部分的功能如下：图1.4a Expl

15、ore对话框Display单选钮组：用于选择输出结果中是否包含统计描述、统计图或两者均包括。Dependent List框：用于选入需要分析的变量。Factor List框：如果想让所分析的变量按某种因素取值分组分析，则在这里选入分组变量。Label cases by框：选择一个变量，他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。Statistics：弹出Statistics对话框（见图1.4b），用于选择所需要的描述统计量。有如下选项：Descriptives复选框：输出平均值、中位数、众数、5%修正平均值、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数

16、、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均值可信区间。 M-estimators复选框：作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数。 Outliers复选框：输出五个最大值与五个最小值。 Percentiles复选框：输出第5%、10%、25%、50%、75%、90%、95%位数。图1.4b Explore中的Statistics对话框Plot：弹出Plot对话框（见图1.4c），用于选择所需要的统计图。有如下选项：Boxplots单选框组：确定箱式图的绘制方式，可以是按组别分组绘制(Factor levels together)，也可以不分组一起绘制(Dep

17、entends together)，或者不绘制(None)。 Descriptive复选框组：可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。 Normality plots with test复选框：绘制正态分布图并进行变量是否符合正态分布的检验。 Spread vs. Level with Levene Test单选框组：当选择了分组变量时，绘制spread-versus-level图，设置绘图时变量的转换方式，并进行组间方差齐性检验。图1.4c Explore中的Plots对话框Options：用于选择对缺失值的处理方式，可以是不分析有任一缺失值的记录、不

18、分析计算某统计量时有缺失值的记录，或报告缺失值，如图1.4d所示。图1.4d Explore中的Options对话框1.3.2结果解释以例1.1的数据为例，按默认方式下的选择，Explore过程的输出如下：首先是例行的处理记录缺失值情况报告，可见312例均为有效值。 Case Processing Summary CasesValidMissingTotalNPercentNPercentNPercent被访问者最近一次参加促销活动的消费312100.0%0.0%312100.0%其次是描述统计结果，包括平均数Mean及其95%的置信区间、中位数Median、方差Variance、标准差Std

19、. Deviation、偏度Skewness、峰度Kurtosis等，几乎常见的描述统计量都出现了，比较全面。 Descriptives StatisticStd. Error被访问者最近一次参加促销活动的消费Mean114.033.88795% Confidence Interval for MeanLower Bound151.38 Upper Bound171.18 5% Trimmed Mean112.82 Median113.00 Variance4713.891 Std. Deviation18.158 Minimum52 Maximum300 Range248 Interquar

20、tile Range114.50 Skewness.113.138Kurtosis-1.027.275然后是茎叶图，整数位为茎，小数位为叶。这样可以非常直观的看出数据的分布范围及形态，在国外非常流行。被访问者最近一次参加促销活动的消费 Stem-and-Leaf Plot Frequency Stem & Leaf 11.00 0 . 55555555555 30.00 0 . 111111*117777777777777 32.00 0 . 88888888888888899999999999999999 25.00 1 . 0000000000000111111111111 25.00 1

21、 . 2222222233333333333333333 27.00 1 . 444444444444444455555555555 31.00 1 . 111111*1117777777777777 30.00 1 . 888888888888889999999999999999 25.00 2 . 0000000000000000011111111 25.00 2 . 2222222222333333333333333 18.00 2 . 444444444444455555 17.00 2 . 11111111177777777 14.00 2 . 88888999999999 2.00

22、 3 . 00 Stem width: 100 Each leaf: 1 case(s)最后还有箱式图，中间的黑粗线为均值，红框为四分位间距的范围，上下两个细线为最大、最小值。1.4 Crosstabs过程Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表，并计算相应的百分数指标。统计推断则包括了常用的X2检验、Kappa值，分层X2（X2M-H）。如果安装了相应模块，还可计算n维列联表的确切概率（Fishers Exact Test）值。这里只介绍一些常用的。1.4.1界面说明Crosstabs对话框的界面如图1.5a所示。选取A

23、nalyzeDescriptive StatisticsCrosstabs，系统就会弹出该对话框，其各部分的功能如下：Rows框：用于选择行*列表中的行变量。Columns框：用于选择行*列表中的列变量。Layer框：Layer指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析，则将其选入Layer框，并用Previous和Next钮设为不同层。Layer在这里用的比较少，在多元回归中将进行详细的解释。Display clustered bar charts复选框：显示重叠条图。Suppress ta

24、ble复选框：禁止在结果中输出行*列表。Exact：针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptotic only）、蒙特卡罗模拟（Monte Carlo）或确切计算（Exact）。蒙特卡罗模拟默认进行10000次模拟，给出99%可信区间；确切计算默认计算时间限制在5分钟内。这些默认值均可更改。图1.5a Crosstabs对话框Statistics：弹出Statistics对话框，用于定义所需计算的统计量,见图1.5b。图1.5b Crosstabs中的Statistics对话框o Chi-square复选框：计算X2值。 o Correlations复选框：计

25、算行、列两变量的Pearson相关系数和Spearman等级相关系数。 o Norminal复选框组：选择是否输出反映分类资料相关性的指标，很少使用。a. Contingency coefficient复选框：即列联系数，其值界于01之间；b. Phi and Cramers V复选框：这两者也是基于X2值的，Phi在四格表X2检验中界于-11之间，在R*C表X2检验中界于01之间；Cramers V 则界于01之间；c. Lambda复选框：在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测因变量好，为0时表明自变量预测因变量差；d. Uncertainty coefficient

26、复选框：不确定系数，以熵为标准的比例缩减误差，其值接近1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。o Ordinal复选框组：选择是否输出反映有序分类资料相关性的指标，很少使用。a. Gamma复选框：界于01之间，所有观察实际数集中于左上角和右下角时，其值为1；b. Somersd复选框：为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例；c. Kendalls tau-b复选框：界于-11之间；d. Kendalls tau-c复选框：界于-11之间；o Eta复选框：计算Eta值，其平方值可认为是因变量受不同因素影响所致方差的比例

27、； o Kappa复选框：计算Kappa值，即内部一致性系数； o Risk复选框：计算比数比OR值； o McNemanr复选框：进行McNemanr检验（一种非参检验）； o Cochrans and Mantel-Haenszel statistics复选框：计算X2M-H统计量（分层X2，也有写为X2CMH的），可在下方输出H0假设的OR值，默认为1。Cells：弹出Cells对话框（见图1.5c），用于定义列联表单元格中需要计算的指标：图1.5c Crosstabs中的Cell Display对话框o Counts复选框组：是否输出实际观察数(Observed)和理论数（Expect

28、ed）； o Percentages复选框组：是否输出行百分数（Row）、列百分数（Column）以及合计百分数（Total）； o Residuals复选框组：选择残差的显示方式，可以是实际数与理论数的差值（Unstandardized）、标化后的差值（Standardized，实际数与理论数的差值除理论数），或者由标准误确立的单元格残差（Adj. Standardized）；Format：用于选择行变量是升序还是降序排列。1.4.2分析实例例1.2 利用111.sav文件中调查数据，做年龄age与月收入income的交叉分析表，并分析在“性别sex”变量控制下的年龄与收入的关系。这两个问题

29、都可以通过Crosstabs来完成，在默认111.sav文件已打开时，第一个问题的操作步骤如下：1. AnalyzeDescriptive StatisticsCrosstabs 2. Rows框：选入age3. Columns框：选入income4. 单击Cells：选中Observed下的Counts，和Percentage下的Row，单击Continue5. 单击OK 第二个问题的操作步骤如下：1 AnalyzeDescriptive StatisticsCrosstabs 2 Rows框：选入age3 Columns框：选入income4 Layer框：选入sex5 单击Statist

30、ics：选中Chi-square和Correlation，单击Continue6 单击Cells：选中Observed下的Counts，和Percentage下的Row，单击Continue7 单击OK 1.4.3结果解释第一题的结果如下：首先是处理记录缺失值情况报告，可见312个cases均为有效值。Crosstabs Case Processing Summary CasesValidMissingTotalNPercentNPercentNPercent被访问者年龄 * 被访问者月收入312100.0%0.0%312100.0%被访问者年龄age与月收入income的交叉分析表，行是年龄分组，列是与收入分组，中间的数据是各组人数和在各年龄组中月收入的人数比重。分析表结果显示： 25岁以下年龄组中，被访问者月收入在1000元以下的占14.2%；而25-35岁年龄组的占51.1%，35-45岁组占24.1%，45岁以上组占42.9%。但将收入级别调高后，35-45岁组的人数比重都为最高，两边年龄组的则逐渐下降。这表明：随年龄变化，月收入既有先减后增的趋势，也有先增后减的趋势

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？