第06章描述性统计.docx

资源描述

第06章描述性统计.docx

《第06章描述性统计.docx》由会员分享，可在线阅读，更多相关《第06章描述性统计.docx（35页珍藏版）》请在冰点文库上搜索。

第06章描述性统计.docx

第06章描述性统计

第6章描述性统计与t、u检验

摘要：

在SAS系统中，有多个过程可以进行描述性统计量的计算，常用的有：

MEANS、SUMMARY、TABULATE和UNIVARIATE等。

这些过程用来计算简单的描述统计量，可计算均值、标准差、方差、变异系数、标准误等。

TTEST用于进行t、u检验。

从科研试验和生产实践中获得的数据往往是杂乱无章的，而实际上变量的分布多具有一定的规律性，表现出数据的集中趋势和离散特性。

反映集中特性的统计量有平均数、众位数和中位数等，反映离散特性的统计量有极差、标准差、变异系数和方差等，对分布形状的度量一般采用峰度系数和偏度系数等。

对这些统计量的计算是描述数据的较好方法。

MEANS提供单个或多个变量的简单描述（单个变量、成对数据平均数显著性检验）。

SUMMARY提供单个或多个变量的简单描述，产生输出文件。

TABULATE提供单个变量的详细描述。

UNIVARIATE提供单个变量的详细描述和对其分布类型的检验。

TTEST用于进行t、u检验（不成对数据平均数检验）。

在SAS系统中，有多个过程可以进行描述性统计量的计算，表6.1给出了几个常用过程可以分析的各种统计量和一些其他重要特点。

这些过程大同小异，有些功能可以彼此取代。

§6.1MEANS过程

一、过程格式

PROCMEANS[选择项][统计量关键字列表]];

VAR变量表;要分析的变量名列

BY变量表;按变量名列分组统计，要求数据集已按变量名列排序

CLASS变量表;按变量名列分组统计，不要求数据集排序

FREQ变量表;表明该变量为分析变量的频数

WEIGHT变量表;表明分析变量在统计时要按该变量权重

ID变量表;输出时加上该变量作为索引

OUTPUTOUT=数据集[统计关键字=变量名…];指定统计量的输出数据集名

关键字=<新变量名列>...];指定统计量对应的新变量名

二、选择项说明

DATA=SAS数据集将计算出的统计量输出到一个数据集。

所有PROCMEANS语句中可用统计量均可在此指定。

NOPRINT说明不输出任何描述性统计值。

MAXDEC=n指出MEANS用于输出结果的最大小数位（0～８），缺省值为7。

FW=nn为输出统计量时的字段宽度，缺省值为12。

VARDEF=N|DF|WGT|WDF指定方差计算所用的分母。

N表示观察值的总数

DF表示自由度N-1

WGT表示权重和WDF表示权重和减1。

MISSING指定MEANS过程将缺失值视为一个特殊分组处理，否则缺失值将被剔除。

统计量用来指定进行计算的描述性统计量（见表6.1）。

缺省统计量选择项时，只输出N、MIN、MAX、MEAN、STD。

三、MEANS过程中常用的统计量关键字有：

●基本统计量NMEANSTDCVSUMVARRANGMINMAXUSSCSS

●与假设检验有关的统计量STDERR（标准误）TPRT（与t对应的p值）LCLM（可信区间下限）UCLM（可信区间上限）

四、PROCMEANS过程中的其他语句

●VAR语句：

列入变量表的数据集变量将被MEANS过程分析、若无次句，则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。

●BY语句：

指定变量进行分组处理。

（事先必须按BY语句指定的变量将输入数据集按升序排序）

●CLASS语句：

将数据集中全体观察值按CLASS语句中变量进行分组、分析处理。

BY与CLASS语句的作用都是按指定的变量进行分组分析处理，但二者有不同：

1分组层次不同：

BY语句把全部观察按BY指定的变量分组；CLASS是在BY语句的基础上将BY分组再进一步行划分，进行分组变量的组合，产生多种凡是分组。

例如：

CLASSABC；则按指定变量A、B、C各种组合，可以有8种方式：

不分组、按变量A分组、按变量B分组、按变量C分组、按变量A和B分组、

按变量A和C分组、按变量B和C分组、按变量A、B、C分组。

2按BY语句只有按变量A、B、C分组，且使用BY语句时，事先将数据集按BY后面的变量排序。

而CLASS无此要求。

●FREQ语句：

指定某一变量，表示同一观察的出现次数。

●OUTPUTOUT=数据集：

将MEANS过程的结果输出给指定的数据集中。

六、结果解释

在默认的情况时，means过程会输出绝大部分统计量，此时的输出内容如下：

Variable=变量名变量标签

Moments和矩有关的统计量Quantiles（Def=5）分位间距统计量

N样本量SumWgts权重总和100%Max最大值

Mean均数Sum总和75%Q375%百分位数

StdDev标准差Variance方差50%Med50%百分位数

Skewness偏度系数Kurtosis峰度系数25%Q125%百分位数

USS未校正平方和CSS校正平方和0%Min最小值

CV变异系数StdMean标准化均数

Mean=0变量总体均数为0的t检验Pr>|T|t检验的p值Range全距

Num^=0变量值非0的例数Num>0变量值大于0的例数

M（Sign）变量总体均数为0的符号检验Pr>=|M|符号检验的p值

表6.1SAS系统四种常用的描述性统计过程的比较

统计量（关键字）

MEANS

SUMMARY

TABULATE

UNIVARIATE

无缺失值的观察值个数

√

NMISS

有缺失值的观察值个数

√

MEAN

平均数

√

SUM

总和

√

MAX

最大值

√

MIN

最小值

√

RANGE

全距（=最大值-最小值）

√

SUMWGT

权重和

√

USS

未矫正的离差平方和

√

CSS

已矫正的离差平方和

√

VAR

方差

√

STD

标准差

√

变异系数

√

STDERR

平均数的标准误

√

学生氏t值

√

PRT

大于t值的概率

√

SKEWNSS

偏度系数

√

KURTOSIS

峰度系数

√

CLM

置信区间的上下限

√

LCLM

置信区间的下限

√

UCLM

置信区间的上限

√

PCIN

频数百分数

√

PCTSUM

和的百分数

√

上四分位数或第75百分位数

√

MEDIAN

中位数或第50百分位数

√

下四分位数或第25百分位数

√

QRANGE

上下四分位数之差，即Q3-Q2

√

第一百分位数

√

第五百分位数

√

P10

第十百分位数

√

P90

第九十百分位数

√

P95

第九十五百分位数

√

P99

第九十九百分位数

√

MODE

众数

√

NORMAL

正态性检验统计量

√

PROBN

正态性检验的概率

√

SIGNRANK

符号秩检验统计量

√

PROBS

符号秩检验的概率

√

MSIGN

符号检验统计量

√

PROBM

符号检验的概率

√

其他特性

产生报表输出

√

输出到SAS数据集

√

含CLASS语句

√

含BY语句

√

七、应用实例

例6.1

datanew;

inputname$ageheightweight;

cards;

张三281.7560

李四271.7258

王五311.8065

赵六301.8162

procmeans;

procmeansmaxdec=3fw=8meanstdminmaxrangesumvaruss

cvstderrtprt;

run;

例6.2调查两个小麦品种的每穗小穗数，每品种计数10个麦穗，

A品种小穗数为：

13,14,15,17,18,18,19,21,22,23；

B品种小穗数为：

16,16,17,18,18,18,18,19,20,20。

试计算两品种的基本统计量。

●程序及说明

DATA;

DOpinzh="A","B";

DOi=1TO10;

INPUTsuishu@@;

OUTPUT;

END;

CARDS;

13141517181819212223

16161718181818192020

PROCMEANSNMEANMAXMINRANGEVARSTDCVMAXDEC=4FW=8;

VARsuishu;

BYpinzh;

RUN;

●输出结果及说明

AnalysisVariable:

SUISHU

---------------------------------PINZH=A------------------------------

NMeanMaximumMinimumRangeVarianceStdDevCV

观察值平均数最大值最小值极差方差标准差变异系数

------------------------------------------------------------------------

1018.000023.000013.000010.000011.33333.366518.7028

------------------------------------------------------------------------

---------------------------------PINZH=B------------------------------

NMeanMaximumMinimumRangeVarianceStdDevCV

------------------------------------------------------------------------

1018.000020.000016.00004.00002.00001.41427.8567

------------------------------------------------------------------------

如果只对其中的一个品种进行分析，可以采用下列程序：

DATAnew;

INPUTsuishu@@;

CARDS;

13141517181819212223

PROCMEANSNMEANMAXMINRANGEVARSTDCVMAXDEC=4FW=8;

RUN;

例6.3：

DATANEW;

INPUTNA$SEX$PENJ$;

CARDS;

A1F785

A2M873

A3M904

A4F855

A5F754

PROCPRINT;

PROCMEANS;

CLASSSEXNJ;

PROCSORT;

BYSEX;

PROCMEANS;

BYSEX;

RUN;

例6.3已知某水样中含CaCO3的真值为20.70mg/L，现用某法重复测定该水样11次，得其含量（mg/L）分别为：

20.9920.4120.1020.0020.9122.6020.9920.0020.4123.0022.00。

问用该法测得CaCO3含量所得的总体均数与真值之间的差别是否有显著性。

DATAnew;

INPUTx@@;

y=（x-20.7）;

cards;

20.9920.4120.1020.0020.9122.60

20.9920.0020.4123.0022.00

;

PROCMEANSmeanstderrtprt;

vary;

run;

结果如下：

AnalysisVariable:

MeanStdErrorTProb>|T|

--------------------------------------------------

0.33727270.31707781.06369070.3125

--------------------------------------------------

八、缺失数据处理

1．VAR变量：

MEANS过程在开始计算某一变量的描述性统计之前，先将那些在变量上有缺失的数据的观察删除。

被删除的观察若在其它变量上没有缺失数据，则会纳入其它变量的计算过程中。

2．变量：

若观察在BY变量上有缺失数据，则MEANS过程会为这些观察另形成一个分组，同样进行计算分析。

3．FREQ变量：

若观察在FREQ变量上含有缺失数据，则观察将被删除。

4．WEIGHT变量：

若观察在WEIGHTQ变量上含有缺失数据，则MEANS以0处理。

§6.2TABULATE过程

TABULATE过程以表格的形式完成描述性统计。

表格可达三维：

页、行和列，表格形式可由用户自由安排，因此，该过程既是一个统计分析过程又是一个报表过程。

一、过程格式

PROCTABULATE[选择项];

CLASS分类变量表;

VAR分类变量表;

FREQ变量;

WEIGHT变量;

FORMAT变量格式;

LABEL变量=标记;

KEYLABEL关键字="文本";

TABLE表达式[,表达式][,表达式][/选择项];

二、语句说明

PROCTABULATE语句、TABLE语句、VAR语句和CLASS语句是必需的。

●PROCTABULATE语句选择项

DATA=数据集指定所使用的数据集，缺省则使用最新建立的数据集。

MISSING要求将分类变量的缺失值作为有效水平，否则，分析中将不包含分类变量有缺失值的观察值。

FORMAT=格式名规定表格输出的宽度，缺省值为12.2。

ORDER=FREQ|INTERNAL|DATA|FORMATED规定分类变量下各类别的输出次序。

FREQ依各类别次数排序，INTERNAL按英文字母先后排序，DATA按在数据集内出现的顺序排序，FORMATED按规定的格式排序。

FORMCHAR="11个依次排列的画表格的符号"缺省值是：

"|----|+|---"。

●TABLE语句

TABLE语句是整个TABULATE过程的核心。

一个TABLE语句最多可定义三个表格表达式。

这三个表达式分别表达了输出表格的页、行和列的有关规定。

当缺省一个表达式时，表示TABLE语句定义了一个二维表格，当缺省两个表达式时，表示TABLE语句定义了一个一维表格。

TABLE语句中所使用的表达式中，页行列的定义用到的操作符有：

星号“*”表示包含关系；空格“”表示并列关系；圆括号“（）”表示分组或说明运算次序。

这些操作符的运算顺序为圆括号、星号和空格。

其他常用的符号还有：

逗号“，”表示相邻两个向量的分界；不等号“<>”用于规定分母项；等号“=”用于解释变量统计值或输出格式。

在TABLE语句中可使用的操作数有：

①分类变量或ALL。

分类变量在CLASS语句中定义，在TABLE语句的表达式中引用，ALL用在表达式中表示在输出表格时给出分类的小计和总计值。

②分析变量。

分析变量在VAR语句中定义，在TABLE语句表达式中引用，指定用于作统计计算的变量。

③统计量。

统计量是指在统计学中使用的统计量，如平均值、最小值等，在TABULATE过程中常用的统计量见表6.1。

在TABLE语句中可使用的选择项有：

①MISSTEXT="20个字符以内的字符串"，指定用引号内的字符串注明缺失值；②RTS=n，规定行标题的输出宽度，缺省时为行长的四分之一；③BOX=_PAGE_|变量名|"字符串"，规定放在行标题上方的框中的文字。

●CLASS语句

CLASS语句用来说明在TABLE语句中引用的分类变量，任何在TABLE语句中出现的分类变量必须事先在CLASS语句中说明。

●KEYLABEL语句

用于注明TABLE语句中各统计参数的标签。

它对所有TABLE语句有效。

在默认的情况时，means过程会输出绝大部分统计量，此时的输出结果如下：

三、应用实例

例6.4已知学生两门课score1和score2的考试成绩，若按性别进行分类，统计出各类学生人数、score1成绩、score1的最高分、最低分和平均值，可用以下程序进行计算：

DATAnew;

INPUTname$sex$score1score2@@;

CARDS;

zhangsanM8099LiuliuF6775pingguoM8998hongshuM5072

liangsiF8889wangdiF4367fangwuF8779mangguoF5656

jianshiF7778liulinM7683

PROCTABULATEFORMCHAR="|-+-+|||+-+";

CLASSsex;

VARscore1;

TABLEsexscore1*（NMEANSTD）;

RUN;

输出结果为：

上例中，分类变量为sex，故输出时sex的两个值各占一列。

分析变量score1与统计量N、MEAN和STD是包含关系。

§6.3UNIVARIATE过程

UNIVARIATE过程与MEANS、SUMMARY、TABULATE的功能大同小异，他们都可以可对数值变量进行一般性的统计描述，但UNIVARIATE过程还给出变量的峰度、偏度、众数、中位数、四分位数、数据分布的正态性检验、符号秩检验等统计量。

一、过程格式

PROCUNIVARIATE选择项;

VAR变量表;指定要分析的变量名列

BY变量表;按变量名列分组统计，要求数据集已按该变量名列排序

FREQ变量;表明该变量为分析变量的频数

WEIGHT变量;表明分析变量在统计时要按该变量权重

ID变量表;输出时加上该变量作为索引

OUTPUTOUT=SAS数据集关键字=名称;指定统计量的输出数据集名

关键字=<新变量名列>...指定统计量对应的新变量名

PCTLPTS=<百分位数,...指定需要的百分位数>

PCTLPRE=<新变量名列>];指定所需百分位数对应的输出变量名

二、选择项说明

DATA=数据集该选择项指定PROCUNIVARIATE使用的SAS数据集。

缺省值为最新建立的数据集。

NOPRINT指定抑制产生报表。

PLOT指定给出三幅数据图：

茎叶图（或水平棒图）、盒状图和正态概率图。

FREQ该选择项给出变量值、频数、百分数、累计百分数组成的频数表。

NORMAL指定假设输入数据来自正态分布总体，然后给出统计检验量，并输出统计检验量的端值。

PCDLDEF=1|2|3|4|5指定计算百分位数的方法。

缺省此项，则PCDLDEF=4。

VARDEF=DF|N|WEIGHT或WGT|WDF指定计算方差时的分母。

DF是以自由度N-1做分母；N是以观察值数N做分母；WGT是以权重和做分母；WDF是以权重和减1做分母。

缺省值为VARDEF=DF。

ROUND=舍入单位。

三、过程中常用的统计量关键字

SAS中用关键字来指定所需要的统计量，事实上结果输出中用的就是各种关键字，常用的关键字有：

●基本统计量NMEANSTD（标准误）CVSUMVAR（方差）RANG等（见P57）

●百分位数描述MINP1P5P10Q1MEDIANQ3P90P95P99MAX

●与假设检验有关的统计量STDMEAN（标准误）T

四、过程中的其他语句

OUTPUT语句将UNIVARIATE过程计算的统计量输出到SAS数据集中，并指定其所包含的变量名。

在输出数据集中，OUTPUT语句中关键字后第一个变量的内容是VAR语句中第一个变量的统计量，第二个变量对应VAR语句中第二个变量的统计量等等。

等号后的变量表可较VAR语句中的变量表短。

有效关键字所表示的统计量见表6.1。

VAR语句、BY语句、CLASS语句、WEIGHT语句、FREQ语句和ID语句的用法见MEANS过程。

五、结果解释

Variable=变量名变量标签

Moments和矩有关的统计量Quantiles（Def=5）分位间距统计量

N样本量SumWgts权重总和100%Max最大值99%99%百分位数

Mean均数Sum总和75%Q375%百分位数95%95%百分位数

StdDev标准差Variance方差50%Med50%百分位数90%90%百分位数

Skewness偏度系数Kurtosis峰度系数25%Q125%百分位数10%10%百分位数

USS未校正平方和CSS校正平方和0%Min最小值5%5%百分位数

CV变异系数StdMean标准化均数1%1%百分位数

Mean=0变量总体均数为0的t检验Pr>|T|t检验的p值Range全距

Num^=0变量值非0的例数Num>0变量值大于0的例数Q3-Q1四分位间距

M（Sign）变量总体均数为0的符号检验Pr>=|M|符号检验的p值Mode众数

SgnRank变量总体均数为0的秩和检验Pr>=|S|秩和检验的p值

六、UNIVARIATE过程进行统计检验的计算方法

1．正态检验

若在过程中指定NORMAL选择项时，过程将数据视作取自正态分布的随机样本并给出一个统计检验。

当样本量小于2000时，计算Shapiro-Wilk统计量W，W值在0与1之间，W值越小越拒绝H0假设；当样本容量n大于6时，W的显著

展开阅读全文

第06章 描述性统计.docx

第06章描述性统计.docx