SAS 课件文档格式.docx
《SAS 课件文档格式.docx》由会员分享,可在线阅读,更多相关《SAS 课件文档格式.docx(55页珍藏版)》请在冰点文库上搜索。
过程步是把由数据步建立和产生的数据集中的数据作为输入,经标准过程计算处理后,将结果输出到OUTPUT窗口。
(二)SAS程序的一般书写格式
1、每条语句最后必须有结束符“;
”
2、语句中的各项之间(不同的语法单位)至少有一个空格分隔。
(三)几个常用的命令:
1、在Edit菜单中的ClearAll命令,删除激活窗口中的内容或设置的显示。
2、在Run菜单中的Recalllastsubmit命令,将已经提交给SAS系统的程序调回PGM窗口供修改与保存。
3、Run菜单中的Submit命令,程序远行命令。
第二章数据步与数据步语句
2.1数据步基本语句
一.DATA语句
1、功能:
表示数据步的开始,并给出要创建的数据集名称。
2、格式:
DATA数据集名选项;
二.数据块与CARDS语句
1、CARDS语句
功能:
数据块的开始,通知SAS其数据从下一行开始
格式:
CARDS;
多行用空格分隔的数据(数据块)
;
2、数据块
为INPUT语句提供数据。
●由多行构成,每行由多个用空格间隔的数据构成;
●“;
”是数据块的结束符号;
三.INPUT语句
从数据源(文件或数据块)中读取数据并将数据赋给其尾随变量。
格式
1、自由型:
也称变量列表格式。
INPUT变量1变量2$&
变量3$&
…;
说明:
●变量可以是数值型和字符型
⏹数值型:
如12456
⏹字符型:
如ABnameage
◆字符型变量后应加”$”,
◆当字符变量中有空格存在时应加“&
“,此时数据行输入允许字符变量数据中含有一个空格,而下一变量与该字符变量的数据之间至少应空两个空格,以表明字符变量的结束。
◆字符型变量可以使用缩写的形式,主要有两种类型:
如果在程序中定义了x1、x2、x3、x4和x5,则可以用记号x1-x5表示上述五个变量。
●按数据输入的先后顺序列出变量名;
●缺省数据用小数点“.”表示
●字符变量一般长8个字节,除非在前面用attriblength或informat语句定义变量的长度。
例:
dataone;
Attribnamelength=$11;
Inputname$&
age;
Cards;
Lihua29
SunLi-ning25
;
procprint;
run;
四、行保持说明符:
@@
@@符允许在一个数据行中输入多条观察值,减少数据占行数。
@@符写在INPUT语句的末尾。
datacc;
inputa$b@@;
cards;
a1b2c3d4e6
run;
五、赋值语句
1、格式:
变量=表达式;
是先计算表达式值,而后将该值赋给左边的变量。
表达式是一个或几个变量名、函数名和常数用运算符或括号连接起来的式子。
如x=a+b;
a=a+b
常见的赋值语句位于input语句之后,并对input语句中定义的变量进行计算。
DATAa;
INPUTab@@;
X=a*b;
x=a+b;
x=a/b;
x=a-b;
Y=LOG(X);
CARDS;
123456
PROCPRINT;
RUN;
六、循环语句
常用的SAS循环语句有步长型和离散型两种形式。
1>
步长型循环语句
DO循环变量=初值TO终止值BY增量;
Input变量@@;
output;
END;
若无选项[BY增量],则系统默认增量为1。
步长型循环语句的执行过程为:
①将初值赋给循环变量。
②判断循环变量是否超过终止值,若循环变量超过终止值则结束循环;
否则执行③。
③顺序执行SAS语句。
④给循环变量增加一个“增量”,转向②。
2>
离散型循环语句
DO循环变量=“值1”,“值2”,…,“值n”;
Input变量;
其它语句;
循环变量每取一个值,执行一遍循环体,一直到所有的值取完后,结束循环。
例1:
某厂医务室测定5名氟作业工人在工前、工中和工后4小时的尿氟浓度(umol/L)。
问氟作业工人在这三个不同时间的尿氟浓度有无差别?
工人编号
工前(w1)
工中(w2)
工后(W3)
N1
90.53
142.12
87.38
N2
88.43
163.17
65.27
N3
47.37
63.16
68.43
N4
175.08
166.33
210.54
N5
100.01
144.75
194.75
Datanew;
Don=“n1”,“n2”,“n3”,“n4”,“n5”;
Dow=1to3;
Inputy@@;
output;
End;
end;
90.53142.1287.38
88.43163.1765.27
47.3763.1668.43
175.08166.33210.54
100.01144.75194.75;
DoA=1to5;
DoP=1to3;
Output;
90.53142.1287.38
88.43163.1765.27
47.3763.1668.43
175.08166.33210.54
100.01144.75194.75
例2:
研究叶面喷施赤霉素(GA)对盐胁迫小麦产量的影响,试验设叶面喷施100ppmGA和清水二个处理,试验重复5次,试分析GA对盐胁迫小麦生长的作用。
籽实产量(kg/亩)
籽粒数/穗
株高(cm)
GA
500560610480540
50596267
606958
对照(喷清水)
480400500470510
40485242
485550
Dataone;
Dotrt=1to2;
Dopar=1to3;
Dorep=1to5;
end;
50056061048054050596267.606958..
48040050047051040485242.485550..
Procprint;
Run;
Datatwo;
Inputn;
Dorep=1ton;
5
48040050047051
4
3
Datathree;
Inputnoy@@;
10
15001560161014801540
24802400250024702510
8
150159162167
240248252242
6
160169158
248255250
第三章过程步与过程步语句
1、形式:
PROC过程名选项;
[其它相关过程步语句]
RUN;
常用过程步语句
VAR语句
VAR变量表;
指明分析变量(变量表列出的),指定将要被过程分析处理的变量,未出现在变量表中的数据将不参与计算。
一个过程中无VAR语句时,数据集中的全体数值变量都参与运算。
CLASS语句
CLASS变量表;
指明分类的依据变量名。
BY语句
BY变量表;
指明分组变量,依BY变量分组进行处理,结果以分组形式输出。
MODEL语句
MODEL依变量=自变量表(或效应)[/选项];
指明分析所用的模型,即给出模型包含的自变量和因变量的个数以及变量名。
RUN语句
使前面的过程被执行。
常用过程步:
PRINT过程
读入数据集NEW中的数据,将变量排成易读的形式输出。
sas数据集的排序(SORT)
将sas数据集中的观测按一个或多个变量的数值大小进行排序,把结果存放在新的sas数据集里,或者代替原始数据集。
SORT语句格式:
PROCSORT;
BY变量1变量2…;
By语句中的Descending表示变量值按降序排列,缺省时表示按升序排列。
第四章常用的生物统计分析
第一节描述性统计
1、MEANS过程的格式:
PROCMEANS选项;
[语句;
]
其中选项有下列几种:
DATA=数据集名指定被分析的数据名,缺省时为当前数据集。
MEAN计算平均值
STD标准差
VAR方差
CV变异系数
STDERR标准误
RANGE极差
MIN最小值
MAX最大值
SUM总和
TT值,总体均值为零
PRTT值的最大绝对值的概率。
常用语句有下列几种:
用于指明分析变量。
若该语句缺省,除去BY、CLASS语句中列出的变量以外,数据集中的所有其他数值变量将依次被分析(计算)。
CLASS变量表;
将数据集中的全体观测值以CLASS语句中变量定义观测组,分别计算各观测组的描述性统计量。
计算结果以CLASS变量的不同取值,以表格的形式输出。
BY变量名表;
使用BY语句后,MEANS过程先按BY变量的取值形成多个观测组,然后按组别分别计算各组对应的描述性统计量,结果以观测组的形式输出。
注意在使用BY语句前,要求对BY变量已排过序。
调查某植物种群密度(分蘖数/m2),共测定10个样地,得结果如下:
23273121293537194124,试求该种群密度的平均值(mean)、平均数的标准误(stderr)、标准差(std)、变异系数(cv)。
23273121293537194124
procmeansmeanstderrstdcv;
vary;
例2:
某一植物种群在两个不同生境(甲、乙)下的生物量(g/m2),试求该植物种群在甲、乙两个生境中生物量的平均值和标准差。
甲
0.841.051.21.21.391.531.671.81.872.072.11
乙
0.540.640.640.750.760.811.161.21.341.351.481.581.87
11
13
0.540.640.640.750.760.811.161.21.341.351.481.581.87
Procmeansmeanstdstderr;
Vary;
Bytrt;
Doh=1to2;
Dorep=1to13;
0.841.051.21.21.391.531.671.81.872.072.11..
Procmeansneanstd;
Classh;
第二节TTEST测验
一、假设检验的步骤:
1、提出原假设和备择假设
2、确定适当的检验统计量,并计算检验统计量的值(t检验和t值)
3、确定显著性水平(α=0.05)(μ-1.96σ≤x≤μ+1.96σ)~95%
4、做出统计决策(概率值:
p值)-判别原理:
小概率事件不可能发生(1-5%)
1、两个样本平均数的成对比较(测验因实验设计不同而分成二组有对应关系的数据的平均数是否相同)
2、成组数据均值比较过程TTEST过程(测验因实验设计不同而分成二组数据的平均数是否相同)
DATANEW;
INPUTXY@@;
Z=X–Y;
XY值
PROCMEANSTPRT(其它选项);
VARZ;
[其它语句;
其中选项:
TT值,总体均值为零。
INPUTNo$X;
No$X值
ProcTtestoptions;
VAR变量;
Class变量;
BY变量;
为测定A、B两个病毒对烟草的致病力,取8株烟草,每一株皆半叶接种A病毒,半叶接种B病毒,以叶面出现的枯斑数作为致病力强弱的指标,试测验两种病毒的致病力的差异。
AB
910
1711
3118
1814
76
87
2017
105
inputxy@@;
z-x-y;
procmeansmeanstdtprt;
varz;
为测定A、B两个病毒对烟草的致病力,取8株烟草,每一株皆半叶接种A病毒,半叶接种B病毒,以叶面出现的枯斑数作为致病力强弱的指标,分别在接种病毒后5d和10d测定叶面枯斑数,试测验两种病毒的致病力的差异。
一
二
三
四
五
六
七
八
5d
A
9
17
31
18
7
20
B
14
10d
25
37
22
15
16
28
21
12
23
Dotime=1to2;
Dorep=1to8;
Inputab@@;
C=a–b;
14132518
37212220
15121614
28231810
Procmeansmeanstderr;
Varab;
Bytime;
Procmenastprt;
Varc;
例3;
调查A、B两个植物种群的密度和生物量,结果如下,试分析这两个植物种群密度和生物量之间的差异
密度(株/m2)
1219172123
2327353931
生物量(g/m2)
50486472
78876558
Dop=1to2;
Dorep=1to10;
Inputgy@@;
112119117121123
223227235239231
1501781641721.
2782872652582.
Procttest;
Classg;
Byp;
150178164172
278287265258
Doi=1to2;
Dop=“A”,“B”;
12191721232327353931
50786472.78876558.
Classp;
Byi;
Dopar=1to2;
Dospe=1to2;
Dox=1ton;
50786472
procttest;
classspe;
bypar;
第三节方差分析
在一个因素不同水平下(三个水平以上)或是在多个因素不同水平组合下测量一个连续反应变量(因变量),这个反应变量的总变异可被解释为分类变量的效应(即主效应,如A,B分别表示由于分类变量A和B的不同水平引起的变异)或分类变量的组合产生的效应(即交互效应,如A*B表示A与B的交互作用),余下的变异为随机误差。
方差分析的基本思想是将所有观察值的总变异分解成不同的变异来源,即对总变异的自由度和平方和进行分解,进而获得不同变异来源的总体方差的估值。
通过构建适当的