最新SPSS操作步骤汇总资料.docx
《最新SPSS操作步骤汇总资料.docx》由会员分享,可在线阅读,更多相关《最新SPSS操作步骤汇总资料.docx(14页珍藏版)》请在冰点文库上搜索。
最新SPSS操作步骤汇总资料
SPSS学习
第一章数据文件的建立
数据编码
Type:
Numeric:
数值型string:
字符串型
Missing:
Measure:
scale定量变量nominal定性变量
根据已有的变量建立新变量
1、对于数据进行重新编码
Transform—recodeintodifferentvariables—选择inputvariableoutputvariable–定义新变量的名称—change—开始定义新旧变量—continue
2、通过SPSS函数建立新变量
Transform—computevariable–从functiongroup中选择公式范围下面选择具体的公式—if中设置要改变—continue—OK(可以对变量进行各种计算)
第二章清除数据与基本统计分析
1、对不合理的数据检查并清理
检查:
analysis-descriptionstatistic-frequencies—选入要检查的数据—OK
结果:
频数统计表—看是否有错误—missingsystem
清理:
1.对系统缺失值的清理
Data—selectcase—ifconditionissatisfied—if—functiongroup(missing)--下面选(missing)--continue—output(deleteunselectedcases)--OK—对num为哪一位的进行修改
2.对sex=3的清理(直接就清除了)
Data—selectcase—ifconditionissatisfied—if—sex调入再输入=3—continue--output(deleteunselectedcases)--OK—对num为哪一位的进行修改
2.对相关变量间逻辑性检查和清理
Data—selectcase—ifconditionissatisfied—if—输入表达式(前后逻辑不相符合的表达式)--continue--output(deleteunselectedcases)--OK—对num为哪一位的进行修改
3.统计描述
正态分布统计描述
1、正态性检验:
Analysis—nonparametrictests—legacydialogs—1-sampleK-S—one-sampleKolomogorovSmirnovtest–normal—ok/
2、统计描述:
Analysis—descriptives--time选入—options—ok
3、按照男女统计描述:
data—splitfile–comparegroup–sex调入—ok
Analysis-descriptivestatistic–descriptive—time调入—options选择—OK非正态分布资料统计描述
1、正态性检验nonparametric
2、Analysis—descriptivestatistics—frequencies选入--statistics选择—OK
第三章T检验
1、单样本t检验
正态性检验—analyze—comparemeans—one-samplettest—testvalue选择要对比的数值—OK
2、配对样本t检验
建立数据文档—两列(前和后)--正态性检验—analysis-comparemeans—pairedsamplettest–调入—ok
3、两独立样本t检验(正态性检验的时候采用分开组,其他都要合并在一起)
建立数据库—第一列(group)第二列(数值)--data—splitfile–comparegroup—调入group—ok-正态性检验—OK--data—splitfile—选择analysisall—analyze—comparemeans—independentsamplettest—选入,分组—OK
结果分方差齐与否
第四章方差分析(前提正态)
1、单因素方差分析(就是平常的三个组比较)
建立数据库—第一列(group)第二列(数值)-data—splitfile–comparegroup—调入group—ok-正态性检验—OK--data—splitfile—选择analysisall--analyze—comparemeans—one-way-anova—数据调入dependentlist—分组调入factor------options—descriptive基本统计描述—homogeneityofvariance做方差齐性分析—OK
2、方差分析两两比较
analyze—comparemeans—one-way-anova---数据调入dependentlist—分组调入factor—点posthoc—选择SNKLSD
3、随机区组设计方差分析
建立数据库—第一列(group)第二列(block)第三列(数值)--按照groupsplit开,进行正态性检验—OK—generallinermodel—univairate—数值调入dependentvariable—group和block调入fixedfactor—model—custom—buildterms(maineffects)再把group和block调入model下的矩形框---continue—OK
如果区组间无差别,组间进行两两比较。
首先进行方差齐性检验:
Option—调入—homogentitytest—continue—ok
分析:
univariate—posthoc—univariate—调入group—SNKLSD—continue—ok
4、多因素分析
以time为观察值分析pt、da、sex间的差别
Generallinermodel—univariate—time(dependentvariance),pt、da、sex(fixfactor)—model—mianfactors—调入—continue—OK—将无关的逐一排除—选择出最终有差异的—求得Rsquare
第五章卡方检验
1、行x列卡方检验(也就是几组数据差异性比较)
输入数据—第一列(列123)—第二列(行1234)—第三列(频数)
定义频数变量:
Data—weightcase—调入频数
分析:
analyze—descriptivestatistics—crosstabs—第一行调入row—第二列调入column---statistics—选择chi-square—continue–cells选项—选择row—ok
结果中,最后一行英文,理论值小于5的各数和最小理论值
如果有统计学意义,可以进行两两比较:
在数据设置那里,找到missingvalue—discretemissingvalue下的格子中填入3(表示把3取掉了,只是1和2进行比较)--后续操作同上
2、四格表卡方检验
输入数据—第一列(处理因素)—第二列(疗效)—第三列(频数)
定义频数变量:
Data—weightcase—调入频数
分析:
analyze—descriptivestatistics—crosstabs—第一行调入row—第二列调入column---statistics—选择chi-square—continue–cells选项—选择row、expected—ok
结果中,最后一行英文,理论值小于5的各数和最小理论值。
确切概论法,continuitycorrection表示校正卡方的结果
Ps:
诸如第一个例题中,如果分析性别与感染率的显著性差异,步骤同四个表卡方检验,由于分开写了,不用转换为频数资料而已
3、配对卡方检验
输入数据—第一列(a)—第二列(b)—第三列(频数)
定义频数变量:
Data—weightcase—调入频数
分析方法一:
analyze—nonparametric—legacydialogy--2-relatedsampletested—a和b分别选入配对—激活下列的选项McNemar
分析方法二:
analyze—descriptivestatistics—crosstabs—ab填入—statistics—点击右下McNemar—ok
第六章秩和检验
1、配对秩和检验(定量)
输入数据—第一列(前)—第二列(后)
分析:
analyze—nonparametric—legacydialogy--2-relatedsampletested—a和b分别选入配对
结果:
第一个表格是比较大小的数量,第二个表格是统计分析结果
两独立样本比较秩和检验(定量)
输入数据—第一列(group)—第二列(数值)
分析:
analyze—nonparametric—legacydialogy--2independentsamples—输入分析的数据和分组情况—OK
2、有序变量两独立样本比较秩和检验(定性)
输入数据—第一列(group)—第二列(有序变量)--第三列(频率)
定义频数变量:
Data—weightcase—调入频数
分析:
analyze—nonparametric—legacydialogy--2independentsamples—有序变量调入testvariableslist—group调入分组并定义—ok
多个独立样本的比较(定量)
比如:
甲乙丙三个样本进行比较
输入数据—第一列(group)—第二列(数值)
nalyze—nonparametric—legacydialogy--Kindependentsamples-数值调入testvariabletest—group调入分组矩形框给出分组范围1-3—Ok
如果差别有统计学意义,那么进行两两比较,方法参考卡方的两两表,用missing来定义
第七章相关与回归
第一节一元线性回归
1、例题:
有12组发硒值和血硒值的含量表
输入数据—第一列(发硒)—第二列(血硒)
分析:
正态性检验,相关和回归的前提是正态性
正态性检验:
Analysis—nonparametrictests—legacydialogs—1-sampleK-S—one-sampleKolomogorovSmirnovtest–normal—ok
相关分析:
correlate—Bivariate—Bivariatecorrelation—服从正态分布的选择pearson,不服从的选择spearman
回归分析:
regression—regression—linear—将y变量调入dependent,x变量调入independent---statistics—linearregression—选择descriptive—OK
结果分析:
p值<0.05差别有统计学意义,可以建立回归方程
2、频数资料的相关与回归
建立数据库—第一列(x)—第二列(y)—第三列(f)
分析:
先将频数通过weightcase进行操作
Analyze—regression—linear—选入自变量因变量—OK
Ps:
这样的回归模型有常数项,也可以去掉,options—includeconstantinequation前面的√去掉—statistic—Rsquarechange—OK
这样去去掉了常数项,但是要强调的是,有无常数项是两个完全不同的数学模型,Rsquare也不能作为直接的比较,选择哪个回归方程最为合适,必须要把他们放在医学的实际环节中去检验才可以。
3、多元相关回归
好多个X的回归分析,分析x之间的相关关系
Analyze—correlate—bivariate—将所数字调入—options—meansandstandarddeviations—ok
结果显示了6个X之间两两的相关系数。
第二节多元线性回归
研究一个Y和多个X的关系
输入数据,x和y
回归分析:
analyse—regression—linear—输入自变量,因变量—OK
结果:
B表示偏回归系数,p<0.05有统计学意义,否则排除掉,不纳入回归方程中
第三节多元逐步回归
回归分析:
analyse—regression—linear—输入自变量,因变量—method中输入stepwise—OK
结果:
将所有有意义的分布引入,都有相关系数和回归方程
第八章Logistic回归
研究因变量(二值变量)与自变量(二值或等级或计量资料)的关系
例如:
例子中因变量为infect,自变量为一堆(9个),笔者认为,由于自变量较多,logistic回归可分为两步,先用单因素分析对自变量进行筛选,然后对经单因素分析有统计学意义的自变量再做多因素logistic回归。
1、将数据分类计数资料等级资料计量资料
1、单因素分析
对于计数资料采用卡方检验的方法:
Descriptivestatistic—crosstabs—infect调入到rows,计数资料调入columns—statistic—chi-square—ok
结果显示:
每项计数资料是否有统计学意义,经有统计学意义的资料记下来
Ps:
外加一个分层资料合并步骤:
transform—recode—recodeintodifferentvariables—oldtonew,就跟数据合并一样,分组合并一样
对于等级资料采用秩和检验的方法:
analyze—nonparametric—legacydialogy--2independentsamples—输入分析的数据和分组情况(按照Y变量分为0-1两组)—OK
对于计量资料采用显著性检验的方法:
Analyze—comparemeans—independentsamplettest–调入计量资料—并分组(0/1)--OK
结果看p值是否有统计学意义
2、logistic回归
通过单因素分析,找出了有统计学意义的观察项,然后进行logistic回归。
分析:
Analyze—regression—binarylogistic—调入因变量—调入自变量(covariates)--method(默认enter)—options—激活hosmer-lemeshowgoodnessoffit、CIforexp(B)、atlaststep–ok(也可以根据需要在其中选择)
查看结果,p小于0.05,变量差别具有统计学意义,可以纳入回归方程。
结果解释注意事项:
logistic回归是非线性回归,自变量作用的大小视为exp(B)值,此处输血次数的回归系数为正表示输血次数多则感染的可能性大,手术部位(结肠和直肠),结肠发生感染的可能性大于直肠部位。
第十一章诊断试验评价和roc曲线分析
1、诊断试验
建立数据库—第一列(金标准)—第二列(待评价方法)—第三列(f)
现将频数通过weightcase定义为频数变量
分析:
analyze—descriptivestatistic—crosstabs—现实中表格左边的调入row,表格上面的调入column---cells中选择计算row、column、total的百分比—OK
结果分为四行:
四小行分表表示,观察值,行百分比,列百分比,总百分比
新方法
金标准
阳性
阴性
阳性
行百分数
阳性预测值
列百分数
灵敏度
误诊率
阴性
行百分数
阴性预测值
列百分数
漏诊率
特异度
2、诊断试验一致性检验—Kappa值
Kappa≤0.2差,后每增加0.2分别为一般、中等、好、很好
分析:
其他过程同上,在cells之后,点击statistic—选择右下Kappa—OK
结果:
value即为Kappa值,要注意Kappa值也要注意对卡帕检验的p值和样本量
3、roc曲线分析
即为:
受试者操作特征曲线,通过曲线下面积反应诊断试验的诊断价值。
曲线下面积等于0.5表示完全无诊断价值,后每增加0.2表示低中高。
例子中将医生诊断水平与病例诊断水平做比较
建立文档—定义频数变量—analyze-ROCcurve—待评价的调入testvariable—标准选入statevariable并在下面的对话框中选择1表示恶性--在display—withdiagonalreferencelineandstandarderrorandconfidenceinterval—ok
例子2是血清钠对普通感冒和rmsf发热是否有诊断作用
建立文档—定量资料—analyze--ROCcurve—待评价的调入testvariable—分组选入statevariable并在下面的对话框中选择1--在display全选—options中修改默认选项为smallertestresultindicatemorepositivetest(因为血清钠越低越表示阳性,而系统默认越高越为阳性)--OK
结果分析:
看曲线下面积
第十二章生存分析
1、基本概念:
事件:
研究规定的生存时间的重点
删失:
失访或截尾
生存时间:
从某一起点开始到所关心时间发生经历的时间
中位生存时间:
半数生存期,表示恰好有50%的而个体存活的时间
生存曲线:
以观察时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线。
生存曲线是一条下降的曲线,表示随着时间的推移,生存率逐渐降低。
平缓的生存曲线表示高生存率或较长的生存期,陡峭的生存曲线表示低生存率或较短生存期。
2、寿命表法
定期随访的大样本资料
建立数据--—第一列(time)—第二列(结局state1/0)—第三列(f)
分析:
定义频数—analyze—survival—lifetables–time调入time(displaytimeinterval中从0到几每隔几)--结局输入status(singlevalue输入1表示死亡,因为看上述文字:
valueindicatingeventhasoccurred表示目标事件发生的值,所以输入死亡所表示的数字)--options—选择lifetables和survivalplot—OK
3、Kaplan-Meier法
小样本量
有两个分组,两种不同方法生存分析并比较生存率
建立数据--—第一列(time)—第二列(结局state0死亡/1失访/2存活)—第三列(组别)
分析:
analyze—survival--Kaplan-Meier—time调入time,group调入factor,结果调入status(定义结果选择0,表示死亡)--options选择survivaltable、meanandmediansurvival--comparefactor中选择log-rank法—ok
结果给出两组的平均生存时间和中位生存时间,标准误和可信区间,overallcomparisons表示对两者的生存率进行比较。
Ps:
在寿命表中也可以对生存率进行比较,options选项中compareleveloffirstfactor中选择overall
第十四章量表信度效度分析
1、量表信度
分类:
外在信度~表示量表在不同时间测定时测量结果一致程度,重测信度、分半信度
内在信度~表示量表各项目之间的一致性程度,cronbach’sa信度
Analyze—scale—reliabilityanalysis—总体选入或根据不同的因子分别选入
2、量表效度
量表能够测量出研究中所欲测量特性的程度。
效度越高表示该测量的结果与测验行为的真实度越符合,越能够达到测验的目的。
内容效度:
专家法评价,对量表的题目,内容,范围是否符合调查目的进行分析评价
标准效度:
必须要有比较标准,指的是测量值与标准值之前的接近程度
结构效度:
根据实际测量的数据,考察所用的量表是否能反映事先假设的理论结构。
KMO法。
具体操作,先不用掌握了,不会考的。
第十五章统计图形
第一节
第二节TheZhu涘簲閾?
条形图
The鍚堢harms鐗╂祦Barchart
先要看懂几个翻译,非常重要!
!
!
Simple简单条形图
Clustered分组条形图
Stacked分段条形图(堆积图)
The鐗╄祫Fenrules祦Ma愯緭Datainchartare:
The鏃犲warship鎹熻€?
Summariesforgroupofcases按照观察量分组汇总
TheBi勬湰Huan幆Summariesforseparatevariables按单独变量汇总
Valueofindividualcases按某观察量的数值做条形图
1.简单条形图
(绘制各种手术方式的人数)
The鍌ㄤ綅鍦plank潃选Simple简单条形图--Summariesforgroupofcases按照观察量分组汇总—barsrepresent(图形代表什么?
)选择nofcase,表示直条的长短观察量分组的数值—categoryaxis中选定要绘制的观察量。
The鍏Bian悓Ma愰€?
可以点击title进行标题命名,双击图形可以对其作出设置
The鐗╂枡闇€?
Cong″?
(绘制手术中失血量和输血量的均值)
TheBiaoョ敤鍦plankburnt鏉?
两个变量则选用:
Summariesforseparatevariable按单独变量汇总,将两个变量选入barsrepresent,其他同上,也可以双击设置图形。
Thestrandу搧strandゆ崲
(绘制每个病例的输血次数)
每个变量单独绘制则选用:
Valueofindividualcases按某观察量的数值做条形图。
Barsrepresent输入变量—OK
2.分组条形图(就是有两个两个紧挨着一起,一对一对比较的图)
(绘制不同手术方式下,感染者与非感染组的,平均手术时间)
读题后,理所应当的想到,图形横坐标是不同的手术方式,一对别是感染与否,barsrepresent手术时间!
Clustered--Summariesforgroupofcases按照观察量分组汇总--barsrepresent(图形代表什么?
)选择other,调入time—categoryaxis就是横轴的变量手术方式—defineclusterby定义分组通过感染与否—OK
Ps:
可以通过option添加误差线—displayerrorbars有,置信区间,标准误,标准差,笔者选择了置信区间。
3.分段条形图(堆积图),百分条图竖起来的一段一段的,跟圆图表达一起意思的图,但是可以直观的对两组进行比较。
(不同手术下,输血次数,分为0~4次,每次有不同的次数)
Stacked--Summariesforgroupofcases按照观察量分组汇总--categoryaxis就是横轴的变量手术方式--defineclusterby定义分组通过手术次数—OK
Ps:
可以通过options定义sc