单变量统计分析的SPSS应用.ppt.ppt
《单变量统计分析的SPSS应用.ppt.ppt》由会员分享,可在线阅读,更多相关《单变量统计分析的SPSS应用.ppt.ppt(45页珍藏版)》请在冰点文库上搜索。
单变量统计分析及SPSS应用,单变量统计分析可以分为:
描述统计和推论统计。
单变量描述统计的目的单变量推论统计的目的,一、频数分布,频数分布适用于一切类型的数据,一般涉及各个类别的频数和百分比。
SPSS操作依次单击:
分析-描述统计-频率,打开如图所示的对话框,单击左侧源变量窗口中要分析的变量,单击中间的箭头将其放在“变量”框中。
选择显示频率表格,才能在输出结果中出现频数表,此项常默认。
图表,主要用于各类图。
单击统计量,出现的各选项是频数分析.此处各项频数分析,在定类变量中往往不涉及,在其他类型变量中涉及。
各种图形的制作,有条形图、饼状图、直方图(主要用于定距数据分组)信息更丰富的图形,可以:
图形-旧对话框。
如复式条形图,补充:
定距数据分组与直方图制作,1.分组的步骤确定组数,一般情况下不小于3不大于20.2.确定组距组距=最大值-最小值/组数组距往往取5或10的倍数,分组的最小组限为组距的倍数。
3.重新编码变量转换重新编码为不同变量4.根据新的变量制图。
如1991数据中教育年限变量的直方图。
二、spss中多选题如何求频数,多重响应分析,不定项多选,
(一)不定向多选题的编码方式二分变量编码法(二分法)。
您上班通常采用以下哪些交通工具?
A.步行;B.自行车;C.电动车;D.公交车;E.地铁;F.自驾车;G.班车。
将多选题的每个选项都定义为一个子变量,采用“01”编码进行处理,选中的赋值为“1”,未选中的赋值为“0”。
可见1991数据文件“健康”。
这种方法分析数据更方便,是多选题编码的通用方法。
其优点是各选项之间相互独立,编码简单清楚,形成的数据文件格式统一,方便检查。
但是这种编码方式会明显增加录入工作量,无论被访者选择了几个答案,录入人员都要对每个子变量进行数据录入,一定程度上增加了出现录入错误的风险。
(二)多重响应分析分析多重响应分析定义变量集二类法(如0=未选中,1=选中)如1991数据文件中的22-30健康问题,再点击多重响应分析-频率,百分比:
应答次数占总次数的百分比如559次/805次=69.4%,个案百分比:
应答次数占总人数的百分比,选择“需前往医院就诊”的有559人次,占总回答次数的805次的69.4%;,定项多选,
(一)编码方法:
多重分类法定项多选题中被访者可能提供的答案的数量是已知的且一般会少于备选项的个数,应采用多重分类法来进行编码录入。
a您上班更愿意选用以下哪些交通工具(选择最主要的3项)1.步行;2.自行车;3.电动车;3.公交车;6.地铁;6.自驾车;7.班车。
根据题目限选的答案个数设定相应个数的子变量,如例中可以设定a1,a2和a3,他们代表最终选出的3个答案。
如果被访者的选择为1,3,4,这分别在a1,a2和a3三个变量中输入1、3和4。
可见1991数据文件中的40-43“问题”。
(二)多重响应分析定义变量集类别(有效值的范围)1991中的“问题1-问题4”,多选排序题,
(一)编码定义与选项个数相同的若干个变量,每个变量的取值做如下定义:
0为未选,1为排第一位,2排第二位,3排第三位,等。
见1991数据文件17-21“服从到帮助别人”,
(二)分析1.转换-重新编码为相同变量,按顺序给予权重,如1991数据中,对“服从到乐于帮助别人”排序,第一重要给5,第二重要给4,-,第五重要给1。
数据转换数据转置,对全部二次编码的数据进行行列转换,得到新数据文件,弹出一个新的数据文件,计算新数据文件中的得分。
点转换计算变量,定义新变量。
即目标变量(sum)数字表达式sum(var001tovar1517),得分最多的,即为最重要的。
三、集中趋势和离散趋势分析及spss应用,
(一)集中趋势定类变量:
众数,一组数据中出现次数最多的变量值。
定序变量:
中位数,一组数据按值的大小顺序排列后,处于中央位置的变量值。
定距变量:
均值,又称为算数平均数,数据的测量层次与集中趋势测量值,测量层次定类定序定距测量值众数众数众数测量值中位数中位数均值,
(二)离散趋势定类变量:
异众比率非众数的频数占总频数的比例。
如,若异众比率的值是66.7%,表示66.7的取值是众数不能代表的,即众数的代表性差。
定序变量:
四分位差数值越大,说明中间数据越分散,由于中位数代表数据的中间位置,因此四分位差在一定程度上说明了中位数的代表性。
定距变量:
全距、标准差与方差,(四)spss应用,分析描述统计频率,确定进行描述分析的变量,选择统计分析结果(在统计量里选),还可以求子总体的比较均值分析比较均值均值,利用数据文件,计算教育众数、中位数、四分位差、均值、标准差和方差。
离散系数,标准差与均值的比值,用百分比表示执行“比率”命令,选择相关指标后,点“统计值”,然后选“cod”如比较各省每户家庭去年全年医疗费占去年全年总收入比例的差异程度。
四、单变量总体均值和比例的区间估计(推论统计),
(一)总体均值的区间估计分析描述统计探索,大家再选“因子列表”,看又会出现什么结果。
(二)总体比例的区间估计假设我们随机抽取了一个样本容量为n的样本x1,x2,.xn,其中具有某个特征的个体有t个,则样本中具有该特征的比例为p=t/n(样本比例).如果我们将总体看做0-1分布,即具有这种特征的个体取值为1,不具有这种特征的个体取值为0,根据样本中的观测值,可以获得具有该特征的个体的个数t=xi,则具有该特征的个体的比例为p=t/n=xi/n(样本比例).由于具有这种特征的个体取值为1,不具有这种特征的取值为0,可得样本均值为xi/n.可见此处,样本均值=样本比例。
同理,总体中具有该特征的个体的比例就是总体的均值,因此可以把单总体比例的区间估计转换成均值的区间估计。
数据文件中,试以95%的置信度估计该样本来自总体中职业为“服务”的个体的比例的置信区间。
1.先将多项问题转化成01分布,非服务职业的个体为0,服务职业的个体为1.单击“转化重新编码为不同变量”2.单击“分析探索”,四、假设检验(单变量推论统计),要掌握课本上假设检验的步骤一般大样本用Z检验,小样本用t检验。
样本较大时候,t值分布接近于正态分布,t检验法与Z检验法的分别就不大了,Z检验可以看做是t检验的特例。
因此,无论样本大小如何,都可以用t检验。
SPSS只提供了t检验。
(一)总体均值的假设检验分析比较均值单样本T检验1991文件中,样本的教育年限均值验证总体的受教育年限均值是否有变化,若T值大于双尾检验值,则拒绝原假设或者根据spss计算出的sig.水平,与常使用的显著性水平进行,进而决定拒绝或假设原假设.(这个最简单方便),H0=12.88,H112.88t=167.780a=0.05时的双尾检验值,所以拒绝原假设H0=12.88或sig=0.000a值0.05,拒绝原假设。
(二)总体比例的假设检验在讲区间估计的时候,比例可以看做是均值的特殊形式,因此,总体比例的假设检验,与总体均值的假设检验,没有本质区别,也是先将总体转换成0-1分布,然后将总体比例做总体均值处理。