属性数据分析资料.docx
《属性数据分析资料.docx》由会员分享,可在线阅读,更多相关《属性数据分析资料.docx(152页珍藏版)》请在冰点文库上搜索。
属性数据分析资料
属性数据分析
一属性变量和属性数据
通常所指属性数据(categoricaldata),是说反映事物属性的数据,也称为定性数据或类别数据,它是属性变量取的值。
属性变量可能是表示事物属性,取值为事物属性的量反映
事物的客观属性,例如变量“性别”取值为男,女;又如变量是中医所分人的体质,取值为平和,气虚,阳虚,阴虚,瘀血,痰湿,湿热,气郁,特凛。
对事物表态的量表达人们主观
对事物的评论,例如变量是“某人对某个政策的态度”,取值是赞成,中立和反对;又如变量是“人对医疗效果的评价”,取值为特好,好,一般,差,很差。
区间值变量取值为多个
互不重叠区间:
例如变量是“顾客的购买水平”,取值分为[0,100),[100,200),[200,300)
和300以上。
“属性变量”是反映事物的客观属性或对事物表态,以及区间值变量,它是一种变量,它取的值之间不能做加,减,乘,除等运算,而且所取的值只能是有限个,属性变量取的值也称为属性变量的“水平”。
二属性数据表示形式
属性变量有4种表示形式:
原始属性变量形式、指示变量形式(调查数据常用)、频数
形式和列联表。
例1某连锁超市要检验商品销售情况与陈列方式是否相关,随机抽取了10家门店,分
别以A、B、C共3种方式陈列(即第一个属性变量是“陈列方式”,取值A、B、C),各门
店销售情况分为“high”及“low”两类(即第二个属性变量是“销量”,取值“high”和“low”)。
这两个属性变量的统计资料4种形式如下:
属性变量形式的样本是把各个属性变量的1次观测值排成1行;例如例1中属性变量
“销量”和“排列方式”的第1个观测值(第1个门店)的观测值是“high”和“B”,就把
“high”、“B”排在第一行,见下表
表超市数据属性变量形式
销量排列方式
highB
highB
highB
highA
highC
lowB
highC
highA
lowB
highC
指示变量形式是列出各个属性变量的所有值,对每个值建立一个变量,例如例1中两个
属性变量取值“high”、“low”、“A”、“B”、“C”;建立5个指示变量:
sl,sh,ma,mb,mc.每
次观测中,属性变量的哪个值出现了,就在对应列中用1表示,否则用0表示;例如对于超
市数据建立5个变量后:
sh表示变量销售额高,sl表示变量销售额低,ma表示排列方式是A,
1
mb并表示排列方式是
B,mc表示排列方式是
C。
第1次观测中属性变量的值是“high”和“”,
B
这时观测值就是1,0,0,1,0
,,见下表
表超市数据指示变量形式
sh
sl
ma
mb
mc
1
0
0
1
0
1
0
0
1
0
1
0
0
1
0
1
0
1
0
0
1
0
0
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
0
0
1
0
1
0
1
0
0
0
1
在做调查时(例如对街道行人作调查),通常要求被调查人在调查表上打勾和叉,整理这些调查表,勾和叉分别改为1和0,得到的就是指示变量形式的样本;大学生舌象体质调查数据就是两种形式数据混合,使用时必须注意。
指示变量形式。
把属性变量形式汇总,
同样观测数据只记一次,其相同次数称为频数,得到的就是频数
形式数据,超市数据频数形式见下表;例如例
1中销量“high”且排列方式是“A”的门店有
3个,频数就记为
3,汇总观测值记为“
high、A、3”,下表中最后一列是频数。
表超市数据频数形式
销量
排列方式
频数
high
B
3
high
A
2
high
C
3
low
B
2
两个属性变量的列联表就是把频数形式数据,写成一个长方形表,其中最左列给出一
个属性变量(行变量)的值,最上面的变量名行給出另一个属性变量(列变量)的值,频数
填在对应格中,见下表,列联表能直观反映数据特点,经常使用。
所以有时频数形式数据也
称为列联表。
2个属性变量的列联表最常使用;
3,4个属性变量的频数形式数据也能排在平
面上。
属性变量多于
2的列联表称为“高维列联表”。
表超市数据的列联表
排列方式
销量
A
B
C
high
2
3
3
low
0
2
0
三对应分析
2
一般统计书籍只介绍到列联表及其分析,上世纪70年代以来出现了许多分析属性数据
的方法:
对应分析,logistic回归,广义线性模型,重复测量模型等等。
本次重点介绍对
应分析。
对应分析是研究属性变量的值间关系,带有直观图象展示的一种分析方法。
“列联
表”分析能解决属性变量间是否有联系的判断问题,但对于它们是怎样联系的却不能给出具
体结论。
对应分析要研究属性变量的取值之间是怎样联系的,它把属性变量取的各个值投影
成一幅“地图”上的点,距离较近的点显示关系较密切。
对应分析分为简单对应分析和多重对应分析。
简单对应分析分析两个属性变量间关系;多重对应分析分析多个属性变量间关系。
(一)简单对应分析
简单对应分析的主要步骤。
基本步骤是:
1输入数据对于常用的列联表数据,将列联表数据(连同变量名)拷入工作表后,还
要增加一列:
列变量名,该列按照表中列水平出现顺序(从左到右),将它们从上到下安放
一列中,这列通常按其含义加变量名“列名”。
由于列联表中通常已包含行名称,无须另加
一列输入“行名”。
2进入简单对应分析对话框从“统计>多变量>简单对应分析”入口,就能进入
“简单对应分析”对话框。
选定“列联表的列”,指定列联表的各列。
3填写对话框在对话框的“列名”处填写列变量名称所在列,在“行名”处填写行变量名
称所在列;进入“图形”框后指定显示哪些图(其中“显示行和列的对称图”最重要)。
例2某公司在5个地区销售4种商品(甲、乙、丙、丁),某年销售量汇总表如下表。
试问销售量按地区分布有何规律?
销售量按商品分布有何规律,二者有何联系?
表某公司5地区销售数据(单位:
件)
1
商品
地区
甲
乙
丙
丁
A1
60
20
21
20
A2
100
25
30
30
A3
100
5
80
200
A4
40
1
35
110
A5
90
60
120
20
解1)将表拷入工作表后,为了能在有关图表中显示各列名称,应补充一列。
因为商品
列C2-C5的变量名从左到右依次为“甲、乙、丙、丁”,将列变量名称“甲、乙、丙、丁”
填入C6列,并将此列命名为“商品”。
2)从“统计>多变量>简单对应分析”入口,
进入“简单对应分析”对话框。
3)在“输入数据”中,选择“列联表的列”,指定为“甲乙
3
丙丁”4列数据,将“行名”指定为“地区”,将“列名”指定为“商品”,对于“分量数”仍保留为默认的“2”。
4)点击“图形”,弹出“简单对应分析-图形”对话框,选择“只
显示行的对称图”,“只显示列的对称图”及“显示行和列的对称图”以便得到3幅图。
5)
各框点击“确定(OK)”,即可以得到计算结果和图形。
行对称图
行图
0.50
A5
0.25
2
0.00
量
分
-0.25
A3
A1
A4
A2
-0.50
-0.75
-0.75-0.50-0.250.000.250.50
分量1
从行图中可见A1,A2,地区销售情况相似;A3,A4地区销售情况相似。
(比例相似)
列对称图
4
列图
0.5
丙
乙
20.0
丁
量
甲
分
-0.5
-1.0
-1.0
-0.5
0.0
0.5
分量1
从列图中可见甲乙丙丁销量不相似
行列对称图
对称图
0.5
A5
丙
乙
A3A4丁
2
0.0
量
A1
甲
分
A2
-0.5
-1.0
-1.0
-0.5
0.0
0.5
分量1
从图中可见A1,A2两地卖甲商品较多,A3,A4两地卖丁商品较多
例3设已有大学生舌苔色和BMI决定的胖瘦程度二维列联表如下,试做对应分析。
分析肥胖程度与苔色对应。
苔瘦中胖
白8623062357
5
黄
117
360
37
灰
4
10
3
黑
2
6
1
解将上表考入工作表,最右边添上一列,变量名为“BMI”,按照从上到下顺序填上瘦,中,胖。
2)从“统计>多变量>简单对应分析”入口,进入“简单对应分析”对话框。
3)选定“列联表的列”,将带数值的列选入“列联表的列”空格。
4)将“苔色”选入行名空格,“BMI”选入列名空格5)点击“图形”,弹出“简单对应分析-图形”对话框,选择“只显示行的对称图”,“只显示列的对称图”及“显示行和列的对称图”,各框点击“确定”,即可以得到行对称图,列对称图,行和列的对称图。
丛行对称图可见:
4种苔色无关系。
从列的对称图看出胖中瘦间无联系。
行和列的对称图如
下
行列对称图
对称图
0.3
0.2
2
量0.1
分
灰
黑
黄瘦
胖
白
中
0.0
-0.1
-0.10.00.10.20.3
分量1
从行和列的对称图可见:
体型中的人和苔色发白的人联系紧,即苔色发白的人体型中等
(二)多重对应分析
“多重对应分析”用于分析多个属性变量值间的关系,它每次可以同时分析两个或更多
个属性变量。
“多重对应分析”对话框能够读入两种形式数据:
属性变量形式和指示变量形
式数据。
无论哪种形式的数据,实施多重对应分析时,工作表中都要加一列,列举所有属性
变量所取的所有值:
读入指示变量形式的数据时,按照属性变量值在工作表的“变量名”
行出现的先后顺序从上到下排列;读入属性变量形式的数据时,先按照这些属性变量在工作
表中出现的先后顺序,再对每个属性变量值按照字典序从上到下排列。
然后从“统计>多
6
变量>多重对应分析”入口,进入“多重对应分析”对话框,可以实施“多重对应分析”
MINITAB计算“多重对应分析”后输出的结果中,最重要的是列图。
列图是一个平面图
形,所有属性变量的各个值都作为点安放在列图上,距离较近的点显示关系较紧密。
例4(指示变量形式数据)为了分析人们对某种新家具的看法,请80名顾客对“样式”、
“油漆”、“颜色”、“材料”和“价格”评价:
分别给出“式样好”、“式样差”、“油漆好”、“油漆差”、“颜色好”、“颜色差”,“材料好”、“材料差”、“价格低”、“价格中”、“价格高”
的评价。
厂商希望从调查数据分析这5个变量的“值”间的关系。
数据如下。
试画图分析顾客对式样、油漆、颜色、材料和价格的意见间的联系。
表80名顾客对家具的评价
样好
样劣
漆好
漆劣
色好
色劣
料好
料劣
价低
价中
价高
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
0
1
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
0
1
1
0
0
1
0
1
0
1
0
1
0
1
0
0
0
1
0
1
0
1
0
1
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
1
0
1
1
0
0
1
0
1
0
1
0
1
0
0
1
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
1
0
1
1
0
0
1
0
1
0
1
0
0
1
1
0
0
1
0
1
0
1
0
0
1
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
1
0
0
1
0
1
0
0
1
1
0
0
1
0
1
0
1
0
0
1
0
1
0
1
1
0
1
0
0
1
0
0
1
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
0
1
0
1
0
7
1
0
1
0
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
0
1
1
0
0
1
0
1
0
0
1
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
1
0
0
1
0
1
0
0
1
1
0
0
1
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
0
1
0
1
0
1
1
0
1
0
0
0
1
0
1
0
1
1
0
1
0
0
0
1
1
0
0
1
0
1
0
1
0
1
0
0
1
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
0
1
1
0
0
1
0
0
1
0
1
0
1
1
0
1
0
0
1
0
0
1
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
1
0
1
0
1
0
1
0
0
0
1
0
1
0
1
0
1
1
0
1
0
0
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
0
0
1
1
0
0
1
1
0
1
0
1
0
0
1
0
1
0
0
1
1
0
0
1
0
解1)将表拷入工作表,在右边加上一列,列名为“变量值”,内容为各列的变量名。
2)从
“统计>多变量>多重对应分析”入口,进入“多重对应分析”对话框。
3)选定“需
要指示变量的列”将这含有指示变量的11列选入空格。
4)将“变量值”选入“属性名称”
空格。
5)点击“图形”,弹出“多重对应分析-图形”对话框,在其中选定“显示列图”。
6)各框点击确定。
结果分析:
由列图可见:
漆好、价高、料好、色好、样好距离较近,聚为一类,这表明顾客
对这批家具评价较好时,也觉得价格较高;另外漆劣、价低距离较近,聚为一类,这表明认
为家具价格低廉的顾客认为漆不好;色劣、样劣聚为一类,也就是说认为这批家具色劣的顾
8
客认为家具式样低劣;料劣、价中聚为一类,就是说认为价格中等顾客也认为主要问题是材
料不好。
例5例1为了分析某种疾病成因,考虑是否饮用某种饮料、吃快餐、上网、患病程度、
性别这5个项目,把它们作为
5个变量,它们分别取一些值(水平)
,为了分析这些水平间
有何对应关系。
统计50名以上病人其资料如下表,
试根据这资料作分析,
看看哪些水平间
关系最密切。
表疾病与生活习惯数据
病员
饮用否
吃快餐否
性别
上网否
患病程度
1
饮用
不吃
男
上网
低
2
饮用
不吃
男
上网
低
3
饮用
吃
男
上网
低
4
饮用
吃
男
不上
中
5
饮用
吃
男
上网
高
6
饮用
不吃
男
上网
低
7
饮用
吃
男
上网
低
8
饮用
吃
女
上网
中
9
饮用
不吃
男
上网
低
10
饮用
吃
男
上网
高
11
饮用
吃
男
上网
高
12
饮用
吃
男
上网
高
13
饮用
吃
男
上网
高
14
不饮
吃
女
不上
中
15
饮用
吃
男
上网
高
16
饮用
吃
男
上网
高
17
饮用
吃
男
上网
高
18
饮用
吃
女
上网
中
19
饮用
吃
女
上网
中
20
饮用
吃
男
上网
高
21
不饮
不吃
女
上网
低
22
饮用
吃
男
上网
低
23
饮用
吃
男
上网
高
24
饮用
吃
男
上网
高
25
饮用
吃
女
上网
中
26
不饮
吃
女
不上
中
27
不饮
吃
女
不上
中
28
不饮
不吃
女
上网
低
29
饮用
不吃
男
上网
低
30
不饮
不吃
女
上网
低
31
饮用
吃
男
上网
高
32
饮用
吃
男
上网
高
33
不饮
吃
女
不上
中
9
34
饮用
吃
男
不上
中
35
饮用
吃
男
上网
高
36
饮用
吃
男
上网
低
37
饮用
吃
男
上网
高
38
饮用
吃
男
上网
高
39
饮用
吃
男
上网
低
40
饮用
吃
男
上网
高
41
不饮
吃
女
不上
中
42
饮用
吃
男
上网
高
43
不饮
不吃
女
上网
低
44
饮用
吃
男
不上
中
45
饮用
吃
男
不上
中
46
不饮
不吃
女
上网
低
47
饮用
吃
男
上网
高
48
饮用
吃
女
上网
中
49
饮用
吃
男
不上
中
50
饮用
吃
男
上网
高
解1)将数据拷入工作表(C1-C6)。
2)添一列在工作表中(C7),变量名为列名,以下空格顺序填写“不饮,饮用,不吃,
吃,女、男,不上网、上网,低,高,中”。
3)从“统计>多变量>多重对应分析”入口,进入“多重对应分析”对话窗,
4)在“属性变量”中指定“饮用否-患病程度”(C2-C6)共5列(描黑后点击“选择”),
在“类别名称”中选入“列名”,在“分量数”仍保留为默认的“2”。
5)点击“图形”,弹出“多重对应分析-图形”对话窗,选择“显示列图。
6)各窗点击“确定”,就可以得到计算结果
从图中可见:
患病程度高的与饮用该饮料、男性、吃快餐、上网关系密切,女性与不饮用关系密切,也就是说男性希望饮用、吃快餐、上网;女性不希望饮用;不吃快餐的患病程度低;不上网的患病程度中等。
(三)SAS作对应分析
SAS作对应分析的必要性:
功能强大可以考虑频数,画图清晰。
1SAS简介
SAS系统可以通过多种方式生成数据集,并通过ASSIST菜单方式和程序方式(执行
SAS程序方式)实现人机会话。
使用ASSIST模块可实现菜单驱动式人机会话,而无需编程。
10
但采用程序方式实现人机会话,利于初学者掌握和模仿使用,ASSIST菜单方式和MINITAB
菜单方式相似,但是用到许多英文专业词汇。
本次仅介绍程序方式。
编写SAS程序要求很
高,除字符串外不能有中文,不能有中文标点符号,必须英文符号。
1)SAS窗口
SAS系统实现程序方式人机会话主要通过