属性数据分析资料.docx

上传人:b****3 文档编号:11517187 上传时间:2023-06-01 格式:DOCX 页数:152 大小:1,018.35KB
下载 相关 举报
属性数据分析资料.docx_第1页
第1页 / 共152页
属性数据分析资料.docx_第2页
第2页 / 共152页
属性数据分析资料.docx_第3页
第3页 / 共152页
属性数据分析资料.docx_第4页
第4页 / 共152页
属性数据分析资料.docx_第5页
第5页 / 共152页
属性数据分析资料.docx_第6页
第6页 / 共152页
属性数据分析资料.docx_第7页
第7页 / 共152页
属性数据分析资料.docx_第8页
第8页 / 共152页
属性数据分析资料.docx_第9页
第9页 / 共152页
属性数据分析资料.docx_第10页
第10页 / 共152页
属性数据分析资料.docx_第11页
第11页 / 共152页
属性数据分析资料.docx_第12页
第12页 / 共152页
属性数据分析资料.docx_第13页
第13页 / 共152页
属性数据分析资料.docx_第14页
第14页 / 共152页
属性数据分析资料.docx_第15页
第15页 / 共152页
属性数据分析资料.docx_第16页
第16页 / 共152页
属性数据分析资料.docx_第17页
第17页 / 共152页
属性数据分析资料.docx_第18页
第18页 / 共152页
属性数据分析资料.docx_第19页
第19页 / 共152页
属性数据分析资料.docx_第20页
第20页 / 共152页
亲,该文档总共152页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

属性数据分析资料.docx

《属性数据分析资料.docx》由会员分享,可在线阅读,更多相关《属性数据分析资料.docx(152页珍藏版)》请在冰点文库上搜索。

属性数据分析资料.docx

属性数据分析资料

 

属性数据分析

 

一属性变量和属性数据

通常所指属性数据(categoricaldata),是说反映事物属性的数据,也称为定性数据或类别数据,它是属性变量取的值。

属性变量可能是表示事物属性,取值为事物属性的量反映

事物的客观属性,例如变量“性别”取值为男,女;又如变量是中医所分人的体质,取值为平和,气虚,阳虚,阴虚,瘀血,痰湿,湿热,气郁,特凛。

对事物表态的量表达人们主观

对事物的评论,例如变量是“某人对某个政策的态度”,取值是赞成,中立和反对;又如变量是“人对医疗效果的评价”,取值为特好,好,一般,差,很差。

区间值变量取值为多个

互不重叠区间:

例如变量是“顾客的购买水平”,取值分为[0,100),[100,200),[200,300)

和300以上。

“属性变量”是反映事物的客观属性或对事物表态,以及区间值变量,它是一种变量,它取的值之间不能做加,减,乘,除等运算,而且所取的值只能是有限个,属性变量取的值也称为属性变量的“水平”。

二属性数据表示形式

属性变量有4种表示形式:

原始属性变量形式、指示变量形式(调查数据常用)、频数

形式和列联表。

例1某连锁超市要检验商品销售情况与陈列方式是否相关,随机抽取了10家门店,分

别以A、B、C共3种方式陈列(即第一个属性变量是“陈列方式”,取值A、B、C),各门

店销售情况分为“high”及“low”两类(即第二个属性变量是“销量”,取值“high”和“low”)。

这两个属性变量的统计资料4种形式如下:

属性变量形式的样本是把各个属性变量的1次观测值排成1行;例如例1中属性变量

“销量”和“排列方式”的第1个观测值(第1个门店)的观测值是“high”和“B”,就把

“high”、“B”排在第一行,见下表

 

表超市数据属性变量形式

 

销量排列方式

highB

highB

highB

highA

highC

lowB

highC

highA

lowB

highC

 

指示变量形式是列出各个属性变量的所有值,对每个值建立一个变量,例如例1中两个

属性变量取值“high”、“low”、“A”、“B”、“C”;建立5个指示变量:

sl,sh,ma,mb,mc.每

次观测中,属性变量的哪个值出现了,就在对应列中用1表示,否则用0表示;例如对于超

市数据建立5个变量后:

sh表示变量销售额高,sl表示变量销售额低,ma表示排列方式是A,

 

1

 

mb并表示排列方式是

B,mc表示排列方式是

C。

第1次观测中属性变量的值是“high”和“”,

B

这时观测值就是1,0,0,1,0

,,见下表

表超市数据指示变量形式

sh

sl

ma

mb

mc

1

0

0

1

0

1

0

0

1

0

1

0

0

1

0

1

0

1

0

0

1

0

0

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

0

0

1

0

1

0

1

0

0

0

1

 

在做调查时(例如对街道行人作调查),通常要求被调查人在调查表上打勾和叉,整理这些调查表,勾和叉分别改为1和0,得到的就是指示变量形式的样本;大学生舌象体质调查数据就是两种形式数据混合,使用时必须注意。

指示变量形式。

把属性变量形式汇总,

同样观测数据只记一次,其相同次数称为频数,得到的就是频数

形式数据,超市数据频数形式见下表;例如例

1中销量“high”且排列方式是“A”的门店有

3个,频数就记为

3,汇总观测值记为“

high、A、3”,下表中最后一列是频数。

表超市数据频数形式

销量

排列方式

频数

high

B

3

high

A

2

high

C

3

low

B

2

 

两个属性变量的列联表就是把频数形式数据,写成一个长方形表,其中最左列给出一

个属性变量(行变量)的值,最上面的变量名行給出另一个属性变量(列变量)的值,频数

填在对应格中,见下表,列联表能直观反映数据特点,经常使用。

所以有时频数形式数据也

称为列联表。

2个属性变量的列联表最常使用;

3,4个属性变量的频数形式数据也能排在平

面上。

属性变量多于

2的列联表称为“高维列联表”。

表超市数据的列联表

排列方式

销量

A

B

C

high

2

3

3

low

0

2

0

三对应分析

 

2

 

一般统计书籍只介绍到列联表及其分析,上世纪70年代以来出现了许多分析属性数据

的方法:

对应分析,logistic回归,广义线性模型,重复测量模型等等。

本次重点介绍对

 

应分析。

对应分析是研究属性变量的值间关系,带有直观图象展示的一种分析方法。

“列联

 

表”分析能解决属性变量间是否有联系的判断问题,但对于它们是怎样联系的却不能给出具

体结论。

对应分析要研究属性变量的取值之间是怎样联系的,它把属性变量取的各个值投影

 

成一幅“地图”上的点,距离较近的点显示关系较密切。

对应分析分为简单对应分析和多重对应分析。

简单对应分析分析两个属性变量间关系;多重对应分析分析多个属性变量间关系。

(一)简单对应分析

简单对应分析的主要步骤。

基本步骤是:

1输入数据对于常用的列联表数据,将列联表数据(连同变量名)拷入工作表后,还

 

要增加一列:

列变量名,该列按照表中列水平出现顺序(从左到右),将它们从上到下安放

一列中,这列通常按其含义加变量名“列名”。

由于列联表中通常已包含行名称,无须另加

 

一列输入“行名”。

2进入简单对应分析对话框从“统计>多变量>简单对应分析”入口,就能进入

 

“简单对应分析”对话框。

选定“列联表的列”,指定列联表的各列。

3填写对话框在对话框的“列名”处填写列变量名称所在列,在“行名”处填写行变量名

 

称所在列;进入“图形”框后指定显示哪些图(其中“显示行和列的对称图”最重要)。

例2某公司在5个地区销售4种商品(甲、乙、丙、丁),某年销售量汇总表如下表。

试问销售量按地区分布有何规律?

销售量按商品分布有何规律,二者有何联系?

表某公司5地区销售数据(单位:

件)

1

商品

地区

A1

60

20

21

20

A2

100

25

30

30

A3

100

5

80

200

A4

40

1

35

110

A5

90

60

120

20

解1)将表拷入工作表后,为了能在有关图表中显示各列名称,应补充一列。

因为商品

列C2-C5的变量名从左到右依次为“甲、乙、丙、丁”,将列变量名称“甲、乙、丙、丁”

填入C6列,并将此列命名为“商品”。

2)从“统计>多变量>简单对应分析”入口,

进入“简单对应分析”对话框。

3)在“输入数据”中,选择“列联表的列”,指定为“甲乙

 

3

 

丙丁”4列数据,将“行名”指定为“地区”,将“列名”指定为“商品”,对于“分量数”仍保留为默认的“2”。

4)点击“图形”,弹出“简单对应分析-图形”对话框,选择“只

显示行的对称图”,“只显示列的对称图”及“显示行和列的对称图”以便得到3幅图。

5)

各框点击“确定(OK)”,即可以得到计算结果和图形。

 

行对称图

 

行图

 

0.50

 

A5

0.25

 

2

0.00

-0.25

 

A3

 

A1

A4

A2

 

-0.50

 

-0.75

-0.75-0.50-0.250.000.250.50

分量1

 

从行图中可见A1,A2,地区销售情况相似;A3,A4地区销售情况相似。

(比例相似)

列对称图

 

4

 

列图

 

0.5

 

20.0

 

 

-0.5

 

-1.0

-1.0

-0.5

0.0

0.5

分量1

 

从列图中可见甲乙丙丁销量不相似

行列对称图

 

对称图

 

0.5

A5

A3A4丁

2

0.0

A1

A2

-0.5

 

-1.0

-1.0

-0.5

0.0

0.5

分量1

 

从图中可见A1,A2两地卖甲商品较多,A3,A4两地卖丁商品较多

例3设已有大学生舌苔色和BMI决定的胖瘦程度二维列联表如下,试做对应分析。

分析肥胖程度与苔色对应。

 

苔瘦中胖

白8623062357

 

5

 

117

360

37

4

10

3

2

6

1

解将上表考入工作表,最右边添上一列,变量名为“BMI”,按照从上到下顺序填上瘦,中,胖。

2)从“统计>多变量>简单对应分析”入口,进入“简单对应分析”对话框。

3)选定“列联表的列”,将带数值的列选入“列联表的列”空格。

4)将“苔色”选入行名空格,“BMI”选入列名空格5)点击“图形”,弹出“简单对应分析-图形”对话框,选择“只显示行的对称图”,“只显示列的对称图”及“显示行和列的对称图”,各框点击“确定”,即可以得到行对称图,列对称图,行和列的对称图。

丛行对称图可见:

4种苔色无关系。

从列的对称图看出胖中瘦间无联系。

行和列的对称图如

 

 

行列对称图

 

对称图

0.3

 

0.2

 

2

量0.1

 

 

黄瘦

0.0

 

-0.1

-0.10.00.10.20.3

分量1

 

从行和列的对称图可见:

体型中的人和苔色发白的人联系紧,即苔色发白的人体型中等

(二)多重对应分析

“多重对应分析”用于分析多个属性变量值间的关系,它每次可以同时分析两个或更多

 

个属性变量。

“多重对应分析”对话框能够读入两种形式数据:

属性变量形式和指示变量形

式数据。

无论哪种形式的数据,实施多重对应分析时,工作表中都要加一列,列举所有属性

 

变量所取的所有值:

读入指示变量形式的数据时,按照属性变量值在工作表的“变量名”

行出现的先后顺序从上到下排列;读入属性变量形式的数据时,先按照这些属性变量在工作

表中出现的先后顺序,再对每个属性变量值按照字典序从上到下排列。

然后从“统计>多

 

6

 

变量>多重对应分析”入口,进入“多重对应分析”对话框,可以实施“多重对应分析”

MINITAB计算“多重对应分析”后输出的结果中,最重要的是列图。

列图是一个平面图

 

形,所有属性变量的各个值都作为点安放在列图上,距离较近的点显示关系较紧密。

例4(指示变量形式数据)为了分析人们对某种新家具的看法,请80名顾客对“样式”、

 

“油漆”、“颜色”、“材料”和“价格”评价:

分别给出“式样好”、“式样差”、“油漆好”、“油漆差”、“颜色好”、“颜色差”,“材料好”、“材料差”、“价格低”、“价格中”、“价格高”

的评价。

厂商希望从调查数据分析这5个变量的“值”间的关系。

数据如下。

试画图分析顾客对式样、油漆、颜色、材料和价格的意见间的联系。

表80名顾客对家具的评价

 

样好

样劣

漆好

漆劣

色好

色劣

料好

料劣

价低

价中

价高

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

0

1

1

0

0

1

0

1

0

1

0

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

0

1

1

0

0

1

0

1

0

1

0

1

0

1

0

0

0

1

0

1

0

1

0

1

1

0

1

0

0

1

0

1

0

1

0

1

0

0

0

1

0

1

1

0

0

1

0

1

0

1

0

1

0

0

1

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

0

0

1

0

1

1

0

0

1

0

1

0

1

0

0

1

1

0

0

1

0

1

0

1

0

0

1

1

0

0

1

0

1

0

1

0

1

0

1

0

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

1

0

0

1

0

1

0

0

1

1

0

0

1

0

1

0

1

0

0

1

0

1

0

1

1

0

1

0

0

1

0

0

1

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

0

1

0

1

0

 

7

 

1

0

1

0

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

0

1

1

0

0

1

0

1

0

0

1

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

1

0

0

1

0

1

0

0

1

1

0

0

1

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

0

1

0

1

0

1

1

0

1

0

0

0

1

0

1

0

1

1

0

1

0

0

0

1

1

0

0

1

0

1

0

1

0

1

0

0

1

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

0

1

1

0

0

1

0

0

1

0

1

0

1

1

0

1

0

0

1

0

0

1

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

1

0

1

0

1

0

1

0

0

0

1

0

1

0

1

0

1

1

0

1

0

0

1

0

1

0

1

0

0

1

0

1

0

1

0

1

0

1

0

1

0

0

0

1

1

0

0

1

1

0

1

0

1

0

0

1

0

1

0

0

1

1

0

0

1

0

解1)将表拷入工作表,在右边加上一列,列名为“变量值”,内容为各列的变量名。

2)从

“统计>多变量>多重对应分析”入口,进入“多重对应分析”对话框。

3)选定“需

要指示变量的列”将这含有指示变量的11列选入空格。

4)将“变量值”选入“属性名称”

空格。

5)点击“图形”,弹出“多重对应分析-图形”对话框,在其中选定“显示列图”。

6)各框点击确定。

结果分析:

由列图可见:

漆好、价高、料好、色好、样好距离较近,聚为一类,这表明顾客

对这批家具评价较好时,也觉得价格较高;另外漆劣、价低距离较近,聚为一类,这表明认

 

为家具价格低廉的顾客认为漆不好;色劣、样劣聚为一类,也就是说认为这批家具色劣的顾

 

8

 

客认为家具式样低劣;料劣、价中聚为一类,就是说认为价格中等顾客也认为主要问题是材

 

料不好。

 

例5例1为了分析某种疾病成因,考虑是否饮用某种饮料、吃快餐、上网、患病程度、

性别这5个项目,把它们作为

5个变量,它们分别取一些值(水平)

,为了分析这些水平间

有何对应关系。

统计50名以上病人其资料如下表,

试根据这资料作分析,

看看哪些水平间

关系最密切。

表疾病与生活习惯数据

病员

饮用否

吃快餐否

性别

上网否

患病程度

1

饮用

不吃

上网

2

饮用

不吃

上网

3

饮用

上网

4

饮用

不上

5

饮用

上网

6

饮用

不吃

上网

7

饮用

上网

8

饮用

上网

9

饮用

不吃

上网

10

饮用

上网

11

饮用

上网

12

饮用

上网

13

饮用

上网

14

不饮

不上

15

饮用

上网

16

饮用

上网

17

饮用

上网

18

饮用

上网

19

饮用

上网

20

饮用

上网

21

不饮

不吃

上网

22

饮用

上网

23

饮用

上网

24

饮用

上网

25

饮用

上网

26

不饮

不上

27

不饮

不上

28

不饮

不吃

上网

29

饮用

不吃

上网

30

不饮

不吃

上网

31

饮用

上网

32

饮用

上网

33

不饮

不上

 

9

 

34

饮用

不上

35

饮用

上网

36

饮用

上网

37

饮用

上网

38

饮用

上网

39

饮用

上网

40

饮用

上网

41

不饮

不上

42

饮用

上网

43

不饮

不吃

上网

44

饮用

不上

45

饮用

不上

46

不饮

不吃

上网

47

饮用

上网

48

饮用

上网

49

饮用

不上

50

饮用

上网

 

解1)将数据拷入工作表(C1-C6)。

2)添一列在工作表中(C7),变量名为列名,以下空格顺序填写“不饮,饮用,不吃,

 

吃,女、男,不上网、上网,低,高,中”。

3)从“统计>多变量>多重对应分析”入口,进入“多重对应分析”对话窗,

4)在“属性变量”中指定“饮用否-患病程度”(C2-C6)共5列(描黑后点击“选择”),

在“类别名称”中选入“列名”,在“分量数”仍保留为默认的“2”。

 

5)点击“图形”,弹出“多重对应分析-图形”对话窗,选择“显示列图。

6)各窗点击“确定”,就可以得到计算结果

 

从图中可见:

患病程度高的与饮用该饮料、男性、吃快餐、上网关系密切,女性与不饮用关系密切,也就是说男性希望饮用、吃快餐、上网;女性不希望饮用;不吃快餐的患病程度低;不上网的患病程度中等。

 

(三)SAS作对应分析

SAS作对应分析的必要性:

功能强大可以考虑频数,画图清晰。

1SAS简介

SAS系统可以通过多种方式生成数据集,并通过ASSIST菜单方式和程序方式(执行

SAS程序方式)实现人机会话。

使用ASSIST模块可实现菜单驱动式人机会话,而无需编程。

 

10

 

但采用程序方式实现人机会话,利于初学者掌握和模仿使用,ASSIST菜单方式和MINITAB

菜单方式相似,但是用到许多英文专业词汇。

本次仅介绍程序方式。

编写SAS程序要求很

高,除字符串外不能有中文,不能有中文标点符号,必须英文符号。

1)SAS窗口

SAS系统实现程序方式人机会话主要通过

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2