SPSS数据挖掘方法概述文档格式.docx

上传人:b****4 文档编号:7342195 上传时间:2023-05-08 格式:DOCX 页数:39 大小:201.49KB
下载 相关 举报
SPSS数据挖掘方法概述文档格式.docx_第1页
第1页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第2页
第2页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第3页
第3页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第4页
第4页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第5页
第5页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第6页
第6页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第7页
第7页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第8页
第8页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第9页
第9页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第10页
第10页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第11页
第11页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第12页
第12页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第13页
第13页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第14页
第14页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第15页
第15页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第16页
第16页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第17页
第17页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第18页
第18页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第19页
第19页 / 共39页
SPSS数据挖掘方法概述文档格式.docx_第20页
第20页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

SPSS数据挖掘方法概述文档格式.docx

《SPSS数据挖掘方法概述文档格式.docx》由会员分享,可在线阅读,更多相关《SPSS数据挖掘方法概述文档格式.docx(39页珍藏版)》请在冰点文库上搜索。

SPSS数据挖掘方法概述文档格式.docx

1

2

3

4

构造两个输入节点、一个输岀节点、二层结构得神经网络模型:

(*)0.=f(乂」取值1或0,

w门(j=1,2)待求

1x>

“0xW0

作用函数:

f(x)二

结构:

X4O

X=O

学习样本:

(xi(k),X2(k),Yx(k)),k就是样本数,k二1,2,3,4

关键问题:

如何获取模型(*)中得权数%使计算结果与样本得评价结果得误差最小?

计算w,j方法:

随机赋予w打初始值,通过对每一样本得学习,获取讣算结果与样本评价结果得误差,修正g得取值,使经过一泄次数得学习后,总误差能达到期望值,此时修正得到得就就是所要获取得权数,即设

«

(k)=IY.-0

,就是计算结果。

,就是第k个样本评价结果(称期望输出或实际输岀),O

通过第k个样本得输出误差修正权数得公式为:

(k+1)=(k)+△(k),△二a6(k)Xj

其中,<

1>

0,a称收敛因子。

第k个样本得误差为:

误差ek=|8(k)|,

总误差E(k)=E(k-l)+ex

计算过程:

1)设a=l,随机赋予w”得初始值为0,即wu(k=l)=0,

w12(k=l)=0

2)对第一个样本进行学习:

把X1=1,X2=1代入(*),有

0=f(wuXXl+w12XX2)=f(0Xl+oxi)=f(0)=0

6(k=l)=IYk-OkI=1

修正权数:

Aw:

j=a6(k)Xj

A=8(k=l)XFIX1=1

Awis二&

(k=l)X:

=1X1=1

(k=2)=(k=1)+△二0+1二1,

w13(k=2)=wl2(k=1)+Aw:

2=0+1=1

总误差E(K=l)=E(K=0)+ek=0+6(k=1)=1

3)对第2个样本:

X1=1,X2二0,0=f(1X1+1XO)=f(l)=1

S(k=2)=IYk-0xI=0

AwxFa6(k)Xj

△=6(k=2)X)=0X1=0

Aw12=6(k=2)X:

=0X0=0

(k=2)=(k=l)+A=1+0=1,

w12(k=2)=w1:

(k=l)+Aw1:

=l+0=1

总误差E(K=2)=E(K=l)+ek=l+6(k=2)=1

4)对于获取得权数二1,w12=l,有

对第3个样本:

X1二0,X2=l,O二f(1X0+1XI)二f

(1)二1二Y

对第4个样本:

Xl=0,X2=0,0=f(1X0+1X0)=f(0)二0二Y

5)结论:

=1,wR就是使计算结果与样本得评价结果误差最小得权数。

将=l,w,F代入模型(*),则模型建立完毕。

可以利用这个建立得模型,对任一组输入得X’,X:

在未知其输岀(评价结果)时,通过(*)讣算得到结果。

(4)误差逆传播神经网络模型(ErrorBack-Propagation,简记BP模型)

在简单神经网络得基础上,进行形式推广,对多个输入、多个输出、多层结构,不同作用函数得情况进行建模分析。

最常用得就是BP神经网络。

BP神经网络基本原理

BP神经网络模型就是一种具有三层或三层以上得前馈型得、按梯度算法使计算输出与实际输出得误差沿逆传播修正各连接权得神经网络模型。

网络按有教师示教得方式进行学习,

当一对学习模式提供给网络后,神经元得激活值,从输入层经各中间层向输出层传播,在输出层得各神经元获得网络得输入响应,并按减少希望输出与实际输出偏差得方向,从输出层经各中间层逐层修正各连接权,最后回到输入层,随着这种误差逆传播修正得不断进行,网络对输入模式响应得正确率不断上升。

正向传播

实际输出与网络输出误差

BP网络模型得特点:

模型表示:

Yi=f(i=l,2,3…,m,取值(一8,+oo)

Ot=f(t二1,2,3…,q,(X取值(0,1)

模型结构:

至少三层(至少有一隐层),多个输入,一个或多个输出作用函数(Sigmoid型函数):

f(x)二l/(l+e)

x(-,+)f(x)(0,1)

(x|(k),x3(k),x3(k),•••,Xz(k)>

Dx(k).D:

(k).D3(k)…,DQ(k)),

k就是样本数,k=l,2,3…,P

权值修正公式:

二Di-Oi,Di就是期望输岀(实际输岀),0i就是网络计算输出

1)隐层与输出层连接权得修正:

(K+1)=(K)+A

就是隐节点输出

2)输入层与输出层连接权得修正:

(K+1)=(K)+A,

就是输入节点输入。

3)第K个样本误差

总误差E二(5)基于神经网络辅助医疗绩效得评泄

案例:

为了对城市医疗能力进行评价,收集一批有代表性得城市医疗数据,评价指标为病床数、医生数、工作人员数、诊所数、死亡率,并给出了专家得评价结果,旨在建立评价城市得医疗建设绩效得模型,应用于评价任意城帀得医疗建设绩效。

收集数拯见表1、1(单位:

万人)。

表1、1

样本

病床

医生数

工作人员

诊所

死亡率专家评价得医疗能

上海

g

V

b

北京

a

沈阳

武汉

哈尔滨

重庆

成都

兰州

青岛

鞍山

其中,V—-

-非常好,

g——好

>

a

一般,

b——差

需要评价得城市数据见表1、2

表1、

床医生数

诊所数

死亡率

专家评价得医疗

能力

天津

广州

南京

西安

长春

太原

大连

济南

抚顺

t

建立评价得BP神经网络模型:

1)将取得得10个样本分别量化:

立义v.头a.b得取值为

1、5,沪0、5,a=-0.5,b=-l、5

(1)

也可以定义:

v=3,g=l,a=一l,b二-3

v二6,g二2,a=——2,b二-6

v=10,g=7,a=4,b=l由

(1)定义可得上海等10个城市样

本取值见表1、3。

表1、3

~病床数医生数工作人员诊所数死亡率~专家评价~转换值网络输出

得医疗能

0.5

1、5

1、

5

0、9

0、8885

—Ox5

0、5

1.5

0.9581

-1、5

_0、

L

—1、5

0、1

0、1215

Ox5

_0

、5

-K5

-0、5

0、37

0、3826

哈尔

-0.5

-1.

—0、5

0、37

6

0、369

0.5

_1、

0.1168

-0.5

-0.5

0.37

0、34697

1>

5

0、

0、8998

-1.5

1.

0、633

0.641

一0、5

0.633

9

0.6560

2)设计具有三层、五个输入盯点、8个隐石点、一个输岀if点得BP模型,输入为万人拥有病床数、医生数、工作人员数、诊所数、死亡率,输岀为评价得医疗能力。

3)由于选择得映射函数就是S型函数:

f(x)=1/(1+e),x(-,+),f(x)(0,1)

需要把样本输出转换为(0,1)之间得值。

定义:

输岀转换值二0、1+0、8(样本输出值一最小值)/(最大值一最小值),

英中,这里最大值=1、5,最小值=一1、5,转换后得样本输岀见表1、3、

4)网络学习35万次后,网络收敛,总误差为0、16,网络输出见表1、3所示,存储网络学习后得有关权数与参数。

5)用学习后得网络,建立得城帀医疗能力评价模型:

Yi二f(,i=l,2,3…,8&

取值(-8,4-oo),j=l,2-5

Ot=f(,t=l,(X取值(0,1)

英中,w:

、V「、、「已在学习中获取,评价表2城市得医疗能力,评价结果见表1、4。

表1、4

病床数

网络输岀

网络评价得医疗

0、122

0、6687

S

0、6423

—0^5

0、6011

0、6333

0、8851

—1x5

0、1134

0、8996

一1、5

—1>

0、3869

思考问题:

(1)如何利用神经网络辅助客户分类,以制泄相应得促销或销售策略?

(2)如何利用神经网络对客户信誉等级进行评价?

(3)在城市医疗能力评价中,直接用收集得五个指标得泄量数据作为神经网络输

入,就是否可以?

(4)在城市医疗能力评价中,评价结果有四个可能得取值,可否设计四个节点得输

出?

如何上义?

作业:

拟建立神经网络进行肺病诊断,设每个病例有有五种症状:

发烧(无、低、中度、高),咳嗽(轻微、中度、剧烈),X光所见阴影(点状、索条状、片状、空洞),血沉(正常、快),听诊(正常、干鸣音、水泡音),肺炎与肺结合饿部分病例集见下表:

肺病实示例集

X.病

病例号

发烧

咳嗽

X光所见

血沉

听诊

剧烈

片状

正常

水泡音

中度

轻微

点状

干鸣音

屮度

:

索条状

2、聚类方法概述

(1)如何左义两类之间得距离?

(2)如何进行类归并?

(3)如何表岀谱系图?

(4)聚类分析得应用?

聚类:

按照事物得某些属性,把事物聚集成类,使类间相似性尽量少,类内相似性尽量大。

(1)四个学生要分成两类,如何分?

(2)设想对优势股进行投资,问优势股如何选择?

一般地,按已知属性对样品或对元素进行归并,称为分类,未知属性(没有先验知识)按距离大小对样品或元素进行归并称为聚类。

常用聚类方法

1)、系统聚类法:

先将n个样本务自瞧成一类,规左样本之间与类与类之间得距离,选择距离最近得一对合并为一个新类,再将距离最近得两类合并,直至所有得样本都归为一类为止。

聚类既可对样品进行聚类,也可以对变量进行聚类。

若对样品得进行聚类,设第i样品表示为,则第A类与第B类得距离可以泄义为:

最常用得距离有:

1最小距离:

用两类中样品之间得距离最短者作为两类得距离。

2最大距离:

用两类中样品之间得距离最长者作为两类得距离。

3重心距离:

用两类得重心之间得距离作为两类得距离。

4类平均距离:

用两类中所有两两样品之间得平均距离作为两类得距离。

案例应用:

设有5个股票,每个股票有8个指标X1,X2,…X8,表示为股价波动率、股息率、资产负债率、资金周转率、流动负债率、经营杠杆系数、财务杠杆系数、投资报酬率),用禺t表示第i个股票得第t个指标得值,则可得到股票样品得数据矩阵:

X:

X2

…xs

xux12

…X13

1X2:

…Xos

%

、%

x51X52

…X58

将每一个样品作为一类,每个样品有8个变量,因此可以将每个样品视为8维空间中得一

个点,5个样品就就是8维空间中得5个点,然后用欧氏距离度量样品点得相似性:

两样品点间距离•越大,其相似性越小。

下而给出5个样品两两之间得欧氏距离阵D(o):

五个样品得最小距离得谱系图

5个股票样品得聚类顺序表

合并次序

离)

合并得类

合并后类得元素

合并水平(距

6={”J

7—{:

5}

6,7

3={1,2,4,4

43,39—{1>

63,4,J5

最小距离法也可以对变量进行系统聚类,仍通过例子来说明

案例2:

对某地超基性岩得一批样品,测试六个与矿化有关得元素:

x’=银,丘二钻,x产铜,x,=^,x5=硫,xM并假设它们得相关系数如矩阵R⑹所示。

相关系数泄义:

设有n个个体,每个个体测量了p个变量,第i个变量加与第k个变量x丈得相关系数为:

rlk=]/

第A类与第B类得距离可以立义为:

0.84621

0、75790.98021

0、64310.2419

0.50390、7370

6,试用系统聚类得最大距离法对六个变量进行聚类(负相关系数采用绝只

值)。

由于采用得就逊乎系数矩阵,所以应找最大元素并类。

其中最大得元素为0、98此将与合并为。

计算它与其它剩下得类得相关系数,相应地得到Rs:

得得到R二:

0、5039-0.3075

 

厂]

0、3920

Rs中最大得元素为0、3920,因此将与合并为。

六个变量得并类顺序表

并次序

合并得舟

1合并后类得元素

合并得水平(相关系数)

S3

7={X2,XJ

0、9802

1,7

tXc,X3,X:

}

0、7579

5,6

9—{Xs,X6)

0、6802

S,9

10={X2,X3,X1,Xo»

X6}

0、3930

10>

1

11={X2,X3,X1,X5,X6,

xi)0、1811

10、80、60、40、20

横坐标就是并类得相关系数。

2)K均值聚类法

K均值聚类法就是一种已知类数得数据聚类与分类方法。

过程如下:

1选取聚类数K;

2从训练样本中任意选择K个向量C1,C2,・・・6作为聚类中心,Ci二(C“,C:

=-C:

a);

3将每个样本Xi二(XH,X15,…,XQ按距离:

P二1,2,3…k,归入距离最小得中心为Ci得类;

4设属于Ci类得样本为Xj(j二1,2,…q),计算新得聚类中心

Ci=((CinC'

^-CJ

其中:

5若④中得聚类中心不再变化,就终I匕否则转③。

(1)如果分两类,谱系图如何?

(2)如果分三类,谱系图如何?

(3)如何确左适合得聚类数?

(4)分析客户购买手机得数据,通过聚类分析客户流失情况。

作业:

在城市医疗能力评价中,评价指标为五个,即X二(X1,X2,X3,X4,X5),每一指

标取值四个(v,g,a,b),则Xi取值得各种可能为"

,则可能有4’得评价指标情况,要求通过聚类,从中选岀15个有代表性得样本,比较聚类辅助建立神经网络与专家经验辅助建立神经网络得不同。

3、主成分分析

主成分分析就是一种多变量分析方法,通过变量变换把相关得变量变为不相关得、比原来少得若干个新变屋。

回輕1△:

为了找岀影响顾客购买手机得主要因素,抽查一部分人按性別与年龄分成10个小组,分别对100种手机类型进行打分评价,最受欢迎得手机给予9分,最不受欢迎得手机给1分。

设10组顾客对100类手机得评分数据为:

手机1

手机2…

…手机100

Xl(男20岁以下)

x(1

X2i……

XiO01

X2(男21—30岁)

X12

X32

X1002

X3(男31—40岁)X4(男41—50岁)X5(男50岁以上)

X6(女20岁以下)X7(女21—30岁)

X8(女31—40岁)X9(女41—50岁)X10(女50岁以上)

X*

10

X]0010

Xij表示第j个顾客对第i款手机得偏好评分,记A二(Xij)。

设想通过主成分分析确左手机类型得主要影响因素。

主成分分析步骤:

1)求A得相关系数矩阵R,R=R(),得定义为:

2)求特征方程det(R-)二0得特征根i(i二1,2,…n);

3)通过非零向量B满足(R-)B=0,计算相应得特征向量Bi=(Bi”B込,-BiJ;

4)从大到小排列i,不妨设1>

2>

……>

n,由累计贡献率295$确定m个特征根1>

……九,对应得特征向量为Bi二(Bi“Bi2,-Bin),i=l,2,…m;

5)计算主分量zk,ZF(k二1,2,-m(m<

n),即Zk就是原影响因素Xi得线性组合。

Zx得应用:

门通过乙‘与Zj得对应取值变化,了解主要影响因素之间得关系与变化趋势;

2)

可以通过Zk对X’,X2,-X.oo得贡献率,找出最大得指标Xi,视Xi为Zk影响最大得指标。

得左义:

令Xij与Zij得关系为:

组号\指标

XI,X2,……Xn

Z1,z

2Zm

XllX21

Xn1

ZllZ21

Zml

X12X22-

•…Xn2

Z12Z22

Z

m2

••••••

10

X110X210

……Xn

10Z110

Z210

ZmlO

i1,2,•…

••m,

j-1,2,n

案例分析:

l):

A(Xij)得相关系数矩阵R为:

XIX2X3

X

10X1

10.8710.516

370、1720、9360.811

0、50、33

10、7

1

0.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2