灰色系统理论及其应用.docx

资源描述

灰色系统理论及其应用.docx

《灰色系统理论及其应用.docx》由会员分享，可在线阅读，更多相关《灰色系统理论及其应用.docx（59页珍藏版）》请在冰点文库上搜索。

灰色系统理论及其应用.docx

灰色系统理论及其应用

第二十五章灰色系统理论及其应用

客观世界的很多实际问题，其内部的结构、参数以及特征并未全部被人们了解，人们不可能象研究白箱问题那样将其内部机理研究清楚，只能依据某种思维逻辑与推断来构造模型。

对这类部分信息已知而部分信息未知的系统，我们称之为灰色系统。

本章介绍的方法是从灰色系统的本征灰色出发，研究在信息大量缺乏或紊乱的情况下，如何对实际问题进行分析和解决。

§1灰色系统概论

客观世界在不断发展变化的同时，往往通过事物之间及因素之间相互制约、相互联系而构成一个整体，我们称之为系统。

按事物内涵的不同，人们已建立了工程技术系统、社会系统、经济系统等。

人们试图对各种系统所外露出的一些特征进行分析，从而弄清楚系统内部的运行机理。

从信息的完备性与模型的构建上看，工程技术等系统具有较充足的信息量，其发展变化规律明显，定量描述较方便，结构与参数较具体，人们称之为白色系统；对另一类系统诸如社会系统、农业系统、生态系统等，人们无法建立客观的物理原型，其作用原理亦不明确，内部因素难以辨识或之间关系隐蔽，人们很难准确了解这类系统的行为特征，因此对其定量描述难度较大，带来建立模型的困难。

这类系统内部特性部分已知的系统称之为灰色系统。

一个系统的内部特性全部未知，则称之为黑色系统。

区别白色系统与灰色系统的重要标志是系统内各因素之间是否具有确定的关系。

运动学中物体运动的速度、加速度与其所受到的外力有关，其关系可用牛顿定律以明确的定量来阐明，因此，物体的运动便是一个白色系统。

当然，白、灰、黑是相对于一定的认识层次而言的，因而具有相对性。

某人有一天去他朋友家做客，发现当外面的汽车开过来时，他朋友家的狗就躲到屋角里瑟瑟发抖。

他对此莫名其妙。

但对他朋友来讲，狗的这种行为是可以理解的，因为他知道，狗在前不久曾被汽车撞伤过。

显然，同样对于“狗的惧怕行为”，客人因不知内情而面临一个黑箱，而主人则面临一个灰箱。

作为实际问题，灰色系统在大千世界中是大量存在的，绝对的白色或黑色系统是很少的。

随着人类认识的进步及对掌握现实世界的要求的升级，人们对社会、经济等问题的研究往往已不满足于定性分析。

尽管当代科技日新月异，发展迅速，但人们对自然界的认识仍然是肤浅的。

粮食作物的生产是一个实际的关系到人们吃饭的大问题，但同时，它又是一个抽象的灰色系统。

肥料、种子、农药、气象、土壤、劳力、水利、耕作及政策等皆是影响生产的因素，但又难以确定影响生产的确定因素，更难确定这些因素与粮食产量的定量关系。

人们只能在一定的假设条件（往往是一些经验及常识）下按照某种逻辑推理演绎而得到模型。

这种模型并非是粮食作物生产问题在理论认识上的“翻版”，而只能看作是人们在认识上对实际问题的一种“反映”或“逼近”。

社会、经济、农业以及生态系统一般都会有不可忽略的“噪声”（即随机干扰）。

现有的研究经常被“噪声”污染。

受随机干扰侵蚀的系统理论主要立足于概率统计。

通过统计规律、概率分布对事物的发展进行预测，对事物的处置进行决策。

现有的系统分析的量化方法，大都是数理统计法如回归分析、方差分析、主成分分析等，回归分析是应用广泛的一种办法。

但回归分析要求大样本，只有通过大量的数据才能得到量化的规律，这对很多无法得到或一时缺乏数据的实际问题的解决带来困难。

回归分析还要求样本有较好的分布规律，而很多实际情形并非如此。

例如，我国建国以来经济方面有几次大起大落，难以满足样本有较规律的分布要求。

因此，有了大量的数据也不一定能得到统计规律，甚至即使得到了统计规律，也并非任何情况都可以分析。

另外，回归分析不能分析因素间动态的关联程度，即使是静态，其精度也不高，且常常出现反常现象。

灰色系统理论提出了一种新的分析方法—关联度分析方法，即根据因素之间发展态势的相似或相异程度来衡量因素间关联的程度，它揭示了事物动态关联的特征与程度。

由于以发展态势为立足点，因此对样本量的多少没有过分的要求，也不需要典型的分布规律，计算量少到甚至可用手算，且不致出现关联度的量化结果与定性分析不一致的情况。

这种方法已应用到农业经济、水利、宏观经济等各方面，都取得了较好的效果。

灰色系统理论建模的主要任务是根据具体灰色系统的行为特征数据，充分开发并利用不多的数据中的显信息和隐信息，寻找因素间或因素本身的数学关系。

通常的办法是采用离散模型，建立一个按时间作逐段分析的模型。

但是，离散模型只能对客观系统的发展做短期分析，适应不了从现在起做较长远的分析、规划、决策的要求。

尽管连续系统的离散近似模型对许多工程应用来讲是有用的，但在某些研究领域中，人们却常常希望使用微分方程模型。

事实上，微分方程的系统描述了我们所希望辨识的系统内部的物理或化学过程的本质。

灰色系统理论首先基于对客观系统的新的认识。

尽管某些系统的信息不够充分，但作为系统必然是有特定功能和有序的，只是其内在规律并未充分外露。

有些随机量、无规则的干扰成分以及杂乱无章的数据列，从灰色系统的观点看，并不认为是不可捉摸的。

相反地，灰色系统理论将随机量看作是在一定范围内变化的灰色量，按适当的办法将原始数据进行处理，将灰色数变换为生成数，从生成数进而得到规律性较强的生成函数。

例如，某些系统的数据经处理后呈现出指数规律，这是由于大多数系统都是广义的能量系统，而指数规律是能量变化的一种规律。

灰色系统理论的量化基础是生成数，从而突破了概率统计的局限性，使其结果不再是过去依据大量数据得到的经验性的统计规律，而是现实性的生成律。

这种使灰色系统变得尽量清晰明了的过程被称为白化。

目前，灰色系统理论已成功地应用于工程控制、经济管理、未来学研究、生态系统及复杂多变的农业系统中，并取得了可喜的成就。

灰色系统理论有可能对社会、经济等抽象系统进行分析、建模、预测、决策和控制，它有可能成为人们认识客观系统改造客观系统的一个新型的理论工具。

§2关联分析

大千世界里的客观事物往往现象复杂，因素繁多。

我们往往需要对系统进行因素分析，这些因素中哪些对系统来讲是主要的，哪些是次要的，哪些需要发展，哪些需要抑制，哪些是潜在的，哪些是明显的。

一般来讲，这些都是我们极为关心的问题。

事实上，因素间关联性如何、关联程度如何量化等问题是系统分析的关键和起点。

因素分析的基本方法过去主要采取回归分析等办法。

正如前一节指出的，回归分析的办法有很多欠缺，如要求大量数据、计算量大及可能出现反常情况等。

为克服以上弊病，本节采用关联度分析的办法来做系统分析。

作为一个发展变化的系统，关联分析实际上是动态过程发展态势的量化比较分析。

所谓发展态势比较，也就是系统各时期有关统计数据的几何关系的比较。

例如，某地区1977～1983年总收入与养猪、养兔收入资料见表1。

表1收入数据

1977197819791980198119821983

总收入养猪养兔

18202240444860

10151624384050

321210221820

根据表1，做曲线图1。

图1收入数据图

由上图易看出，曲线A（总收入）与曲线B（养猪收入）发展趋势比较接近，而与曲线C（养兔收入）相差较大，因此可以判断，该地区对总收入影响较直接的是养猪业，而不是养兔业。

很显然，几何形状越接近，关联程度也就越大。

当然，直观分析对于稍微复杂些

的问题则显得难于进行。

因此，需要给出一种计算方法来衡量因素间关联程度的大小。

2.1数据变换技术

为保证建模的质量与系统分析的正确结果，对收集来的原始数据必须进行数据变换和处理，使其消除量纲和具有可比性。

定义1设有序列

x=（x

（1）,x

（2）,,x（n））

则称映射

x→y

f（x（k））=y（k）,k=1,2,,n

为序列x到序列y的数据变换。

1）当

x（k）

f（x（k））==y（k）,x

（1）≠0x

（1）

称f是初值化变换。

2）当

x（k）1nx（k）f（x（k））=x=y（k）,x=nk∑=1

称f是均值化变换。

3）当

xk（）

f（（））xk==yk（）max（）xk

k称f是百分比变换。

4）当

称f是倍数变换。

5）当

x（k）

f（x（k））==y（k）

其中x0为大于零的某个值，称f是归一化变换。

6）当

x（k）−minx（k）

f（x（k））=k=y（k）maxx（k）

称f是极差大值化变换。

7）当

x（k）−minx（k）

f（x（k））=k=y（k）

maxx（k）−minx（k）

称f是区间值化变换。

2.2关联分析

定义2选取参考数列

x0={x0（k）|k=1,2,,n}=（x0

（1）,x0

（2）,,x0（n））其中k表示时刻。

假设有m个比较数列

xi={xi（k）|k=1,2,,n}=（xi

（1）,xi

（2）,,xi（n）），i=1,2,,m则称

minminx0（t）−xs（t）+ρmaxmaxx0（t）−xs（t）

ξi（k）=stst

（1）

x0（k）−xi（k）+ρmaxmaxx0（t）−xs（t）

为比较数列xi对参考数列x0在k时系数，其中ρ∈[0,1]为分辨系数。

称

（1）式中minminx0（t）−xs（t）、maxmaxx0（t）−xs（t）分别为两级小差及两级大差。

stst一般来讲，分辨系数ρ越大，分辨率越大；ρ越小，分辨率越小。

（1）式定义的关联系数是描述比较数列与参考数列在某时刻关联程度的一种指标，由于各个时刻都有一个关联数，因此信息显得过于分散，不便于比较，为此我们给出定义3称

ri=k1ξi（k）

（2）

为数列xi对参考数列x0的关联度。

由

（2）易看出，关联度是把各个时刻的关联系数集中为一个平均值，亦即把过于分散的信息集中处理。

利用关联度这个概念，我们可以对各种问题进行因素分析。

考虑下面的问题。

例1通过对某健将级女子铅球运动员的跟踪调查，获得其1982年至1986年每年好成绩及16项专项素质和身体素质的时间序列资料，见表2，试对此铅球运动员的专项成绩进行因素分析。

表2各项成绩数据

1982

1983

1984

1985

1986

铅球专项成绩x0

13.6

14.01

14.54

15.64

15.69

4kg前抛x1

11.50

13.00

15.15

15.30

15.02

4kg后抛x2

13.76

16.36

16.90

16.56

17.30

4kg原地x3

12.41

12.70

13.96

14.04

13.46

立定跳远x4

2.48

2.49

2.56

2.64

2.59

高翻x5

100

105

抓举x6

卧推x7

3kg前抛

12.80

15.30

16.24

16.40

17.05

3kg后抛

15.30

18.40

18.75

17.95

19.30

3kg原地

12.71

14.50

14.66

15.88

15.70

3kg滑步

14.78

15.54

16.03

16.87

17.82

立定三级跳远

7.64

7.56

7.76

7.54

7.70

全蹲

120

125

130

140

挺举

30米起跑x15

4’’2

4’’25

4’’1

4’’06

3’’99

100米x16

13’’1

13’’42

12’’85

12’’72

12’’56

在利用

（1）式及

（2）式计算关联度之前，我们需对表2的各个数列做初始化处理。

一般来讲，实际问题中的不同数列往往具有不同的量纲，而我们在计算关联系数时，要求量纲要相同。

因此，需首先对各种数据进行无量纲化。

另外，为了易于比较，要求所有数列有公共的交点。

为了解决上述两个问题，我们对给定数列进行变换。

定义4给定数列x=（x

（1）,x

（2）,,x（n）），称

⎛x

（2）x（n）⎞y=⎜⎜⎝1,x

（1）,,x

（1）⎠⎟⎟

为原始数列x的初始化数列。

这样，我们可对表2中的17个数列进行初始化处理。

注意，对于前15个数列，随着时间的增加，数值的增加意味着运动水平的进步，而对后2个数列来讲，随着时间的增加，数值（秒数）的减少却意味着运动水平的进步。

因此，在对数列x15及x16进行初始化处理时，采取以下公式

⎛xi

（1）,xi

（1）⎞⎟⎟，i=15,16yi=⎜⎜⎝1,xi

（2）xi（3）xi（4）xi（5）⎠

依照问题的要求，我们自然选取铅球运动员专项成绩作为参考数列，将表2中的各个数列的初始化数列代入

（1）及

（2）式，易算出各数列的关联度如下表（这里ρ=0.5）。

表3关联度计算结果

0.588

0.663

0.854

0.776

0.855

0.502

0.659

0.582

r10

r11

r12

r13

r14

r15

r16

0.683

0.696

0.896

0.705

0.933

0.847

0.745

0.726

计算的MATLAB程序如下：

clc,clearloadx.txt

fori=1:

x（i,:

）=x（i,:

）/x（i,1）;%标准化数据

end

n=size（data,2）;%求矩阵的列数，即观测时刻的个数

ck=data（1,:

）;%提出参考数列bj=data（2:

end,:

）;%提出比较数列

m2=size（bj,1）;%求比较数列的个数forj=1:

m2t（j,:

）=bj（j,:

）-ck;

end

mn=min（min（abs（t'）））;%求小差mx=max（max（abs（t'）））;%求大差

rho=0.5;%分辨系数设置

ksi=（mn+rho*mx）./（abs（t）+rho*mx）;%求关联系数r=sum（ksi'）/n%求关联度

[rs,rind]=sort（r,'descend'）%对关联度进行排序

由表3易看出，影响铅球专项成绩的前八项主要因素依次为全蹲、3kg滑步、高翻、4kg原地、挺举、立定跳远、30米起跑、100米成绩。

因此，在训练中应着重考虑安排这八项指标的练习。

这样可减少训练的盲目性，提高训练效果。

应该指出的是，公式

（1）中的|x0（k）−xi（k）|不能区别因素关联是正关联还是负

关联，可采取下述办法解决这个问题。

记

σi=kxi（k）−xi（k），i=1,2,,n

k1k1k1

则：

（1）当sign（σi）=sign（σj），则xi和xj为正关联；

（2）当sign（σi）=−sign（σj），则xi和xj为负关联。

§3优势分析

当参考数列不止一个，被比较的因素也不止一个时，则需进行优势分析。

假设有m个参考数列（宜称母因素），记为y1,y2,,ym，再假设有l个比较数列（亦称子因素），记为x1,x2,,xl。

显然，每一个参考数列对l个比较数列有l个关联度，设rij表示比较数列xj对参考数列yi的关联度，可构造关联（度）矩阵R=（rij）m×l。

根据矩阵R的各个元素的大小，可分析判断出哪些因素起主要影响，哪些因素起次要影响。

起主要影响的因素称之为优势因素。

再进一步，当某一列元素大于其它列元素时，称此列所对应的子因素为优势子因素；若某一行元素均大于其它行元素时，称此行所对应的母元素为优势母元素。

例如，矩阵R的第3列元素大于其它各列元素，ri3>rij，i=1,2,,m；j≠3

则称x3为优势子因素。

如果矩阵R的某个元素达到大，则该行对应的母因素被认为是所有母因素中影响大的。

为简单起见，先来讨论一下“对角线”以上元素为零的关联矩阵，例如

⎡0.800000⎤

⎢0.60.50000⎥

⎢⎥

R=⎢0.70.70.3000⎥

⎢⎥

⎢0.40.60.70.900⎥

⎢⎣0.30.80.20.70.5040⎥⎦

因为第1列元素是满的，故称第1个子元素为潜在优势子因素。

第2列元素中有一个元素为零，故称第2个子因素为次潜在优势子因素。

余下类推。

当关联矩阵的“对角线”以下全都是零元素，则称第1个母因素为潜在优势母因素……，为了分析方便，我们经常把相对较小的元素近似为零，从而使关联矩阵尽量稀疏。

我们参考一个实际问题。

例2某地区有6个母因素yi（i=1,2,,6），5个子因素xj（j=1,2,,5）如

下：

x1：

固定资产投资y1：

国民收入x2：

工业投资y2：

工业收入x3：

农业投资y3：

农业收入x4：

科技投资y4：

商业收入x5：

交通投资y5：

交通收入y6：

建筑业收入

其数据列于表4。

表4投资和收入数据

1979

1980

1981

1982

1983

308.58

310

295

346

367

195.4

189.9

187.2

205

222.7

24.6

12.2

15.1

14.57

25.6

23.3

29.2

18.98

22.3

23.5

27.655

170

174

197

216.4

235.8

57.55

70.74

76.8

80.7

89.85

88.56

85.38

99.83

103.4

11.19

13.28

16.82

18.9

22.8

4.03

4.26

4.34

5.06

5.78

13.7

15.6

13.77

11.98

13.95

根据表4的数据，利用如下的MATLAB程序clc,clear

loaddata.txt%把原始数据存放在纯文本文件data.txt中n=size（data,1）;%求矩阵的行数，即求所有因素的个数

m=size（data,2）;%求矩阵的列数，即求观测时刻的个数fori=1:

ndata（i,:

）=data（i,:

）/data（i,1）;%标准化数据end

m1=6;m2=5;%m1母因素的个数，m2子因素的个数

ck=data（m2+1:

n,:

）;%提出母因素数据

bj=data（1:

m2,:

）;%提出子因素数据

fori=1:

forj=1:

t（j,:

）=bj（j,:

）-ck（i,:

）;end

mn=min（min（abs（t'）））;%求母因素i的小差mx=max（max（abs（t'）））;%求母因素i的大差rho=0.5;%分辨系数设置ksi=（mn+rho*mx）./（abs（t）+rho*mx）;%求母因素i对所有因素的关联系数

rt=sum（ksi'）/m;%求母因素i对所有因素的关联度r（i,:

）=rt;

end

计算出各个子因素对母因素的关联度（这里取ρ=0.5），从而得到关联矩阵为

⎡0.802

⎢0.689

⎢

⎢0.891

R=⎢

0.678

⎢

⎢0.811

⎢

⎢⎣0.743

0.761

0.666

0.858

0.663

0.774

0.766

0.557

0.529

0.579

0.568

0.565

0.562

0.810

0.885

0.577

0.780

0.804

0.607

0.936⎤0.800⎥⎥

0.675⎥

0.731⎥⎥0.921⎥

⎥

0.632⎥⎦

从关联矩阵R可以看出：

（1）第4行元素都比较小，表明各种投资对商业收入影响不大，即商业是一个不太需要依赖外资而能自行发展的行业。

从消耗投资上看，这是劣势，但从少投资多收入的效益观点看，商业是优势。

（2）r15=0.936大，表明交通投资的多少对国民收入的影响大。

也可以从此

看出交通的影响。

（3）r55=0.921仅次于r15，表明交通收入主要取决于交通投资，这是很自然的。

（4）在第4列中r24=0.885大，表明科技对工业影响大；而r34=0.577是该列中小的，表明从全面来衡量，还没有使科技投资与农业经济挂上钩，即科技投资针对的不是农村需要的科技。

（5）第三行的前3个元素比价大，表明农业是个综合性行业，需其它方面的配合，例如，r31=0.891表明固定资产投资能够较大地促进农业的发展。

另外，r32=0.858表

明农业发展与工业投资也是密切相关的。

§4生成数

4.1累加生成

在研究社会系统、经济系统等抽象系统时，往往要遇到随机干扰（即所谓“噪声”）。

人们对“噪声”污染系统的研究大多基于概率统计方法。

但概率统计方法有很多不足之处：

要求大量数据、要求有典型的统计规律、计算工作量等。

而且在某些问题中，其概率意义下的结论并不直观或信息量少。

例如，预报某天下雨的概率是0.5，晴天的概率也是0.5，这种结论对于人们来讲毫无意义。

灰色系统理论把一切随机量都看作灰色数—即在指定范围内变化的所有白色数的全体。

对灰色数的处理不是找概率分布或求统计规律，而是利用数据处理的办法去寻找数据间的规律。

通过对数列中的数据进行处理，产生新的数列，以此来挖掘和寻找数的规律性的方法，叫做数的生成。

数的生成方式有多种：

累加生成、累减生成以及加权累加等等。

这里主要介绍累加生成。

定义5把数列x各时刻数据依次累加的过程叫做累加过程，记作AGO，累加所得的新数列，叫做累加生成数列。

具体地，设原始数列为x0=（x（0）

（1）,x（0）

（2）,,x（0）（n）），累加生成数列记为x

（1）=（x

（1）

（1）,,x

（1）（n）），且x（0）与x

（1）满足

（1）（k）=x（0）（i），k=α,,n（3）

其中α≤n为正整数上述累加过程当1<α≤k时称为去首累加生成，当α=1时称为一般累加生成。

这里，我们只讨论α=1时的情形，（3）式中上标

（1）表示1次累加生成，记作1—AGO。

在一次累加数列x

（1）的基础上再做1次累加生成，可得到2次累加生成，记作2—AGO。

依次下去，对原始数列x（0），我们可做r次累加生成，记作r—AGO，从而得到r次累

展开阅读全文