均匀设计与均匀设计表--方开泰..doc

资源描述

均匀设计与均匀设计表--方开泰..doc

《均匀设计与均匀设计表--方开泰..doc》由会员分享，可在线阅读，更多相关《均匀设计与均匀设计表--方开泰..doc（57页珍藏版）》请在冰点文库上搜索。

均匀设计与均匀设计表--方开泰..doc

序言 2

前言 4

第一章试验设计和均匀设计 5

1.1试验设计 5

1.2试验的因素和水平 7

1.3因素的主效应和因素间的交互效应 9

1.4全面试验和多次单因素试验 13

1.5正交试验法（正交设计） 16

1.6均匀设计 18

1.7均匀设计表的使用 21

第二章回归分析简介及其在均匀设计中的应用 24

2.1一元线性回归模型 24

2.2多元线性回归模型 29

2.3二次型回归模型与变量筛选 31

2.4应用实例 32

2.5寻求最优工艺条件 35

第三章均匀设计表的构造和运用 36

3.1均匀设计表的构造 36

3.2均匀性准则和使用表的产生 39

3.4均匀设计和正交设计的比较 46

第四章配方均匀设计 49

4.1配方试验设计 49

4.2配方均匀设计 51

4.3有约束的配方均匀设计 53

4.4均匀设计在系统工程中的应用 56

序言

在科学实验与工农业生产中，经常要做实验。

如何安排实验，使实验次数尽量少，而又能达到好的试验效果呢？

这是经常会碰到的问题。

解决这个问题有一门专门的学问，叫做“试验设计”。

试验设计得好，会事半功倍,反之就会事倍功半了。

60年代，华罗庚教授在我国倡导与普及的“优选法”，即国外的斐波那契方法，与我国的数理统计学者在工业部门中普及的“正交设计”法都是试验设计方法。

这些方法经普及后，已为广大技术人员与科学工作者掌握，取得一系列成就，产生了巨大的社会效益和经济效益。

随着科学技术工作的深入发展，上述两种方法就显得不够了。

“优选法”是单变量的最优调试法，即假定我们处理的实际问题中只有一个因素起作用，这种情况几乎是没有的。

所以在使用时，只能抓“主要矛盾”，即突出一个因素，而将其他因素固定，这样来安排实验。

因此“优选法”还不是一个很精确的近似方法。

“正交设计”的基础是拉丁方理论与群论，可以用来安排多因素的试验，而且试验次数对各因素的各水平的所有组合数来说是大大地减少了，但对于某些工业试验与昂贵的科学实验来说，试验仍嫌太多，而无法安排。

1978年，七机部由于导弹设计的要求，提出了一个五因素的试验，希望每个因素的水平数要多于10，而试验总数又不超过50，显然优选法和正交设计都不能用，方开泰教授在几年前，曾为近似计算一个多重积分问题找过我，我向他介绍了多重数值积分的方法并取得了好结果，这就使他想到是否可能用数论方法于试验设计的问题，于是我们经过几个月的共同研究，提出了一个新的试验设计，即所谓“均匀设计”，将这一方法用于导弹设计，取得了成效，我们的文章在80年代初发表后，15年来，均匀设计已在我国有较广泛的普及与使用，取得了一系列可喜的成绩。

均匀设计属于近30年发展起来的“伪蒙特卡罗方法”的范筹。

将经典的确定的单变量问题的计算方法推广后用于多变量问题的计算时，计算量往往跟变量个数有关，即使电脑再进步很多，这种方法仍无法实际应用，乌拉母（S.Ulam）与冯诺依曼（J.vonNeumann）在40年代提出蒙特卡罗方法，即统计模拟方法，这个方法的大意是将一个分析问题化为一个有同样解答的概率问题，然后用统计模拟的方法来处理后面这个问题，这样使一些困难的分析问题反而得到了解决，例如多重定积分的近似计算。

蒙特卡罗方法的关键是找一组随机数作为统计模拟之用，所以这一方法的精度在于随机数的均匀性与独立性。

50年代末，有些数学家试图用确定性方法寻找空间中均匀散布的点集来代替蒙特卡罗方法中的随机数，已经找到的点集都是用数论方法找到的。

按照外尔（H.Weyl）定义的测度来度量，它们的均匀性很好，但独立性差些，用这些点集来代替蒙特卡罗方法中的随机数，往往会得到更精确的结果。

这一方法称为伪蒙特卡罗方法或数论方法，数学家首先将这一方法成功地用于多重积分近似计算。

从统计学的观点看，伪随机数就是一个均匀分布的样本。

数值积分需要大样本，均匀设计则要找一些小样本。

由于这个样本比正交设计所对应的样本要均匀，所以用它来安排实验会得到好的效果。

当然在寻求小样本时，寻求大样本的方法是起了借鉴作用的。

均匀设计只是数论方法的一个应用，数论方法还有广泛应用的园地。

例如多重插值公式的建立，某些积分与微分的近似求解，求函数整体极值，求某些多元分布的近似代表点，及用于统计推断的一些问题，如多元正态性检验及多元球性检验。

早在50年代末，外国刚开始研究为蒙特卡罗方法时，华罗庚就倡议并领导了这一方法在我国的研究，他的开拓性成果总结在我们的专著“数论在近似分析中的应用”（科学出版社，1978年；英文版：

Springer-VerlagandSciencePress,1981）中，这些工作是方开泰教授与我合作的工作重要的背景与参考材料之一。

我与方开泰教授合作了近20年，由于他既是一个数学家，又有长期在中国各工业部门普及应用数理统计的宝贵经验，所以他有很好的应用数学背景与洞察力。

他能及时地提出有价值的研究问题及解决问题的可能途径，我们的合作既是愉快的，又是富于成效的，我们的成果总结在我们的专著”Number-TheroreticMethodsinStatistics”（ChapmanandHall,1993,中文版在出版过程中）之中。

方开泰教授的这本书着重于应用及普及，但也包括了他的最新成果，书后的均匀设计表就是最近他用准确的偏差方法算出来的，比过去的结果有较大的改进，我相信本书的出版，对于在我国进一步普及与应用均匀设计将是很重要的，我愿借此机会预祝本书成功。

王元

1994年2月

前言

均匀设计是1978年王元教授和我共同提出的，10多年来，均匀设计在理论上有了不少新的发展，如各种均匀性度量的探讨，拉丁方均匀设计的提出将均匀设计用于配方设计而产生的配方均匀设计，特别地，最近我们又发现了一批奇数的均匀设计表，它们比原来的表均匀性有显著地改善，这些表和它们的均匀表都已收集在本书的附录中，由于实际的需要，利用拟水平的技术可以产生有混合水平的均匀设计表，本书也给出了不少这一类的设计表，并列出它们的均匀度，此外，本书给出了均匀设计和正交设计的比较。

本书是一本普及教材，目的是向广大科技工作者介绍均匀设计的原理，方法和应用，读者并不需要具备高深的数学和统计知识，中国数学会均匀设计学会已经研制了有关软件和教学录象带，方便使用者有效地使用均匀设计，特别是数据分析方面，该软件包含了丰富的内容，比本书的材料更为丰富，本书也可作为大学和研究生的教材和参考书。

本书共分四章，第一章介绍试验设计的重要性，正交设计和如何使用均匀设计来设计试验。

第二章首先对回归分析作了简单的介绍，随后介绍均匀设计的数据分析，工艺条件的优化。

第三章介绍均匀设计表的构造，使用表的构造，均匀度准则，以及正交设计和均匀设计的比较。

第四章讨论配方设计，首先介绍文献中推荐的三种配方设计方法，然后给出配方均匀设计，有约束配方均匀设计，最后给出均匀设计在系统工程等方面的应用。

在编写这本讲义中，中国科学院院士王元教授给出了许多指导性意见，并为本书写了精彩的序言，没有华一王（华罗庚王元）当年开创性的工作，就不可能有均匀设计。

中国航天工业总公司三院张建舟高级工程师，东北制药总厂张承恩高级工程师，北京军事医学科学院张学中研究员给了我很多支持和帮助，中国科学院应用数学所我的学生李润泽和张金廷同志协助我整理和打印，在此表示衷心地感谢。

由于作者水平有限，加之本书是利用春节假期匆匆赶出来的，难免有错误或不恰当之处，欢迎读者批评指正。

方开泰

中国科学院应用数学研究所

香港浸会大学

1994年2月

第一章试验设计和均匀设计

1.1试验设计

在工农业生产和科学研究中，经常需要做试验，以求达到预期的目的。

例如在工农业生产中希望通过试验达到高质、优产、低消耗，特别是新产品试验，未知的东西很多，要通过试验来摸索工艺条件或配方。

如何做试验，其中大有学问。

试验设计得好，会事半功倍，反之会事倍功半，甚至劳而无功。

本世纪30年代，由于农业试验的需要，费歇尔（R.A.Fisher）在试验设计和统计分析方面做出了一系列先驱工作，从此试验设计成为统计科学的一个分支。

随后，F.Yates,R.C.

Bose,O.Kempthome,W.G.Cochran,D.R.Cox和G.E.P.Box对试验设计都作出了杰出的贡献，使该分支在理论上日趋完善，在应用上日趋广泛。

60年代，日本统计学家田口玄一将试验设计中应用最广的正交设计表格化，在方法解说方面深入浅出为试验设计的更广泛使用作出了众所周知的贡献。

田口玄一的方法对我国试验设计的普及和广泛应用有巨大的影响，70年代我国许多统计学家深入工厂、科研单位，用通俗的方法介绍正交试验设计，帮助工程技术人员进行试验的安排和数据分析，获得了一大批优秀成果，出版了许多成果汇编，举办了不少成果展览会。

在广泛使用试验设计方法的洪流中，必然会出现一些新的问题，这些总是用原有的各种试验设计方法不能圆满地解决，特别是当试验的范围较大，试验因素需要考察较多等级（在试验设计中这些等级称之为水平）时，用正交试验及其它流行的试验方法要求做较多的试验，常使得试验者望而生畏。

许多实际问题要求一种新的试验方法，它能有效地处理多水平的试验，于是王元和方开泰于1978年提出了均匀设计（见文献「1－3」），该设计考虑如何将设计点均匀地散布在试验范围内，使得能用较少的试验点获得最多的信息。

10多年来，均匀设计在国内得到了广泛应用，并获得不少好的成果。

试验设计在工业生产和工程设计中能发挥重要的作用，例如：

1）提高产量；

2）减少质量的波动，提高产品质量水准；

3）大大缩短新产品试验周期；

4）降低成本；

5）延长产品寿命。

在自然科学中，有些规律开始尚未由人们所认识，通过试验设计可以获得其统计规律，在此基础上提出科学猜想,这些猜想促进了学科的发展，例如遗传学的许多发现都藉助于上述过程。

材料工业是工业中的栋梁，汽车拖拉机的制造离不开各种合金钢，钛合金的发明和发现使飞机制造工业产生飞跃。

超导的研究和超导材料的配方息息相关。

配方试验又称混料试验（ExperimentswithMixtures），不仅出现于材料工业，而且在人们生活和其它工业中处处可见，例如在中药、饮料、混凝土的配方中。

由于在配方中各种材料的总和必须为100％，其试验设计必须考虑到这个约束条件，由于这个原因正交试验设计等方法不能直接用于配方设计。

针对配方设计的要求，Scheffé于1958年提出了单纯形格子点设计，随后于1963年他又提出了单纯形重心设计。

Cornell[27]对配方试验设计的各种方法作了详尽的介绍和讨论。

显然，均匀设计的思想也能用于配方试验，王元和方开泰[9]给出了配方均匀设计的设计方法和有关的讨论。

本书第五章将系统介绍配方试验设计和配方均匀设计。

不论是均匀设计或配方均匀设计,其数据分析都要藉助于回归分析，要用到线性回归模型、二次回归模型、非线性模型，，以及各种选择回归变量的方法（如前进法、后退法、逐步回归、最优回归子集等）。

有关回归分析的书籍成百上千，本书仅作梗概介绍。

读者很容易找到各种参考书籍获得更详细的介绍。

试验设计的方法很多，本书重点介绍均匀设计，这并不意味其它方法不重要，每种方法都有其优点，也有其局限性，根据实际情况选取合适的方法是应用统计的重要内容。

1.2试验的因素和水平

在工业、农业、科学研究和军事科学的研究中，经常需要作各种试验，以研究各种因素之间的关系，找到最优的工艺条件或最好的配方。

让我们先看一个例子：

　　例1在一个化工生产过程中，考虑影响得率（产量）的三个因素：

温度（A），时间（B）和加碱量（C）。

为了便于试验的安排，每个因素要根据以往的经验来选择一个试验范围，然后在试验范围内挑出几个有代表性的值来进行试验，这些值称做该因素的水平。

在该例中，我们选择的试验范围如下：

　　温度：

77.5℃～92.5℃

　　时间：

75分～165分

　　加碱量：

4.5%～7.5%

　　然后在上述范围内，每个因素各选三个水平，组成如下的因素水平表：

表1因素水平表

因素

温度（）

时间（分）

120

150

加碱量（％）

　　选择因素和水平关系到一个试验能否成功的关键，下列的注意事项和建议对使用试验设计的人员可能是有益的。

　　1．在一个生产过程中，有关的因素通常是很多的，例如在例1的化工生产工艺中，有催化剂的品种，催化剂用量，加碱时的速度，容器中的压力等。

但根据这次试验目的，除了温度（A），时间（B），和加碱量（C）各取三个水平外，其余因素是固定的，或者讲，他们只取一个水平。

为了方便，通常这些固定的因素在试验方案中并不称为因素，只有变化的因素才称为因素。

　　2．在一项试验中，如何从众多的有关因子中挑选出试验方案中的因素？

我们建议课题的领导者应当要请有经验的工程师、技术员、工人共同讨论决定。

在一次试验中，因素不宜选得太多（如超过10个），那样可能会造成主次不分，丢了西瓜，拣了芝麻。

相反地，

因素也不宜选得太少，（如只选定一、二个因素），这样可能会遗漏重要的因素，或遗漏因素间的交互作用，使试验的结果达不到预期的目的。

例如，有这样的故事，原计划试验方案中只有三个因素，而利用试验设计的方法，可以在不增加试验数目的前提下，再增加一个因素，既然不费事何乐而不为呢？

试验的结果发现，最后添加的这个因素是最重要的，从而发现了历史上最好的工艺条件，正是“有心栽花花不成，无意插柳柳成荫。

”

　　3．试验的范围应当尽可能大一点。

如果试验在试验室进行，试验范围大比较容易实现；如果试验直接在生产中进行，则试验范围不宜太大，以防产生过多次品，或产生危险。

试验范围太小的缺点是不易获得比已有条件有显著改善的结果。

历史上有些重大的发明和发现，是由于“事故”而获得的，也就是说试验的范围大大不同于有经验的范围。

4．若试验范围允许大一些，则每一因素的水平个数最好适当多一些。

5．水平的间隔大小和生产控制精度是密切相关的。

若在例1中温度的控制只能作到

±3℃,且我们设定控制在85℃,于是在生产过程中温度将会在85°±3℃,即82—88℃波动。

不难看到，这时设定的三个水平80℃,85℃,90℃之间是太近了，应当加大，例如80℃,90℃,100℃。

如果温度控制的精度可达±1℃,则例1如设定的三个水平是合理的。

6．因素和水平的含意可以是广义的。

例如五种棉花用于织同一种布，要比较不同棉花影响布的质量的效应，这时“棉花品种”可设定为一个因素，五种棉花就是该因素下的五个水平。

1.3因素的主效应和因素间的交互效应

根据试验的目的，要预先确定一项或多项试验指标，为简单计，本书仅讨论只有一项试验指标（记作Y）的情形。

如例如1的试验Y是得率。

在数理统计中，称试验指标为响应（response）为通俗起见，本书中就叫试验指标。

考察一个因素对试验指标的影响是试验的目的之一。

若在一项试验中，考察温度和得率Y之间的关系，并取温度五个水平，其相应Y值如下：

温度

50℃

60℃

70℃

80℃

90℃

30%

35%

40%

45%

50%

我们看到，温度每增加10℃得率增加5%这5%就是温度的效应。

上述试验可以表成一个线性数学模型

（1.1）

其中为第次试验结果，为温度从50℃到90℃范围内Y的平均值。

通常可以用五次试验的平均值来估计，记作，即

表示温度取第个水平时的值与之差。

不难发现，它们的估计值为

这里称为温度在五个水平下的主效应，为它们的估计值。

由于试验中总存在一些偶然因素的干扰，如室温的变化，电压的波动，材料的不均匀性，这些偶然因素总称为随机误差。

由于试验误差的存在，不可能产生上例那么理想的情况。

其实际数据可能为

温度

50℃

60℃

70℃

80℃

90℃

32%

34%

39%

46%

49%

这时数学模型为

（1.2）

这里为第次试验的试验误差。

这时试验必须有重复才能估计出和.

实际上，当试验的水平和相应的Y为连续变量时，其数学模型也可以用回归方程来表达，例如，用线性回归方程

（1.3）

其中X表示温度，和是回归系数，为随机误差。

在第二章将介绍，和可以用最小二乘法由试验数据估出，由上述温度和得率的数据可得回归方程

（1.4）

这里为试验结果Y的估计值。

利用方程（1.4）可以估出五次试验的结果如下：

30.8

35.4

40.0

44.6

49.2

1.2

-1.4

-1.0

1.4

-0.2

其中称为残差，它的大小反映了回归方程（1.4）的精确程度，并可用它作回归诊断，更详细讨论请看第二章。

方程（1.4）中，X的回归系数0.46有明确的实际含意，它表示温度每增加一度，其得率Y平均增加0.46%，于是0.46反映了X对Y的效应，这里可以称为线性回归效应。

有一点是必须注意的，无论是模型（1.2）中的主效应，还是模型（1.3）中的线性回归效应，都强烈地依赖于试验条件，尤其是X的试验范围，也就是说，这两个模型只适用于X的试验范围内。

否则，当X为210°时，的估值为104.4%，这是不可能的，因为得率总是小于100%的。

显然，模型（1.2）和（1.3）是最简单的情形，实际情况是多种多样的，例如X和Y之间可能有非线性回归关系，或其它相关关系。

这些将在以后讨论。

现在我们来介绍因素间交互作用的概念。

首先，设有两个因素A和B它们各取两个水平和。

这时共有四种不同的水平组合，其试验结果列于图1。

当时，变到使Y增加30-10=20；类似地，当时，变到使Y也增加40-20=20。

这就是说A对Y的影响与B取什么水平无关。

类似地，当B从变到时，Y增加20-10（或40-30=10），与A取的水平无关。

这时，我们称A和B之间没有交互作用。

判断和之间有没有交互作用,选用图2的作图方法更为直观。

当图中的两条线平行时（或接近平行时），判断A和B之间没有交互作用.图3和图4给出了一个有交互作用的例子，它们的含意和作图方法与图和图2是一样的。

交互作用在实际中是大量存在的，例如化学反应中催化剂的多少与其它成分的投入量通常是有交互作用的。

水中各种金属含量太多，对人体健康会造成危害，金属之间对人体的危害也存在交互作用（参见例5）。

当因素A，B及其它们的试验指标Y都为连续变量时，可以建立Y和A；B之间的回归方程。

若回归方程为

（1.5）

时，A对Y的影响由回归系数完全决定，不受B取哪个水平的影响；类似地，B对Y的影响由回归系数γ完全决定，不受A取哪个水平的影响；类似地，对的影响由回归系数完全决定，不受取哪个水平的影响。

这时A和B没有交互作用。

当A和B之间有交互作用时，回归模型不可能为线性的，其中一定有非线性的。

最常见的模型之一为

（1.6）

其中为回归系数，为随机误差。

这时若>0，称A和B之间有正交互作用；若<0,称A和B之间有负交互作用.请看如下两个例子

当A=3.5,B=4.10时，相应两个回归方程的试验指标列于图5和图6。

我们看到两种情形均有交互作用，且一个为正交互作用，另一个为负交互作用。

两个因素之间有交互作用时，其回归模型不一定呈（1.6）形式，更详细讨论可参见第二章第三节。

多个因素之间（超过二个因素）也可能有交互作用,该问题也将在第二章讨论。

1.4全面试验和多次单因素试验

　　在一项试验中，当因素和水平确定后，如何设计该项试验呢？

下面两种方法是最容易想到的：

1、全面试验

　　该方法将每一个因素的不同水平组合做同样数目的试验，例如将每个因素的不同水平组合均作一次试验。

　　在一项试验中若有m个因素,它们各有个水平,则全面试验至少需做次试验。

例如，在例1中，则全面试验至少做次试验。

当因素的个数不多，每个因数的水平数也不多时，人们常用全面试验的方法，并且通过数据分析可以获得较为丰富的结果，结论也比较精确。

当因数较多，水平数较大时，全面试验要求较多的试验。

例如，有六个因素，每个因素都是五水平，则至少需次试验，这个数目太大了，对绝大多数场合，做这么多次试验是不可能的。

因此，我们需要一种试验次数较少，效果又与全面试验相近的试验设计方法。

2、多次单因素试验

　　这个方法在工程和科学试验中常被人们所采用，现以例1来说明这个方法。

例1试验的目的是要寻找好的工艺使得化学反应后的得率最高。

为介绍简单计，设试验误差较小，故不作重复试验（即在同一试验条件下将试验重复多次）。

　　设先将时间和加碱量固定，变化温度，试验结果如下:

B＝90分80℃85℃90℃

C＝5%33%70%64%

其中33%，70%和64%为得率，三次试验中，以70%为最高，故温度85°为最佳。

第二步

固定温度和加碱量，变化时间，其试验结果如下：

A=85℃90分120分150分

C=5%70%73%59%

以反应时间为120分最佳。

下一步是固定时间和温度，变化加碱量，获得如下结果:

A＝85℃5%6%7%

B＝120分73%75%68%

以加碱量75%为最佳，于是有人就得出结论：

最佳工艺为A＝80℃，B＝120分，C＝6%。

当因素之间没交互作用时，这个结论是正确的；当因素之间有交互作用时，该结论一般不真，今设例1的因素间有交互作用，在上述试验的基础上，若我们固定B＝120分，C＝6%，变化因素A并获得如下结果：

　　　　　　B＝120分80℃85℃90℃

　　　　　　C＝6%46%75%78%

发现有更好的工艺条件。

这时我们发现温度的效应是依赖于因素B和C的，当B＝90分,C＝

5%时，温度以85℃为佳，而当B＝120分，C＝6%时，温度以90℃为佳，这种现象表明温

度和其他两因素间有交互作用。

当因素间有交互作用时，用上述方法不一定能选到最好的工艺条件。

例如，例1的试验应当继续按原来的方法做下去：

　　　　　　A＝90℃90分120分150分

　　　　　　C＝6%73%

展开阅读全文