统计基础Word文档格式.docx

上传人:b****3 文档编号:7965506 上传时间:2023-05-09 格式:DOCX 页数:17 大小:103.65KB
下载 相关 举报
统计基础Word文档格式.docx_第1页
第1页 / 共17页
统计基础Word文档格式.docx_第2页
第2页 / 共17页
统计基础Word文档格式.docx_第3页
第3页 / 共17页
统计基础Word文档格式.docx_第4页
第4页 / 共17页
统计基础Word文档格式.docx_第5页
第5页 / 共17页
统计基础Word文档格式.docx_第6页
第6页 / 共17页
统计基础Word文档格式.docx_第7页
第7页 / 共17页
统计基础Word文档格式.docx_第8页
第8页 / 共17页
统计基础Word文档格式.docx_第9页
第9页 / 共17页
统计基础Word文档格式.docx_第10页
第10页 / 共17页
统计基础Word文档格式.docx_第11页
第11页 / 共17页
统计基础Word文档格式.docx_第12页
第12页 / 共17页
统计基础Word文档格式.docx_第13页
第13页 / 共17页
统计基础Word文档格式.docx_第14页
第14页 / 共17页
统计基础Word文档格式.docx_第15页
第15页 / 共17页
统计基础Word文档格式.docx_第16页
第16页 / 共17页
统计基础Word文档格式.docx_第17页
第17页 / 共17页
亲,该文档总共17页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

统计基础Word文档格式.docx

《统计基础Word文档格式.docx》由会员分享,可在线阅读,更多相关《统计基础Word文档格式.docx(17页珍藏版)》请在冰点文库上搜索。

统计基础Word文档格式.docx

接下来,假设我们拍了照片。

在该阶段周围的风景被离散化,照片以数据的形式被保存在相机中。

照片成形的那一刻,照片中风景原有的气味、温度、声音等信息会毫不客气地被全部切掉,并且照下来的图像会比原本的风景要粗糙。

数码相机拍下来的图像用像素来表示,谁都知道,图像其实就是由一些小点聚集成的。

小点越小,照片看起来和真实风景就越接近。

商品目录上一般都标有200万像素,800万像素等。

平常看照片不会去注意这些,如果放大,可以看见像素,不会看见小的垃圾和细菌。

景色被拍成照片后就会被离散化得这样粗糙。

甚至每个点的信息也被离散化了。

如果把这个照片保存在存储器里,大致都是以一个点由三基色红、绿、蓝各256级的亮度信息综合起来保存的。

就这么简单。

以上的信息用肉眼看几乎和自然颜色没什么区别。

一个点的颜色的种类总共有16777216种。

在储存器里,把数字和場所一点一点全部記録。

(数据被縮約保存)

二次显影时,数据被调出来,输出适合该数字的色调。

在尽量不损坏景色原本特征的基础上将照片离散化,縮約。

该记录是数字的排列,所以,理论上讲可以手动记录全部数字,而不用相机的储存器。

那么,该数字会变化或恶化吗?

不管是经过一百年还是一千年,任何人任何时间看数字都不会变。

比起把原本的景色保管百年千年,保管数字要简单得多且不会发生变化。

也就是说,通过离散化,我们认为不要的数据被舍掉,虽然总体变得粗糙了,但数据的可信度会提高得无法比拟。

不管经过多少年,只要通过相同方法来二次显影,呈现出来的景象会和拍照时一模一样。

大家应该知道,在汇报工序状态时,不要用「大概是…」,而是应该「用具体数字来汇报,数字才可靠才有说服力」。

这是告诉我们要采取数据。

但采取数据时,应该采取细致到什么程度的数据呢?

这是个难题。

又来说照片,假如颜色只有16级,会怎么样呢?

可能二次显影时,照片颜色会像漫画一样,不能正确传达信息。

如果画面像素低会怎么样?

其形状会像正方形的块状物且轮廓上有锯齿形,而无法传达风景准确的形状。

由于该风景的气味、温度、声音一开始就没有记录,事后下再多功夫也无法再次显影。

为什么呢?

因为就记录风景特征的目的来说,,这些东西是不需要的,已经被切掉了。

这里出现了目的这个词。

采取数据时,需要有明确的目的,考虑好「是想传达或调查该现象的什么特征?

」。

如果讨论的是0.01㎜的差异的事,却采取1㎜单位的数据,这毫无意义。

同样,如果想掌握事物每秒钟的变化,却采取10秒单位的数据,采集的数据也没有用。

又或者是,想掌握3个月或6个月这种长期间的变动情况,却只采取一周的数据,数据就不充分。

相反,如果讨论的是0.01㎜的差异的事,却去保存有几个原子的信息,只是浪费了巨大的时间和劳力。

同样,想掌握3个月或6个月这种长期间的变动情况,却采取0.01秒単位的数据,对不起付出的劳力。

讲到这里,相信大家应该理解了在考虑恰当的采取数据的方法时,该怎么做。

在采取数据前,首要要明确采集的数据是想用来干什么?

通过数据想知道什么?

想传达什么?

如果不经考虑就决定了数据的采取方法,结果采取的数据可能会不充分或者浪费比较多,一定会失败。

就算是一直在从事某项实验的专业研究人员,也会因数据的采取方式失败,而重新来过。

眼前的状态如何去离散化呢?

重要的是采取数据前要考虑清楚。

 

2.基本統計量

 基本統計量指的是「显示数据基本特性的值」。

大致分为两种。

一种是清楚地显示该数据特征的代表数。

另一种是显示数据波动情况和偏差情况的散布度。

※在进行某项分析之前,在计算基本統計量之前,务必先作成检查表、直方图、散布图或图表。

并且仔细观察其形状。

如果不这样做,就无法做出恰当的分析。

2.1代表数

2.1.1平均数(アベレージ、Average)

我想没有人不知道平均数,平均数指的是体现数据中心傾向的值。

平均数也是有种类的。

最常见的就是相加平均(算数平均)。

单纯的平均就是指的这个意思。

如果平均数用μ、数据的个数用n、单个的数据用x1,x2,x3・・・来表示,公式如下。

平均又称为エックスバー,经常写成

公式看起来很难,但其实就是把数据全部加起来再除以数据的个数,就可以得出平均数了,就这么简单。

虽然说非常简单,但需要注意的一点就是,根据数据的偏向,有时平均数作为代

表值会不合适。

要想使用平均数,如果不是适合的数据,就成不了数据的代表数。

例如港口有10艘5t的船,取其平均数,该港口船的平均数为5t,该平均数作为原始数

据的代表数是适合的。

但是,当港口有10艘5t的船和1艘100000t油轮时,此时如果说该港口船的平均重量为9100t,明显很勉强,也就不能说9100t可以作为代表数很好地体现数据的特征了。

再举个例,某产品其中一个批次有2000支,不良率为10%,,另一个批次1000支不良

率为40%,如果说它们的平均不良率为(10+40)/2=25%,就是错误的。

平均下来不良率应该是20%。

只有先作成检查表、直方图、散布图来观察数据的情况,仔细考虑该数值的性质,然后

再用公式来计算,才不会有以上的失败。

稍微说得难一点,使用相加平均来计算时,如果对象数据不是正太分布,计算出来的值

作为该数据的代表数就不太合适。

在第3章会进行説明,正太分布指的是数据的分布呈规则的钟形。

刚才列举的船的例

子由于数据极端偏差,所以平均数无法准确地体现数据的特征。

另外,类似于数(计算)一种产品中良品和不良品的个数的数据,叫做计数值。

计数值的分布很多情况下也不是正太分布,这种数据不好使用。

不过,平时测量产品的尺寸、硬度、温度(計量値)时,只要不选别不使用另类的数据采取

方法,那么测量出来的数据基本都会呈正太分布,取其平均数来作为代表数是没问题的。

2.1.2中位数(median)

中位数指的是按照数据的大小来排列,处于正中间的那个数值。

数据的个数是奇数时正

中间那个数就是中位数,数据的个数是偶数时,取正中间两侧的值的平均数为中位数。

前面讲平均数的时候举了船的例子,数值表示如下:

5,5,5,5,5,5,5,5,5,5,100000,中位数就是5。

此时,5作为中位数是合适的。

尽管最后有个极端的数值,将其无视就是取中位数时的特征。

2.1.3众数(mode)

在一组数据中,出现次数最多的数就是众数。

还是采用讲平均数时船的例子,数据中有10个5,1个100000,所以众数就是5。

此时,5作为众数的代表数比平均数更合适。

在另一组数据中如果有5个1,5个2,5个3,出现次数最多的值同时存在2个以上,此时众数就无法定下来。

反过来说,从几乎不出现相同数值的数据中采取的众数,也是不恰当的。

平均数、中位数、众数的关系会因对象数据的不同而发生变化。

对于接近正太分布形状的数据组,这3种代表数几乎相同。

2.1.4最大値、最小値(max.,Min.)

指的是在一组数据中最大的值和最小的值。

想知道数据的范围时使用。

例如,设计机器时,会看最大値和最小値,为了让即使是该范围的几倍的值也不出故障和问题,考虑到安全来设计。

当然还有其他代表数,这里就不细说了。

最能体现原始数据特征的代表数是什么?

需要的信息是什么?

请边考虑边使用。

2.2分散性的測量

2.2.1方差(variance)、无偏方差(unbiasedvariance)

代表数中的一个就是平均数。

假设采取了{0,-5,-6,5,6,1,2,-3}和{-10,-9,5,10,0,5,3,-4}两组数据群,两组数据的平均数都是0,那么,我们可以说这两组数据的特征相同吗?

不是的。

总觉得第2组数据要分散些。

但两组数据的平均数都是0,如果只看平均数,就看不出两组数据的差异。

平均数是把所有数据相加后得出来的,像第2组数据群里面即使包含了-10这样的绝对值(从0开始的距离),只要正数里面有像10这种大数字,就会相互抵消,那么作为数据群的特征来说,就不会表现出大的波动。

换句话说就是如果用平均数的方法把数据縮約,数据偏差的信息就会被抽象掉。

该平均数无法体现的偏差程度,可以用方差(variance)这种指标来体现。

方差(variance)的計算方法,先从采取数据的平均数

开始。

此时,双方都是0。

接下来,取平均数

和各数据的差,将下一个值平方,再全部相加。

因为平均数是固定的,计算各个数据与平均数到之间的差,将其平方、相加。

如果是第1组数据、

(0-0)(0-0)+(-5-0)(-5-0)+(-6-0)(-6-0)+…+(-3-0)(-3-0)

各个数据用X1,X2,X3…表示,平均数用

表示,用复杂的公式表示如下:

该值称为离差平方和。

知不知道为什么要平方?

因为想保留的数据的特征部分就是偏差幅度。

假如直接采取其与平均数的差来相加,由于数据有正有负,就会像计算平均数时一样被正负相抵,偏差就体现不出来。

所以,在相加之前先平方,让所有数值为正数。

也就是说,离差平方和就是各个数据距离平均数的平方的合计。

如果采取的数据的个数之间是不同的,就无法比较。

(如果数据的个数很多,数字就会越来越大)。

此时,就和计算平均数时一样,用数据的个数来除以离差平方和。

把第一个数据群套进公式,如下:

{(0-0)(0-0)+(-5-0)(-5-0)+(-6-0)(-6-0)+…+(-3-0)(-3-0)}/8

数据的个数用n个来表示,用复杂的公式表示如下:

这就叫做方差(variance)。

方差是各个数据与平均数之差的平方和的平均数。

这是体现全体数据偏差的指标。

无偏方差(unbiasedvariance)

刚才说明的方差,在总体(population)的数据可以全部计算的情况下使用。

总体是什么意思呢?

比方说有个批次的针数量为2000支,把每根针的长度进行测量,测量出来的2000个数据聚在一起就称为总体。

但通常情况下,一个2000支的批次我们不会真正地每根针都测量,而是抽几十支样本来测量。

那么,仅用测量出来的样本数据来计算方差,该数值是否和总体方差的数值相同呢?

在抽取总体中的一部分进行测量时,我们也不知道会抽到总体的哪个部分。

也就是说几十支样本的方差与总体方差的计算值会出现误差。

请记住,样本的方差基本上都会比总体的方差要小。

有个方法可以对偏小的样本方差的数值进行修正,从而推定总体的方差值。

中途的经过比较复杂就不细说了,简介为:

抽取的样本数量用n表示,把它整理后公式如下。

使用方差时用过的数据群,无偏方差的计算公式如下:

{(0-0)(0-0)+(-5-0)(-5-0)+(-6-0)(-6-0)…+(-3-0)(-3-0)}/(8-1)

计算无偏方差时,最后不是除以数据的个数,而是除以减去1之后的数。

公式很简单。

通过这种修正,样本方差的值就会和总体方差的期望值相等。

该計算結果称为无偏方差(unbiasedvariance)。

看公式考虑一下就会明白,样本个数为n,只需从中减去1就可以了。

如果样本个数为10个,同一个数字,计算方差时就除以10,计算无偏方差时就除以9,差在11%左右。

如果样本数为100,计算方差时就除以100,计算无偏方差时就除以99,差在1%左右。

此时,凭直觉就知道测量的样本数越多,就越接近总体,方差和无偏方差的差就越小。

在此,也许有人会有疑问:

「如果总体有10个数据,样本数为9个,假如把样本数变成10个,突然公式发生变化,结果也会变化很大,是不是就不对了?

这就和如何去考虑总体有关了。

刚才列举了2000支的批次作为总体的例子。

但实际的产品不止2000支。

以前有多个批次,今后要多少便可以生产多少。

这样一想,实际的总体的数据个数不是2000支,而是接近无限的个数。

在全世界也没有哪样东西说是只有2000个或者只有10个,或者绝对不能再多生产。

用10个数据的总体对方差和无偏方差做了比较,感觉很奇妙。

如果数据只有10个,而没必要去考虑其他的,就不适合使用无偏方差的公式,应该把10个数据全部测量,使用方差的公式。

请把无偏方差当成是通过测量的样本来计算接近无限的总体的方差的推定值的方法。

且该方法是现实中的计算方法,多数情况下一般是使用无偏方差,而几乎不使用除以n的方差。

那么,平均会怎么样?

请记住,如果样本数足够多,样本的平均数可以直接作为总体的平均数的推定值来使用。

2.2.2标准偏差(StandardDeviation、σ)

      

方差、无偏方差是体现数据偏差的指标,因在计算时进行了平方,所以无法和平均值直接做比较。

因此,只采取平方根的正数来进行计算。

这个叫做标准偏差。

这样一来平均和单位一致了,就方便比较。

公式如下:

或者是:

请注意,计算标准偏差时也会使用方差和无偏方差这2种。

请记住如果单纯地说到标准偏差,一般都是指的无偏方差的标准偏差。

可以说这是由样本推定出来的总体的标准偏差的值。

工序上或品质管理使用时,一般考虑使用的是总体标准偏差的推定值。

标准偏差是品质管理常用的指标,又单独称为σ。

3.正太分布(高斯分布)

  

正太分布呈钟形,其图表的两端看起来像0,但通过计算,两端的高度绝对不为0。

两端会无限地变小,会朝外无限延伸。

正太分布是遵从”中心极限定理”的一种分布。

中心极限定理指的是:

“假设有个总体,该总体的数据有偏差(分布),偏差原因不计其数,这些原因之间相互无关系(原因独立)时,该总体的分布大体上就呈正太分布。

正太分布的形状

(全部正太分布 因为有公式定义,形状随参数变化。

如果积聚在中心偏差就小,钟口越宽偏差越大)

总觉得有点复杂,比方说在测量产品长度时,有加工本身产生的偏差,有测量时尺子接触方法的偏差,有读取刻度时的偏差,有温度原因引起的产品或尺子伸缩的偏差・・・等等,偏差原因不计其数。

并且这些原因之间几乎没关系。

也就是说,在工序上像平常那样测量产品做好记录,只要没有人为的作假,测量出来的数据大都呈正太分布。

请想一下直方图或检查表。

把完全按照中心值生产出来的产品的测量值作成越来越小的直方图,其中心就会作为平均数呈正太分布的形状。

正太分布是连续型概率分布的典型。

适用于连续的数据(无限的数据)。

测量长度重量硬度之类的事项时,是连续的量,但是测量值是按照每个刻度分散采取的。

前面在数据的采取方式和思维方式的地方做了一点说明,比方说一个温度计,每个刻度为1℃,即使测量出来显示的是20℃,但如果想采取得更细,有可能是20.1℃,或者真正的温度其实是20.1255586958・・・・・℃,事实上可以测量得无限细致。

但这样一来,需要花无限的时间去测量。

所以,就在适当的地方切断,采取(離散化)数据。

测量数据是分散的,但是真正的现象是连续性的而不是分散的数据。

这种测量值称为計量值。

由于原本的值是连续性的,如果分散的测量值是连续性的值,会是什么性质呢?

使用统计的方法来推测,就是正太分布的典型。

另外,像是硬币的正反面、良品和不良品的○×

判断等数个数的情况下,两者之间不存在数值且是非连续性的数据,称作计数值。

计数值的分布不会呈正太分布。

所以,使用正太分布来分析计数值是不对的。

(如果把测量数据增加极端多,也可以近似于正太分布的形状。

制造部门测量工序能力来规定公差时、测量工序能力或用统计方法调查批次及加工条件的差异时,一般都是把该数据假定成正太分布来进行处理。

当然必须要使用計量値才行,并且采取样本时如果有偏颇、如果明明没数据却想当然的作成数据、如果测量前先进行选别,这样出来的数据不会呈正太分布,结果就不正确。

另外,计数值经常使用的是现成的值来用于品质管理,计数值必须采取与计量值不同的处理方法,并且,计数值不适合在对其进行分析弄清楚不良品的原因,从而提高加工精度和工序能力的情况下使用。

以上对基本的统计量和正太分布进行了说明。

接下来,将使用以上方法进行推定、检验。

4.推定

4.1 正太分布和标准偏差的关系

工序上测量出来的长度或温度等計量値会成正太分布形状,刚才已经进行了说明。

正太分布的形状呈钟形,顶点为平均数。

假设使用该数据计算了标准偏差(σ)。

正太分布和σ的关系如下图。

 以平均数为中心,在±

1σ范围内的数据占全部数据的68.27%。

以平均数为中心,在±

2σ范围内的数据占全部数据的95.45%。

3σ范围内的数据占全部数据的99.73%。

两端的高度不会为0,所以不管范围取多宽都不会为100%。

不过只要取±

3σ的幅度,就会包含99.73%的数据。

也就是说,工序上测量了尺寸或温度,计算其平均数和标准偏差,以平均数为中心的±

3σ的范围内就会包含99.73%的测定值。

σ的计算使用了无偏方差,再加上测定的数据够多,那么,即可推定:

以前生产的产品以及以后将要生产的产品(总体)有99.73%的几率,包含在以其平均数为中心的±

3σの的范围内。

哪怕只是测量了少量的数据,但只要掌握了该数据的特征,即可轻易地推断按照那种加工方法,数值会有多少偏差的可能性。

4.2 工序能力指数(Cp,Cpk)

使用正太分布和标准偏差的关系,以及该工序的規格、公差,可以计算出该工序在规定的规格限度内生产产品的能力是多少。

这个叫做工序能力指数。

4.2.1Cp値

假设以下各个符号分别代表:

      USL:

规格上限

LSL:

规格下限

μ:

总体平均的推定値

σ:

总体标准偏差的推定値

      前面已经进行了说明,总体平均的推定値和样本的平均数几乎相同,总体标准偏差的推定值是从样本的无偏方差计算出来的标准偏差。

于是,Cp値的计算公式如下:

也就是说该公式计算的是公差上限和公差下限之间的范围所占6σ(正太分布和标准偏差的关系时出现过的±

3σ)的比例。

如果为1,是不是公差范围和6σ就正好相同,就有99.73%的几率生产出来的产品是合格的呢?

请注意,样本分布的中心是测量的平均数,不一定就与公差下限和公差上限之间的中心一致。

平均数哪怕是有一点偏离了中心,马上就会发生不合格。

一般情况下通常是再多考虑±

1σ,Cp値>

1.33左右,工序能力判断为没有问题。

Cp値如果小于1,工序能力则不能满足算出来的公差,就容易产生不合格品,到时不得不采取选别等手段。

Cp値如果超过1.7则工序能力过剩,就需要考虑提高ピッチ(每分钟生产数量)降低资材治工具成本等。

如果只有单边规格时,使用总体平均的推定値按照以下计算。

             

只有规格下限值时              只有规格上限值时

4.2.1Cpk値

在实际的工序上,规格范围的中心值和样本的平均数不可能一致。

为什么这么说呢,因为Cp値只能对偏差幅度是否在公差范围内进行评价,也只知道即使Cp値非常大,“只要认真调整机器追求规格范围的中心,机器的能力就够了”,但是,如果无法随时调整至中心值,还是会发生不良。

考虑到目标值的调整,由于Cp値工序能力的评价过大,使用总体平均的推定値,考虑了目标值的偏离,这就是Cpk値,计算方法如下:

min()指的是里面的公式的值比较小的一方。

由于是这种计算方法,如果总体平均的推定値偏离了規格范围的中心,受此影响Cpk値会变小。

如果总体平均的推定値超出了公差范围,Cpk値就会“-”。

一般情况下Cpk値大致在1.33以上视为恰当,不管怎样,首先重要的是努力让Cpk值在1以上。

5.检验

假设有个工序,对该工序规定了尺寸、硬度等所要求的规格。

假设因为某个原因,对工序的一部分进行了变更。

有时会因为无法得到相同的零部件或工具而使用替代品。

有时为了降低成本,会使用便宜的材料或零部件。

有时为了提高品质,会使用更精细的零部件或工具。

也许有时还会改变作业方法或更新机器。

以上这些情况,一般都是确认是否发生了4M变动{Man(人),Machine(機械),Material(材料),Method(方法)},并把变更的地方记录下来。

把变更的地方记录下来倒是很简单。

那么,变更后的工序和以前相比,是不是真的没变化?

还是变得更好了?

又或是可能变差了?

有没有用数值可以确认的方法,而不是凭感觉来判断?

有一种统计方面的方法可以用数值来对此进行评价和确认。

这种方法就叫检验。

某个工序其所要求的品质,通常都是用数值来规定的规格。

在4.推定里已经对“使用该工序的测量值来计算代表値(平均値)和偏差(标准偏差),来评价工序实际能力与規格之间的差距”做了讲解。

如果工序的代表值或偏差可以和规格做比较,那么,理论上4M变动前和变动后是可以用数值来比较的。

接下来将对以上提到的比较方法,即:

方差的检验和平均值差异的检验进行说明。

关于检验的計算方法这里就不做说明了。

因为现在有的是电脑或软件,只要往里面输入测量值或规格,就可以自动地计算出平均值、标准偏差、工序能力、检验。

在实际计算时,使用这些工具算出来的结果更准确效率更高。

本文只对和工序有关的大家在使用统计手法时至少需要掌握的公式和知识进行说明。

比方说,只要向microsoftexcel里输入数据,就有两种计算标准偏差的“函数”,电脑里对两种函数都有各自说明和公式,并且还写有以下说明:

---

STDEVP函数

统计:

假设其参数为整个(样本)总体,计算总体的标准偏差。

STDEV函数

假设其参数是总体中的样本,根据样本计算总体的标准偏差的推定值。

读到这里大家应该明白了在计算工序采取的尺寸数据的标准偏差时,使用哪个函数才是正确的。

5.12种总体方差的检验(F检验)

前面

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2