统计学基础知识.ppt

资源描述

统计学基础知识.ppt

《统计学基础知识.ppt》由会员分享，可在线阅读，更多相关《统计学基础知识.ppt（90页珍藏版）》请在冰点文库上搜索。

统计学基础知识.ppt

整理ppt,1,統計學基礎知識,整理ppt,2,第四囘統計學初步,什麽是統計學統計學的概念及統計思想導入基本統計量：

均值、方差和標準差統計學解決問題的方式工業生產過程中的統計技術練習：

分析一組資料的統計分佈和正態概率紙的應用。

整理ppt,3,質量管理的第一基礎,統計學是什麽？

整理ppt,4,统计是什么？

统计是人类思维的一个归纳过程站在一个路口，看到每过去20辆小轿车时，也有100辆自行车通过而且平均每10个轿车载有12个人于是，你认为小汽车和自行车在这个路口的运载能力为24:

100这是一个典型的统计思维过程,整理ppt,5,统计是什么？

一般来说，统计先从现实世界收集数据（信息），如观测路口的交通然后，根据数据作出判断，称为模型模型是从数据产生的模型也需要根据新的信息来改进不存在完美的模型模型的最终结局都是被更能够说明现实世界的新模型所取代,整理ppt,6,统计学可以应用于几乎所有的科學领域,精算，农业，动物学，人类学，考古学，审计学，晶体学，人口统计学，牙医学，生态学，经济计量学，教育学，选举预测和策划，工程，流行病学，金融，水产渔业研究，遗传学，地理学，地质学，历史研究，人类遗传学，水文学，工业，法律，语言学，文学，劳动力计划，管理科学，市场营销学，医学诊断，气象学，军事科学，核材料安全管理，眼科学，制药学，物理学，政治学，心理学，心理物理学，质量控制，宗教研究，社会学，调查抽样，分类学，气象改善，博彩等。

整理ppt,7,统计是什么？

一句话，统计学（statistics）是用以收集数据，分析数据和由数据得出结论的一组概念、原则和方法。

整理ppt,8,以归纳为主要思维方式的统计统计可应用于各个不同学科，在有些学科已经有其特有的方法和特点；如生物统计（biostatistics）、经济计量学（econometrics）以及目前很热门的生物信息（bioinformation）和数据挖掘（DataMining）的方法主体都是统计質量管理和工業生産領域是統計學的一大重要應用領域,整理ppt,9,现实中的随机性和规律性，概率和机会,一些现象既有规律性又有随机性（randomness）肺癌患者中（主动或被动）吸烟的比例较大，这体现了规律性而绝非每个吸烟者都会患肺癌，这体现了随机性,整理ppt,10,现实中的随机性和规律性，概率和机会,再如，一般来说，白种人身材比黄种人要高些，这就是规律性但对于具体的一个白人和一个黄种人，就很难说谁高谁矮了，这体现随机性,整理ppt,11,我們在前面的課程中，引進了概率隨機變量及其分佈常用的統計分佈這些都是統計學研究的數學基礎，也是質量管理的重要知識準備。

統計學研究的基礎在於,整理ppt,12,統計學的基本工具,統計變量和數据,整理ppt,13,变量和数据,一节火车车厢有多少坐位是一个固定的数目，称为常数（constant）或者常量。

但是，开车后，坐在这节车厢的旅客有多少就没准了。

这有随机性。

该车厢的乘客数为变量（variable）。

整理ppt,14,統計变量和数据,一个学校的注册在校男女生比例是固定的，为常量但是，该校任意一群学生的男女生比例就不一定和全校的比例一样了，它为变量（variable）。

整理ppt,15,有了变量，何谓数据？

不同机构调查所得到的太原市收入万元以上市民的比例都不一样，这是变量而这些调查产生一些数目，这些数目就是数据（data）数据是关于变量的观测值。

數據是什麽？

整理ppt,16,統計数据,通过数据可验证有关的理论或假定。

比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过50%通过抽样，可以检验某批产品是否合格等等,整理ppt,17,变量之间的关系,现实世界紧密联系的人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等不讨论变量之间的关系，就无从谈起任何有深度的应用，统计的基本概念就仅仅是摆设而已。

整理ppt,18,定量变量间的关系,例广告投入和销售之间的关系。

下表显示了某企业广告投入和销售额之间的关系（万元）。

整理ppt,19,横坐标代表广告投入，而纵坐标代表销售收入。

看得出有何种关系吗？

整理ppt,20,定量变量间的关系,能否从该数据回答下面问题：

这两个变量是否有关系？

如果有，它们的关系是否显著？

这些关系是什么关系，能否用数学模型来描述？

这个关系是否带有普遍性？

这个关系是不是因果关系？

整理ppt,21,定量变量间的关系,关于因果关系在可控制的试验中，较容易找到因果关系；比如治疗方式和疗效的关系等但是，一般来说，变量之间有关系这个事实并不意味着一定存在明确的因果关系。

整理ppt,22,思考一下,工業生産中的變量關係一般會是怎樣的？

生産出一個不合格品和什麽因素有關係？

必然的還是偶然的？

公鷄打鳴和太陽升起的關係,整理ppt,23,樣本和總體,統計學的基本概念,整理ppt,24,数据是怎样得到的？

在自然的未被控制的条件下观测到的数据，称为观测数据（observationaldata）。

在人工干预和操作情况下收集的数据就称为试验数据（experimentaldata）。

請你根據自己的工作，举出观测数据和试验数据的例子。

整理ppt,25,个体、总体和样本,需要调查太原市民对交通规则的观点；对象是所有市民，目的是希望知道市民中对该问题的不同看法各自占有的比例显然，不可能去问所有的北京市民，而只能够问一部分；并且根据这一部分的观点来理解整个太原市民的总体观点。

整理ppt,26,个体、总体和样本,在这个例子中，单个太原市民的观点称为个体（element）所有太原市民对这个问题的观点为一个总体（population），总体是包含所有要研究的个体的集合。

整理ppt,27,个体、总体和样本,而调查时问到的那部分市民的观点（也就是部分个体）称为该总体的一个样本（sample），是总体的一部分。

也有可能试图调查所有的人（比如人口普查），那叫做普查（census）。

整理ppt,28,工業管理,通常情況下，工業生産中的縂體指一個檢驗批，要求在相同時間、地點、設備、技術和原材料儅要素前提下，完成生産。

樣本是指部分個體的集合；單件產品是研究的個體。

整理ppt,29,均值、方差和標準差,基本統計量,整理ppt,30,在对数据进行深入加工之前，总应该对数据有所印象。

可以借助于图形和简单的运算，来了解数据的一些特征。

由于数据是从总体中产生的，其特征也反映了总体的特征。

对数据的描述也是对其总体的一个近似的描述。

整理ppt,31,如何用图来表示数据？

整理ppt,32,直方图,整理ppt,33,盒型图,盒子的中间横线是数据的中位数（median），封闭盒子的上下两横线（边）为上下四分位数（点）；按照SPSS的默认选项，如果所有样本中的数目都在离四分位点1.5倍盒子长度之内，则线的端点为最大和最小值，否则线长就是1.5倍的盒子长度（盒子长度称为四分位间距），在其外面的度量单独点出,整理ppt,34,散点图,整理ppt,35,饼图,整理ppt,36,如何用少量数字来概括数据？

大量的数字既繁琐又不直观；需要对数据做人们时间和耐心所允许的简化我们可以用“平均”，“差距”或百分比等来概括大量数字。

由于定性变量主要是计数，比较简单，常用的概括就是比例或百分比。

下面主要介绍关于定量变量的数字描述。

整理ppt,37,如何用少量数字来概括数据？

可用少量所谓汇总统计量或概括统计量（summarystatistic）来描述定量变量的数据。

这些数字是从样本数据得来的，因而也是样本的函数，任何样本的函数，只要不包含总体的未知参数，都称为统计量（statistic）。

样本的随机性决定统计量的随机性（统计量也是随机变量）,整理ppt,38,如何用少量数字来概括数据？

概括统计量经常对应于总体的无法观测到的某些参数。

这时，统计量可作为这些参数的估计。

一些统计量还可以用来检验样本和假设的总体是否一致。

整理ppt,39,如何用少量数字来概括数据？

注：

一些统计量前面有时加上“样本”二字，以区别于总体的同名参数。

如“样本均值”和“样本标准差”，以区别于总体均值和总体标准差；但在不会混淆时可以只说“均值”和“标准差”。

整理ppt,40,数据的“位置”,数据有位置吗？

这里三个数据的位置一样吗？

整理ppt,41,数据的“位置”,“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心（center或centertendency）。

和这种“位置”有关的统计量就称为位置统计量（locationstatistic）。

位置统计量当然不一定都是描述“中心”了，比如后面要讲的k百分位数（或k分位数）。

整理ppt,42,数据的“位置”,最常用的位置统计量就是小学时所学到的算术平均数，它在统计中叫做均值（mean）；严格地说叫做样本均值（samplemean），以区别于总体均值。

如果记样本中的观测值为x1,xn，则样本均值定义为,整理ppt,43,（样本）中位数（median）是数据按照大小排列之后位于中间的那个数（如果样本量为奇数），或者中间两个数目的平均（如果样本量为偶数）。

由于中位数不易被极端值影响，所以中位数比均值稳健（robust）。

数据的“位置”,整理ppt,44,上下四分位数（或分别称为第一四分位数和第三四分位数，firstquantile,thirdquantile）则分别位于（按大小排列的）数据的上下四分之一的地方。

数据的“位置”,整理ppt,45,数据的“位置”,一般地还称上四分位数为75百分位数（75pecentile，有75的观测值小于它），下四分位数为25百分位数（有25的观测值小于它）。

一般地，k百分位数（k-pecentile）意味着有k的观测值小于它。

如果令a=k%，则k百分位数也称为a分位数（a-quantile）。

样本中出现最多的数目，称为众数（mode）,整理ppt,46,数据的“尺度”,这两个数据“胖瘦”一样吗？

整理ppt,47,数据的“尺度”,数据中数目的分散程度由尺度统计量（scalestatistic）来描述。

尺度统计量是描述数据散布，即描述集中与分散程度或变化（spread或variability）的度量。

整理ppt,48,数据的“尺度”,从前面两个高三男生身高数据的盒形图。

左边的数据平均要高些，但右边的数据散布范围要小得多。

统计中有许多尺度统计量。

一般来说，数据越分散，尺度统计量的值越大。

整理ppt,49,数据的“尺度”,极差（range）；就是极大值和极小值之间的差。

前面两个高三男生身高数据的极差分别为50cm和32cm。

盒形图盒子的长度为两个四分位数之差，称为四分位数极差或四分位间距（interquantilerange）；它描述了中间半数观测值的散布情况。

极差和四分位极差实际上各自只依赖于两个值，信息量太少。

整理ppt,50,数据的“尺度”,另一个常用的尺度统计量为（样本）标准差（standarddeviation）。

度量样本中各数值到均值距离的平均。

标准差实际上是方差（variance）的平方根。

如果记样本中的观测值为x1,xn，则样本方差为,整理ppt,51,数据的“尺度”,两个均值一样，但右边的要“胖”些，方差为左边的一倍,整理ppt,52,数据的标准得分,假定两个水平类似的班级（一班和二班）上同一门课，但是由于两个任课老师的评分标准不同，使得两个班成绩的均值和标准差都不一样。

整理ppt,53,数据的标准得分,一班分数的均值和标准差分别为78.53和9.43，而二班的均值和标准差分别为70.19和7.00。

那么得到90分的一班的张颖是不是比得到82分的二班的刘威成绩更好呢？

怎么比较才能合理呢？

整理ppt,54,数据的标准得分,虽然这种均值和标准差不同的数据不能够直接比较，但是可以把它们进行标准化，再比较标准化后的数据。

一个标准化的方法是把某样本原始观测值（亦称得分，score）和该样本均值之差除以该样本的标准差；得到的度量称为标准得分（standardscore，又称为z-score）。

整理ppt,55,数据的标准得分,即，某观测值xi的标准得分定义为,整理ppt,56,数据的标准得分,在我们的例子中，张颖的标准得分为（90-78.53）/9.431.22，而刘威的标准得分为（82-70.19）/71.69。

显然如果两个班级平均水平差不多，刘疏的成绩应该优于张颖的成绩；这是在标准化之前的数据中不易看到的。

整理ppt,57,可以看出，原始数据是在各自的均值附近，而散布也不一样。

但它们的标准得分则在0周围散布，而且散布也差不多。

实际上，任何样本经过这样的标准化后，就都变换成均值为0、方差为1的样本。

标准化后不同样本观测值的比较只有相对意义，没有绝对意义。

整理ppt,58,直方图,统计学在质量管理中的应用,整理ppt,59,频数分布表,频数分布表是一种把分散和不规则的数据，整理成一个能顺着其度量的尺度，清楚地显示出该数据的集中趋势和离散程度的一种统计方法。

整理ppt,60,频数分布表,测定100只螺栓的外径所得到的100个计量值数据（略）。

频数分布表,整理ppt,61,频数分布表编制步骤1,1、从数据中找出最小值S和最大值L。

S=11.45L=12.35,整理ppt,62,频数分布表编制步骤2,2、决定组数。

m=1+3.3lgn当n=100时m=1+3.3lg100=1+6.6=7.68,整理ppt,63,频数分布表编制步骤3,3、计算组距。

组距h=,全距,组数,L-S,m,组距尽可能取为10、5、1、0.5、0.1、0.05,组距h=0.11250.1,12.35-11.45,8,0.9,8,整理ppt,64,频数分布表编制步骤4,4、求界限值。

在划分界限时，必须明确端点的归属，所以在决定组的界限值时，可以从每一个界限值上加上或减去1/2测量单位。

整理ppt,65,频数分布表编制步骤5,5、计算组中值。

各组的下界限值与上界限值的平均值称为该组的组中值。

整理ppt,66,频数分布表编制步骤6,6、统计频数。

落在各组中的数据的个数称为频数。

整理ppt,67,频数分布表编制步骤7,7、列频数分布表。

整理ppt,68,频数直方图,以坐标横轴表示组距，坐标纵轴表示频数，所画出的矩形图称为频数直方图，简称直方图。

外径尺寸,11.40511.50511.60511.70511.80511.90512.00512.10512.20512.30512.405,频数,整理ppt,69,直方图在质量管理中应用,1、判断分布类型,产品质量特性值的分布，一般都是服从正态分布或近似正态分布。

当产品质量特性值的分布不具有正态性时，往往是生产过程不稳定，或生产工序的加工能力不足。

因而，由产品质量特性值所作的直方图的形状，可以推测生产过程是否稳定，或工序能力是否充足，由此可对产品的质量状况作出初步判断。

根据产品质量特性值的频数分布，可将直方图分为正常型直方图和异常型直方图两种类型。

整理ppt,70,正常型直方图,看直方图时应着眼于图形的整体形状，根据形状判断它是正常型还是异常型。

正常型直方图具有“中间高，两边低，左右对称”的特征，它的形状像“山”，字。

因此，根据产品质量特性值的频数分布所画出来的直方图是正常型时，就可初步判断为生产过程是稳定的，或工序加工能力是充足的。

整理ppt,71,不正常直方图,孤岛型直方图,双峰型直方图,折齿型直方图,绝壁型直方图,整理ppt,72,孤岛型直方图,在主体直方图的左侧或右侧出现孤立的小块，像一个孤立的小岛。

出现孤岛型直方图，说明有特殊事件发生。

造成原因可能是一时原材料发生变化，或者一段时间内设备发生故障，或者短时间内由不熟练的工人替班等。

所以，只要找出原因，就能使直方图恢复到正常型。

整理ppt,73,双峰型直方图,双峰型直方图是指在直方图中有左右两个峰，出现双峰型直方图，这是由于观测值来自两个总体、两种分布，数据混在一起。

往往是由于将两个工人或两台机床等加工的相同规格的产品混在一起所造成的。

整理ppt,74,折齿型直方图,折齿型直方图形状凹凸相隔，象梳子折断齿一样。

出现折齿型直方图，多数是由于测量方法，或读数存在问题，或处理数据时分组不适当等原因造成。

应重新收集和整理数据。

整理ppt,75,绝壁型直方图,绝壁型直方图左右不对称，并且其中一侧像高山绝壁的形状，当用剔除了不合格品的产品质量特性值数据作直方图时，往往会出现绝壁型直方图。

此外，亦可能是操作者的工作习惯，习惯于偏标准下限，于是出现左边绝壁的直方图。

整理ppt,76,偏态型直方图,某种原因使下（上）限受到限制时，容易发生“偏左型”（偏右型）。

整理ppt,77,平顶型直方图,与双峰型类似，由于多个总体、多种分布混在一起。

整理ppt,78,直方图与标准比较,对于正常型直方图，将其分布范围B=S，L（S为一批数据中的最小值，L为一批数据中的最大值）与标准范围T=SL，Su，SL为标准下界限，Su为标准上界限）进行比较，就可以看出产品质量特性值的分布是否在标准范围内，从而可以了解生产过程或工序加工能力是否处于所希望的状态。

为了方便，可在直方图上标出标准下界限值和标准上界限值。

整理ppt,79,直方图在标准范围内的情况,当产品质量特性值符合规定标准时，其对应的直方图，必定在标准范围之内。

符合规定的直方图大致有下面四种类型：

整理ppt,80,直方图在标准范围内的情况,直方图的分布范围B位于标准范围T内，旦有余量;直方图的分布中心与标准中心近似重合，这是理想的直方图。

此时，全部产品合格，工序处于正常管理状态。

整理ppt,81,直方图在标准范围内的情况,直方图的分布范围B位于标准范围T内，数据变化仍比较集中，但分布中心偏移标准中心，并且直方图的一侧已达到标准界限，此时状态稍有变化，产品就可能超出标准，出现不合格品。

因此，需要采取措施，使得分布中心与标准中心重合。

整理ppt,82,直方图在标准范围内的情况,直方图的分布范围B没有超出标准范围T，但没有余量。

此时分布中心稍有偏移便会出现不合格品，所以应及时采取措施，缩小产品质量特性值的分布范围。

整理ppt,83,直方图在标准范围内的情况,产品质量特性值的分布非常集中，致使直方图的分布范围B与标准范围T之间的余量过大。

此时，可对原材料、设备、工艺等适当放宽要求，从而降低生产成本;或者加严标准，提高产品的性能，以利于组装等,T,B,SL（S）,Su（L）,整理ppt,84,直方图超出标准范围内的情况,产品质量特性值的分布中心向左（或向右偏离标准中心，致使直方图分布范围B的下界限（上界限）超出标准范围T的下界限（或上界限），因而在下界限（或上界限）出现不合格品，此时，应设法提高（或降低）产品质量特性值的平均值，使直方图的分布中心向右（或向左）移动，从而使直方图的分布范围完全落在标准范围之内。

T,B,（S）SL,（L）Su,整理ppt,85,直方图超出标准范围内的情况,直方图的分布范围B超出标准范围T，此时，在标准上界限和下界限都出现不合格品。

这种情况通常是由于产品质量特性值的标准差太大，这时，应及时采取技术措施，降低分布的标准差。

如果属于标准定得不合理，可以放宽标准范围。

T,B,（S）SL,Su（L）,整理ppt,86,直方图超出标准范围内的情况,直方图的分布范围B大大超出标准范围T，此时已出现大量不合格品，必须立即分析原因，采取紧急措施;如果标准允许改变，就重新修订标准。

T,B,（S）SL,Su（L）,整理ppt,87,直方图的分层比较,当直方图出现非正常的奇异形状，特别是出现双峰型直方图时，应将收集到的产品质量特性值数据，按某个条件，如设备、操作人员、作业方法、所用原材料、生产环境等因素分成两个以上的组，通常把这样划分成的组称为层，由此作出的直方图称为分层直方图。

通过分层直方图，探讨造成直方图异常的原因，从而比较不同设备、不同原材料、不同操作方法等对产品质量特性值影响的差异。

轴承外径直方图按工人分层直方图改善后的直方图,整理ppt,88,直方图的分层比较,整理ppt,89,直方图的缺点,0.090.080.070.060.01,波动图,直方图,时间,整理ppt,90,山西财经大学米子川,统计学如何改变我们处理质量问题的思路？

展开阅读全文