影响置信区间宽窄因素的分析已处理.docx

资源描述

影响置信区间宽窄因素的分析已处理.docx

《影响置信区间宽窄因素的分析已处理.docx》由会员分享，可在线阅读，更多相关《影响置信区间宽窄因素的分析已处理.docx（17页珍藏版）》请在冰点文库上搜索。

影响置信区间宽窄因素的分析已处理.docx

影响置信区间宽窄因素的分析已处理

影响置信区间宽窄因素的分析

山东财经大学

本科毕业论文设计

题目:

影响置信区间宽窄因素的分析

学院数学与数量经济学院

专业数学与应用数学班级00000000000000学号0000000000姓名000000

指导教师000000

山东财经大学教务处制

二O一二年五月

影响置信区间宽窄因素的分析

摘要

在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。

置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”,这个概率被称为置信水平。

置信水平一般用百分比表示,因此置信水平0.95上的置信区间也可以表达为:

95%置信区间。

置信区间的两端被称为置信极限。

影响置信区间宽度的因素:

样本平均数,要求的置信水平,样本标准差,样本容量。

对一个给定情形的估计来说,其他因素不变,置信水平越高,置信区间宽度越长;其他因素不变,样本量越多,置信区间宽度越短。

关键词:

置信区间;因素;;

Instatistics,aconfidenceintervalCIisatypeofintervalestimateofapopulationparameterandisusedtoindicatethereliabilityofanestimate.Itisanobservedintervali.e.itiscalculatedfromtheobservations,inprincipledifferentfromsampletosample,thatfrequentlyincludestheparameterofinterestiftheexperimentisrepeated.Howfrequentlytheobservedintervalcontainstheparameterisdeterminedbytheconfidencelevelorconfidencecoefficient.Morespecifically,themeaningoftheterm"confidencelevel"isthat,ifconfidenceintervalsareconstructedacrossmanyseparatedataanalysesofrepeatedandpossiblydifferentexperiments,theproportionofsuchintervalsthatcontainthetruevalueoftheparameterwillmatchtheconfidencelevel;thisisguaranteedbythereasoningunderlyingtheconstructionofconfidenceintervals.[1][2][3]Whereastwo-sidedconfidencelimitsformaconfidenceinterval,theirone-sidedcounterpartsarereferredtoaslowerorupperconfidencebounds.

Keywords:

;;

一、引言1

二、置信区间的定义1

（一）置信区间的定义来源1

（二）置信区间的概念2

（三）置信区间估计种类3

三、置信区间求法及应用4

（一）置信区间计算方法4

（二）关于置信区间的宽窄5

1.征税范围过窄5

2.计税依据不统一5

3.税率不合理5

4.纳税单位个人对房产税纳税意识淡薄,偷逃税手段花样多。

四、置信区间的影响因素5

（一）置信水平5

1.置信水平概念5

2.置信水平意义6

3.置信水平对置信区间的影响6

（二）样本数量7

1.样本容量的确定7

2.样本量对置信区间的影响7

（三）样本量对置信水平的影响8

五、7

（一）8

（二）8

（三）8

（四）8

1.8

2.8

3.8

4.8

参考文献9

一、引言

置信区间是指由样本统计量所构造的总体参数的估计区间。

在统计学中,一个概率样本的置信区间（Confidenceinterval）是对这个样本的某个总体参数的区间估计。

置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。

置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。

这个概率被称为置信水平。

举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是（50%,60%）,那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之五。

如例子中一样,置信水平一般用百分比表示,因此置信水平0.95上的置信空间也可以表达为:

95%置信区间。

置信区间的两端被称为置信极限。

对一个给定情形的估计来说,置信水平越高,所对应的置信区间就会越大。

置信区间一般指做参数估计时,参数以多大的概率落在某个区间之内,此概率称为置信度,此区间称为置信区间。

给定置信度后,置信区间一般不唯一,常见的做法是要求置信区间长度最小。

一般置信度取得比较大,因此,参数值落在置信区间外面的概率很小,一般可以认为是小概率事件,从而说明参数落在置信区间内的概率很大,因此是“可以有理由相信”的。

置信区间的定义

置信区间的定义来源

在分析和解决实际问题时,要取得分析对象的全部数据是非常困难的,很多时候也是根本不能实现的.比较可行的方法是从总体中抽取一定数量的样本,取得样本的测量数据,现通过样本数据对总体数据进行估计与分析.区间估计方法就是在已知样本状况时,估计总体值的可能区间的方法.

此类例子在实际中非常多,如要估计全国人口的平均身高,可在已取得一定量样本的情况下可以估计出全国人口的的身高范围.要估计消费者对某产品的满意程度,可采取抽样调查方式取得一部分样本,再根据此样本值估计出全部消费者和满意程度范围,一般这种估计要求有比较高的“可信程度”,如95%的可信度.（过高的可信程度需要更多的样本,导致抽样成本增高）

参数的点估计是用样本算出的一个具体的数值去估计未知参数,便于计算和使用,但点估计值仅仅是未知参数的一个近似值,它没有给出这个近似值的误差范围,使用起来把握不大.其精度如何点估计本身不能回答,需要由其分布来反映。

实际中,度量一个点估计的精度的最直观的方法就是给出未知参数的一个区间,让我们能较大把握地（其程度可用概率来度量之）相信未知参数的真值被含在这个区间内。

例如,在估计某湖泊中鱼的数量的问题中,若根据一个实际样本,利用最大似然估计法估计出鱼的数量为50000条,这种估计结果使用起来把握不大.实际上,鱼的数量的真值可能大于50000条,也可能小于50000条.且可能偏差较大若能给出一个估计区间,让我们能较大把握地相信鱼的数量的真值被含在这个区间内,这样的估计显然更有实用价值.

于是需要引入另一类估计即为区间估计,在区间估计理论中,被广泛接受的一种观点是置信区间,这是1934年,由统计学家J.奈曼Neymann所创立的一种严格的区间估计理论。

在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的。

根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量,称为置信概率,置信度或置信水平.

习惯上把置信水平记作,,这里是一个很小的正数,称为显著水平。

比如,某班级平均分数在75~85之间,置信水平是95%。

统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。

用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值。

我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。

置信区间的概念

定义2.1若由总体X的样本确定的两个统计量,则称为随机区间。

随机区间与常数区间不同,其长度与在数轴上的位置与样本有关。

当一旦获得样本值那么都是常数,为常数区间。

定义2.2设是总体X的一个未知参数,若存在随机区间,对于给定的,若满足

则称随机区间是的置信水平（置信度）为的双侧置信区间,称为置信度,为显著水平.

又分别称与为的双侧置信下限与双侧置信上限.

注:

1.置信度的含义:

在随机抽样中,若重复抽样多次,得到样本的多个样本值,对应每个样本值都确定了一个置信区间,每个这样的区间要么包含了的真值,要么不包含的真值.根据伯努利大数定理,当抽样次数充分大时,这些区间中包含的真值的频率接近于置信度即概率,即在这些区间中包含的真值的区间大约有个,不包含的真值的区间大约有个.例如,若令,重复抽样100次,则其中大约有95个区间包含的真值,大约有5个区间不包含的真值.

2.置信区间也是对未知参数的一种估计,区间的长度意味着误差,故区间估计与点估计是互补的两种参数估计.

3.置信度与估计精度是一对矛盾.置信度越大,置信区间包含的真值的概率就越大,但区间的长度就越大,对未知参数的估计精度就越差.反之,对参数的估计精度越高,置信区间长度就越小,包含的真值的概率就越低,置信度越小.一般准则是:

在保证置信度的条件下尽可能提高估计精度.

例如,通常可取显著水平,等.即取置信水平或0.95,0.9等.

根据一个实际样本,由给定的置信水平,我们求出一个尽可能小的区间,使满足

由于正态随机变量广泛存在,特别是很多产品的指标服从正态分布,我们重点研究一个正态总体情形数学期望和方差的区间估计。

设为总体的样本,、分别是样本均值和样本方差。

对于任意给定的,我们的任务是通过样本寻找一个区间,它以的概率包含总体的数学期望。

对已知的置信概率置信度,根据样本观测值来确定未知参数的置信区间,称为参数的置信区间估计。

在100%的置信度下,总体的均值会落在置信区间范围内。

由样本统计量所构造的总体参数的估计区间称为置信区间,置信区间又称估计区间,是用来估计参数的取值范围的。

常见的52%-64%,或8-12,就是置信区间（估计区间）。

1、对于具有特定的发生概率的随机变量,其特定的价值区间:

一个确定的数值范围（“一个区间”）。

2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。

3、该区间包含了参数θ真值的可信程度。

4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。

（三）置信区间估计种类

置信区间估计分为:

1、对正态总体均值的区间估计。

即已知样本的平均值,用样本均值估计总体均值在特定置信度下的置信区间。

1已知样本标准差等于总体标准差

2未知总体标准差

2、对正态总体方差的区间估计。

即已知样本的标准差,用样本标准差估计总体标准差在一定置信度下的置信区间。

1已知样本均值于总体均值

2未知总体标准差

3、对两个正态总体均值差的区间估计

1已知两个总体标准差

2未知总体标准差,但假设,其中与分别为两个正态分布的总体标准差

4、对两个正态总体方差比的区间估计。

1已知两个总体的均值

2未知总体均值

置信区间为100%代表什么?

置信区间值的范围,源自样本统计量,可能包含未知总体参数的值。

由于它们的随机性,来自给定总体的两个样本一般不可能生成相同的置信区间。

但是如果将样本重复许多次,则所获得的特定百分比的置信区间会包含未知的总体参数。

这些包含参数的置信区间的百分比是区间的置信水平。

例如,假设您想知道汽车装配线完成一辆车所需的平均时间。

您抽取一个完工汽车的样本,记录它们在装配线上所用的时间,然后使用单样本过程获得一个所有汽车在装配线上所用平均时间量的95%置信区间。

由于从所有可能的样本构造的置信区间中有95%的置信区间会包含总体参数,因而可以断定所有汽车在装配线上所用平均时间量将落在区间端点之间,这些端点称为区间限。

创建置信区间类似于向一个具有未知但固定位置的目标撒网。

95%置信区间表明来自同一总体的20个样本中有19个95%会生成包含总体参数的置信区间。

置信区间为100%表示所有点都落在该区间内。

三、置信区间求法及应用

（一）置信区间计算方法

寻求置信区间的基本思想:

在点估计的基础上,构造合适的函数,并针对给定的置信度导出置信区间置信区间是按下列三步计算出来的:

第一步:

求一个样本的均值。

第二步:

计算出抽样误差。

人们经过实践,通常认为调查:

100个样本的抽样误差为±10%

500个样本的抽样误差为±5%

1,200个样本时的抽样误差为±3%

第三步:

用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。

对于给定的置信水平,根据Z的分布,确定一个区间,使得Z取值于该区间的概率为

置信水平.

对给定的置信水平,查正态分布表得,使

从中解得:

于是所求的置信区间为

也可简记为

求置信区间的一般步骤:

1选取未知参数的某个较优估计量;

2围绕构造一个依赖于样本与参数的函数

3对给定的置信水平,确定与,使

通常可选取满足的与,在常用分布情况下,这可由分位数表查得;

4对不等式作恒等变形后化为

则就是的置信度为的双侧置信区间。

设总体其中,未知,是取自总体X的一个样本.

此时可用的无偏估计代替,构造统计量

从定理知对给定的置信水平,由

即因此,均值的置信区间为

（二）关于置信区间的宽窄

窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息。

假设全班考试的平均分数为65分,则:

置信区间间隔宽窄度?

表?

达?

的?

意?

思

0-100分100?

宽等于什么也没告诉你

30-80分50?

较窄你能估出大概的平均分了（55分）

60-70分10?

窄你几乎能判定全班的平均分了（65分）

四、置信区间的影响因素

（一）置信水平α

1.置信水平的概念

置信系数是区间估计理论中最为基本的概念。

奈曼以概率的频率解释为出发点,认为被估计的是一未知但确定的量,而样本X是随机的。

区间是否真包含待估计的,取决于所抽得的样本X。

因此,区间只能以一定的概率包含未知的。

对于不同的,之值可以不同,对不同的取的最小值（）称为区间的置信系数。

与此相应,区间称为的一个置信区间。

这个名词在直观上可以理解为:

对于“区间包含”这个推断,可以给予一定程度的相信,其程度则由置信系数表示。

对的上、下限估计有类似的概念,以下限为例,称AX）为的一个置信下限,若一旦有了样本,就认为不小于,或者说,把估计在无穷区间内。

"不小于"这论断正确的概率为。

对不同的取的最小值（）称为置信下限的置信系数。

在数理统计中,常称不超过置信系数的任何非负数为置信水平。

置信水平Confidencelevel

置信水平表示样本统计值的精确度,它是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。

置信区间越大,置信水平越高。

比如置信区间为[a,b]

位置参数落在该区间的概率就是置信度1-a

而显著性水平就是落在区间外面的概率。

置信区间越大,落在区间内的概率越大,置信水平就越高。

通常,当我们要想利用一组样本获得某个趋势时（为简单起见假设是线性趋势）,斜率和截距是未知参数,我们只能得到未知参数的点估计值,即斜率和截距的近似值,没有给出这个近似值的误差范围,而置信区间就是要得到参数以某个置信度1-a（就是可能性）落入的区间。

置信区间的中心是点估计值。

置信水平讲的是落在置信区间可能性。

需要指出的是,对同一个参数,给定样本,给定置信水平,置信区间也不是唯一的。

一个置信水平对应（即可找到）多个（无数）置信区间,一个置信区间只有一个置信水平。

关键是对一个置信水平找最窄置信区间。

置信水平的大小是根据实际需要选定的。

真实数据往往是实际上不能获知的,我们只能进行估计,估计的结果是给出一对数据,比如从1到1.5,真实的值落在1到1.5之间的可能性是95%（也有5%的可能性在这区间之外的）。

区间是由抽样的数据根据大样定律结合查表得来的。

区间越小精度越高,区间越大置信度越高。

比如猜这个女孩的年龄,你给出区间是20-25,这个区间很小置信度很低但精度就很高,你说在8岁到80岁之间,那是百分百的置信度了不过精度太低毫无意义。

95%的置信度是一般通用的。

2.置信水平的意义

在置信区间为99%,阿尔法取1.5的情况下是什么意思?

首先应该明确的是“置信区间”是一个区间,一个范围。

某件随机变量的值落在这个取值范围内的概率（可能性）是“置信水平”。

而置信水平显著性水平。

其中,显著性水平“阿尔法”（通常是一个微大于0的百分比,如5%,10%）。

通常,人们预先给自己一个心理承受能力,最先人为地设定比如“阿尔法”5%,那么接下来人们想寻找某随机变量落在哪个范围内的可能性是1-5%95%。

换句话说,一旦置信区间确定,那么我们可以认为某随机变量有95%的会取值于该置信区间。

置信水平是指总体参数值落在样本统计值某一区内的概率,置信区间越大,置信水平不就越高吗?

通俗点讲的话,置信水平即是指可靠度,也就是表征一个结论的正确程度,置信水平越高,结论越可靠。

放在置信区间上来讲,置信水平表征实际值落在置信区间的概率,显然置信区间越大,落在置信区间的概率越大,则置信水平越高。

注意置信度和置信水平的不同点,先有置信度才有置信区间,也就是先要给出置信度,我们才能求置信区间,因为不同的置信度,置信区间是一定不同的;而先有置信区间,才能有置信水平,只有先要求出或给出置信区间,我们才能求对应的置信水平。

置信度不就是置信水平的别名么?

这个怎么理解呢?

置信度不是置信水平,由于做区间估计时,我们估计的是一个区间,而实际情况真值肯定是个常数,不可能是一个区间,所以为了说明我们估计的准确程度,需要提供一个评定标准,这样就引出了置信度。

假如我们说置信度是0.05,即是说,真值落在我们估计区间之外的概率是0.05,显然,置信度越高,真值落在我们估计区间之内的概率就应该越大,这时只有把置信区间取大,才能保证真值落在估计区间之内的概率增大。

即置信度越高,置信区间越大。

此时置信水平就指真值落在我们估计区间之内的概率,正好是1减去置信度。

注意置信度和置信水平都是表征估计准确程度的参数,所以置信度越高指置信度数值越小,置信水平越大,置信水平数值越大。

3.置信水平对置信区间的影响

置信水平对置信区间的影响:

在样本量相同的情况下,置信水平越高,置信区间越宽。

举例说明:

美国做了一项对总统工作满意度的调查。

在调查抽取的1,200人中,有60%的人赞扬了总统的工作,抽样误差为±3%,置信水平为95%;如果将抽样误差减少为±2.3%,置信水平降到为90%。

则两组数字的情况比较如下:

抽样误差置信水平置?

信?

区?

间间隔宽窄度

±3%?

95%?

60%±3%=57%-63%6宽

±2.3%90%60%±2.3%=57.7%-62.3%?

4.6窄由上表得出:

在样本量相同的情况下（都是1,200人）,置信水平越高95%,置信区间越宽。

样本数量

样本容量的确定

在实际应用中,应当在随机抽样前就确定所需抽取的样本容量。

抽取的样本容量过大,虽然可以提高统计推断的精度,但将增加不必要的人力、物力、费用和时间开支;

如果抽取的样本容量过小,则又会使统计推断的误差过大,推断结果就达不到必要的精度要求。

确定样本容量的原则:

在满足所需的置信度和允许误差条件（置信区间的d值）下,确定所需最低样本容量。

样本量对置信区间的影响

样本量对置信区间的影响:

在置信水平固定的情况下,样本量越多,置信区间越窄。

下面是经过实践计算的样本量与置信区间关系的变化表（假设置信水平相同）:

样本量置信区间?

间隔宽窄度

100?

50%?

70%20?

宽

800?

56.2%-63.2%7较窄

1,60057.5%?

63%5.5?

较窄

3,20058.5%?

62%3.5?

更窄

由上表得出:

在置信水平相同的情况下,样本量越多,置信区间越窄。

置信区间变窄的速度不像样本量增加的速度那么快,也就是说并不是样本量增加一倍,置信区间也变窄一倍（实践证明,样本量要增加4倍,置信区间才能变窄一倍）,所以当样本量达到一个量时（通常是1,200,如上例三个国家各抽了1,200个消费者）,就不再增加样本了。

通过置信区间的计算公式来验证置信区间与样本量的关系

置信区间样本的推断值±（可靠程度系数×样本量）

从上述公式中可以看出:

在其他因素不变的情况下,样本量越多（大）,置信区间越窄（小）。

通常,置信区间的半径与某种分布（比如t分布或正态分布）的临界值有关,而当样本容量已定时,该临界值随着置信水平的增加会变大,所以置信区间的半径变大,即置信区间变宽。

从实际意义上来讲也好理解,置信水平越高意味着要落在置信区间的概率越大,当然只有区间变宽了,才有可更大的可能保证落在里面。

样本量对置信水平的影响

影响:

在置信区间不变的情况下,样本量越多,置信水平越高。

举例说明:

置信区间样本量置信水平

52%-58%1,200?

95%

例:

美国Gallup（盖洛普）公司就消费者对美国产品质量的看法,对美国、德国和日本三国共计3,500名消费者（每个国家约1,200名）分别进行了调查,调查结果:

有55%的美国人认为美国产品质量好,而只有26%的德国人和17%的日本人持同样看法。

抽样误差为±3%,置信水平为95%。

则这三个国家消费者的置信区间分别为:

国别?

样本均值抽样误差?

置信区间

美国55%±3%?

52%-58%

德国26%±3%23%-29%

日本17%±3%14%-20%

我们可以得到未知参数的的任何置信水平的置信区间,并且置信水平越高,相应的置信区间平均长度越长。

也就是说,要想得到的区间估计可靠度高,区间长度就长,估计的精度就差。

实用中应在保证足够可靠的前提下,尽量使得区间的长度短一些。

五、置信区间应用

（一）

2003年,在一项对高校扩招的态度调查中,10所北京市院校对高校扩招的态度数据如下表（分数越高态度越积极）:

院校名态度平均值标准差人数

北京外国语学院3.810.6748

中国人民公安大学4.320.5550

中国青年政治学院4.080.6852

北京农学院3.980.6550

北京大学3.580.6450

清华大学3.780.7149

北方交通大学4.26

展开阅读全文