1统计学的意义Word格式文档下载.docx
《1统计学的意义Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《1统计学的意义Word格式文档下载.docx(49页珍藏版)》请在冰点文库上搜索。
新進員工薪水
例2:
某股票的股價變化
關於資料的離散程度,可使用的指標亦很多,這裡介紹二種:
a.全距b.變異數
a.全距(Range)
全距=(MaxXi-MinXi)
全距與眾數一般,均為一較粗略之指標,故在統計上較少用來衡量
離散程度。
b.變異數(Variance)
變異數係以每個資料數值與平均數之差異情況為計算基礎,其公式
為:
_
Σ(Xi-X)2ΣXi2_
S=─────────=───-X2
因S2與原資料的單位不同,為取一致,有時亦以其開根號S
(稱標準差)衡量離散程度。
例:
三組資料_
45,56,52,72,64,59X=58S=8.6
55,56,54,62,64,57X=58S=3.7
58,58,58,58,58,58X=58S=0
前面所提之集中趨勢及離散程度之指標,可讓我們大概了解資料
的散佈情形,但是為什麼只介紹這二種指標呢?
因為下面的定理提供
了一個很好的說明。
3.柴氏不等式(Chebyshev'
sInequality):
~t112;
在任何的資料分配中,觀察值落於平均數左右k個標準差內的比例
至少為(1-1/k)2。
即
_1
P(│Xi-X│<
ks)≧1-──
K2
其中
k>
1,s為所有樣本觀察值之標準差。
某人研究A股票之過去資料知其平均每日漲跌率為0.24%,標準差
為0.04%,今有消息指出,該股票明日將漲1%以上,在未有突發
狀況下此消息是否可信?
例二、假設去年高考二級統計人員共有360人報考,錄取10人,已知
考生平均分數為45.2分,標準差為1.4分,張三分數為54分,
請問張三是否錄取?
柴氏不等式最大好處是使用方便,幾乎沒有任何限制,只要有一組資
料存在,均可使用,但亦因如此它所計算出之結果較粗略。
而為了使
資料簡化作業後之結果更精確,考慮以機率模式來簡化。
參、機率~t72;
由於統計主要目的在處理不確定情況,因此各種事象出現及可能
發生的機會就不一樣,而為衡量其出現頻率,就須應用機率運算。
一、隨機實驗
若一實驗(事件發生過程)之可能發生結果事前無法預知,此種實
驗就稱為隨機實驗。
除了上述不可預知之特性外,通常隨機實驗還滿足下列性質:
1.實驗所有結果可以描述出來(樣本空間S)。
2.相同結果會重覆出現。
二、機率運算
機率運算主要利用集合運算性質,但主要觀念還是在古典機率上。
1.古典機率
古典方法主要之觀念在相對次數,即一事件A發生機率係以
n(A)
P(A)=──────來定義,即以事件可能發生次數占樣本空
n(S)
間所有之可能發生次數之比例。
例一、投擲一個骰子,3,6出現之機率。
例二、猜物品價格遊戲有四組,假設您為第四組,前三組各猜650元
、800元、及1300元,若您估算物品價格在600元至1400元
請問您會猜多少元?
-14-
例三、一長度為L之線段,由中隨意選一點剪斷,試問長線段至少為
短線段二倍長之機率為多少?
設長線段長a,則短線段為L-a,由題意知:
a>
2(L-a)則a>
2L/3,但因線段兩端均可,故
2L/32
機率為─────=───├──┼──┼──┤
L3
L
例四、若台北市翡翠水庫之平均高度為200公尺,蓄水湖面呈馬蹄型
試計算其可蓄水多少立方公尺?
依據古典機率的觀念,對機率的計算,給予下列之設定:
1.對一事件A,其發生之機率P(A)≧0
2.對樣本空間S,則P(S)=1
3.對二事件A、B,若A與B為互斥(即A∩B=φ),則
P(A∪B)=P(A)+P(B)-P(A∩B)
-15-
針對上述之設定,可推廣出機率的一些性質:
1.對任二事件A、B,若AB,則
P(A)≧P(B)
2.由1.亦可得任一事件A,則
1≧P(A)≧0
例:
82年三科曾請公假之人數有6人,請外勤之人數有8人,而公假
、外勤皆請之人數有4人,若三科共有員工14人,則82年曾請公
假或外勤之比率有多少?
二、條件機率
有些時候樣本空間的範圍太大,我們僅希望在一些特定的事件上
觀察其他事件或者是已知某事件已經發生的情況下去了解其他事件發
生的機率時,這種機率的計算,就稱為條件機率。
如在已知B事件發生下,則A事件發生的機率為:
P(A∩B)
P(A│B)=───────P(B)>0
P(B),
三科同仁請假之情形如下:
次│公事病外│
數│假假假勤│
────┼─────────────────┼───
股 長││
以 上│847213292│380
││
以 下│6616813848│420
合│150240270140│800
計││
則1.股長以上請病假之比率有多少?
132132/800 P(股長以上且請病假)
────=─────=─────────────
380380/800 P(請病假者)
2.在請事假中,股長以下的比率有多少?
一般在學統計者或以常理判斷,在已知一些資訊下,去獲取其他
資訊時會有較佳之結果,但事實上並非均為如此,如果當已知B事件
發生時,請問事件A發生之機率P(A)與條件機率P(A│B)何者較
大?
是P(A│B)≧P(A)嗎?
當對條件機率稍有了解後,就可進一步去探討它在應用上的一些
重要性質:
1.P(A∩B)=P(A)*P(B│A)[乘法原則]
三科欲隨機抽選一位同仁當公差,幫所有同仁提水,因此做了14
個籤其中一個有記號,並由抽中此籤者為公差,請問先抽與後抽
抽中之機率是否一樣?
2.貝氏定理:
人力資料調查,已知甲、乙及丙三人均審核50張調查表,依照以
前審核情形,第19、20題甲判別錯誤之機率為1%,乙為2%,
丙為1.5%,今有一份調查表之19、20題判別錯誤,但因編號遺
漏,無法得知是甲、乙、丙何人審核,請問此調查表是由乙審核
之機率有多少?
若B1,B2,‧‧‧,Bn滿足下列二個性質:
B1∪B2∪‧‧‧∪Bn=S
Bi∩Bj=φ,對所有i≠j
則
P(A∩Bk)
P(Bk│A)=────────────
P(A)
P(Bk)*P(A│Bk)
=───────────────
ΣP(Bi)*P(A│Bi)
解:
令事件A為調查表審核錯誤之事件,
事件B1為甲審核之事件,
事件B2為乙審核之事件,
事件B3為丙審核之事件,
P(B1)=1/3P(A│B1)=1/100
P(B2)=1/3且P(A│B2)=2/100
P(B3)=1/3P(A│B3)=1.5/100
依據貝氏定理知在已知調查表為審核錯誤之情形下,是由乙審核
之機率為:
P(A│B2)
P(B2│A)=────────────────────
P(A│B1)+P(A│B2)+P(A│B3)
2/100
1/100+2/100+1.5/100
24
=───=───
4.59
同理
1/1002
P(B1│A)=───────────────=───
1/100+2/100+1.5/1009
1.5/1003
P(B3│A)=───────────────=───
若甲審核60件,乙審核40件,丙審核50件則由三人審核錯誤之機
率又是多少?
3.獨立事件:
所謂獨立事件係指二(或多)件事件間,某事件發生之機率不受
其他事件已經發生影響。
即
P(A│B)=P(A)且P(B│A)=P(B)
則可得若
P(A∩B)=P(A)*P(B)=>
A與B二事件獨立。
一般人通常會將二事件獨立與二事件互斥混為一談,這是錯誤的,
獨立事件是一種「機率」的計算,而互斥則為「集合」的運算與機
率無關。
底下介紹一些有關獨立事件機率計算的例子:
例一:
大家樂天公牌「99」、「00」不會出;
本期已出過「38」,下
期再出「38」的機率較小?
例二:
在一次50人的聚會中,至少有二個人生日是同一天的機率有多
少?
人數│10│20│30│40│50│60
───┼──┼──┼──┼──┼──┼──
機率│0.12│0.41│0.71│0.89│0.97│0.99
三、機率模式
機率模式主要針對下列發生狀況,以一個機率數學式子來描述:
簡單或基本的現象,如投擲一個銅板、骰子等。
經常出現或近似的現象,如車禍的發生頻率、考試成績分布、身高
體重的分布等。
由前面二類已知之機率模式,再發展出統計應用之機率模式。
機率模式的好處在於以前所用來描述資料的方法仍不夠簡潔、精
細,如果資料發生的情況可以用一個機率式子來表示,則對資料的分
析,將會更深入更有效率。
但是,這是理想的情況,現實狀況中,由
於各種發生情形錯綜複雜,可以用機率模式完全表達的少之又少,故
在統計學內所提及之機率模式,僅能就已發展出的加以介紹。
為了使我們在研究機率模式時,能將所觀察到之現象數量化,以
方便後續分析,統計學引用所謂隨機變數(RandomVariable),即給予
樣本空間內之每一樣本一個且僅有一個實數。
這個隨機變數以大寫之
英文字母來表示,而透過隨機變數所得之值以小寫之字母表示。
如投
擲一個銅板,可能出現:
S={ (正面),(反面)},可令隨機變數X做下列之定義:
X(正面)=1,X(反面)=0
┌┐┌┐
│正面│X│1│
S=││────────→││=R
│反面││0│
└┘└┘
-17-
並可用
P(X=1)=1/2,P(X=0)= 1/2
來表示投擲銅板所出現之情形及發生之機率,事實上可以更進一
步用
P(X=χ)= (0.5)x*(1-0.5)1-xχ=0,1
如此對於投擲銅板或其他相同之現象就可以上述之機率模式表達。
底下開始介紹一些常用之機率模式:
a.均勻分布(UniformDistribution)
所謂均勻分布係指樣本空間內之每一事件發生之機率都一樣。
若以機率模式來表達,較常用
1
P(X=χ)=───,χ=1,2,3,...,N
N
4.統計上特殊或常用的機率分配
a.均勻分配(Uniform)
每種可能情況發生的機率均相同。
b.伯努利分配(Bernoulli)
發生情況分類成二種,"
成功"
及"
失敗"
,且"
發生機率為p
c.二項分配(Binomial)
獨立地實施多次伯努利發生情況,研究重點在這多次中"
發生多少次。
d.卜瓦松分配(Poisson)
當一二項分配n很大,p很小時的情況。
e.指數分配(Exponential)
在一"
卜瓦松發生過程"
中,發生第一次所需時間。
f.常態分配(Normal)
資料發生的情況類似一種鐘形狀,很多自然界現象均類似此種
分配。
注意:
1.對大部分的研究資料而言,很少恰好是上述分配的一種,但
可以透過一些轉換或假設得到更進一步的分析。
2.隨機變數的定義與意義:
其主要目的在於將研究事件數量化,以方便分析,日常生活中如身份證字號、淮考證號碼等均是。
a.均勻分布(UniformDistribution)
若以機率模式來表達,較常用
1
P(X=χ)=───,χ=1,2,3,...,N
N
注意:
一個機率模式一定滿足下列條件:
P(X=χ)≧0
ΣP(X=χ)=1
χ
投擲一個骰子。
由0至9中隨機抽取一數。
b.伯努利分布(BernoulliDistribution)
所謂伯努利分布係指隨機試驗之結果分成二個部分,一個通常稱
為「成功」,發生之機率為p,另一稱為「失敗」,發生機率為1-p
,若定義一隨機變數X為
X(成功)=1,X(失敗)=0
則我們可以
P(X=χ)= px*(1-p)1-x,χ=0,1
來表示這種發生結果僅有二種情形之事件。
投擲一個銅板。
投擲一個骰子,(1,3,5)為一類,(2,4,6)為一類。
(1,3)為一類,(2,4,5,6)為一類。
(6)為一類,(1,2,3,4,5)為一類。
伯努利分布為一間斷型分布,只要隨機試驗發生之結果可以分成
二類即可以此分布分析。
其期望值(平均數)為成功之機率p,變異
數為p*(1-p),即
E(X)=p
V(X)=p*(1-p)
如以前例計算則例一之E(X)=p=1/2,
V(X)=1/2*(1-1/2)=1/4
例二可自行計算。
附註:
期望值具備下列三性質:
1.若c為一常數,則E(c)=c。
2.E(cX)=cE(X)。
3.E(C1X1+C2X2+...+CnXn)
=C1E(X1)+C2E(X2)+...+CnE(Xn)
c.二項分布(BinomialDistribution)
若將一相同伯努利分布(發生「成功」之機率為p)之試驗,
獨立的實施n次,若令隨機變數X為n次中「成功」之總次數,則
P(X=χ)=C(n,x)px*(1-p)n-x,χ=0,1,2,...,n
E(X)=n*p
V(X)=n*p*(1-p)
高考憲法共有20問項,每個問項均為是非題,若一考生全部用
猜的,則考及格(每題5分,60分及格)之機率有多少?
美國總統大選採選舉人票制,且若一郡為那個侯選人獲勝,則
本郡選票全為一人所得,今有一郡在40年共10次選舉中,獲勝
者最後都當選總統,是否可用此郡之選舉結果預測?
(假設全
美共有1,000郡)
d.幾何分布(GeometricDistribution)
連續獨立的實施,若令隨機變數X為至第一次「成功」所需之次數
,則
χ-1
P(X=χ)=(1-p)*p,χ=0,1,2,...
其
E(X)=1/p
V(X)=(1-p)/p
若已知每年索求統計要覽之單位以工商團體約占60%,其他單
位占40%,當今年要覽編印完成後,直至第10位才為工商團體
若我們將上述X之定義:
第一次發生「成功」所需次數,改為
第r次「成功」所需次數,則
χ-1χ-r
P(X=χ)=Cr-1(1-p)*p,χ=0,1,2,...
E(X)=r/p
V(X)=r(1-p)/p
投擲一個骰子,六個面都出現平均需多少次?
若一袋中有三個白球,四個不同色色球,今以取出放回方式
由袋中抽取一球觀察,請問平均需多少次四個色球都出現?
上述這種分布為幾何分布之一般型,通常稱為負二項分布,除
了上面例子的應用外,在抽樣上有所謂「逆抽樣法」之應用。
e.卜瓦松分布(PoissionDistribution)
卜瓦松分布運用的情形很多,如十字路口的車禍發生事件、
商店或超市收銀口顧客進出人數...等,另外當二項分布之n很
大而n*p為一常數(假設為u)時,其分布亦會接近卜瓦松分布。
若令隨機變數X為一定長時間(區間)之事件發生次數,而
u為此一定長時間之平均發生之數,則X之機率分布為:
-uχ
e*u
P(X=χ)=────────,χ=0,1,2,...
χ!
其中
e=2.718281
χ!
=χ(χ-1)(χ-2)...2*1
如6!
=6*5*4*3*2*1=720
E(X)=u
V(X)=u
已知本科每日上班在7:
50至8:
20之間到辦公室之人數
為一卜瓦松分布且依以前資料知此段時間內到達之同仁平均
有5人,問有一上班天都沒有一人於此段時間到達之機率?
前面二項分布所提美國總統大選採選舉人票制,且若一郡為那
個侯選人獲勝,則本郡選票全為一人所得,今有一郡在40年共
10次選舉中,獲勝者最後都當選總統,假設每一郡均為隨機投
票下,至少有一郡產生上述結果之機率。
f.超幾何分布(HypergeometricDistribution)
超幾何分布與前所提伯努利、二項、幾何...等分布最大之不
同處在於超幾何分布是由不放回抽樣(非投返法)所得,假設一袋中
有白球N1個,黑球N2個,N1+N2=N,若由袋中以不放回方
式抽出n個球,令隨機變數X為n球中白球之個數,則
N1N2
Cχ*Cn-χ
P(X=χ)=────────,χ=0,1,2,...,n
N
Cn
N1
E(X)=N*──=NP
N-n
V(X)=─────*NP(1-P)
N-1
由於超幾何分布係由不放回方式而得,此與抽樣調查之方式一
致,故此分配在抽樣方法中會有更詳盡的介紹,一般超幾何分布之
應用例子在計算生物個數。
翡翠水庫內共有多少魚。
計算方式:
1.首先在水庫中補魚,假設補到N1條魚,作上記號,再放回水
庫中。
2.待魚均勻散佈在湖中後,再次補魚,假設補到n條魚,其中有
記號的魚有χ條。
3.若水庫中有N條魚,則可以
N1χ
───=───=>N=N1*n*χ
Nn
g.指數分布(ExponentialDistribution)
指數分布乃緣於卜瓦松分布,在卜瓦松分布中我們考慮於一卜瓦
松過程下,欲研究的為在單位時間或區間內事件發生之次數,現將研
究的對象改為發生第一次事件所需要之時間,若定義隨機變數X為在
卜瓦松過程下,發生第一次事件所需時間(或區間),則
-uχ
f(χ)=ueχ>0
,
其中u為卜瓦松過程下,單位時間內平均發生次數。
證明:
├──┼───────┤
令Y為(0,χ)時間內0χ
發生事件次數,則Y為卜瓦松分布,平均發生次數為uχ,
且
P(X≦χ)=1-P(X≧χ)
=1-P(Y=0)
-uχ0
e*(uχ)
=1-────────
0!
=1-e
d
=>f(χ)=──P(X≦χ)
dχ
=ueχ>0
,
又因X為連續性之隨機變數,而u為間斷型之發生次數,故將
u以1/θ代替,此時
1-(1/θ)χ
f(χ)=──e
θ,χ>0
θ為每發生一次平均所需時間。
E(X)=θ
V(X)=θ
某機器之壽命為服從指數分布,且平均壽命為5年,試問此
機器在2年之內即故障之機率?
在公車站等待公車之過程服從卜瓦松過程,假設每6分鐘一
班公車,請問到站後等待超過10分鐘之機率?
h.常態分布(NormalDistribution)
常態分布又稱為鐘型分布或高斯分布,在日常生活中的一些現
象均與此分布極類似,故在統計學