对一个变数求出其平均数与标准差之后.docx

资源描述

对一个变数求出其平均数与标准差之后.docx

《对一个变数求出其平均数与标准差之后.docx》由会员分享，可在线阅读，更多相关《对一个变数求出其平均数与标准差之后.docx（12页珍藏版）》请在冰点文库上搜索。

对一个变数求出其平均数与标准差之后.docx

对一个变数求出其平均数与标准差之后

對一個變數求出其平均數及標準差之後，我們知道它的平均數落在一定的區間以內，但是我們還想知道它是否有一些特別的假設可以驗證，例如這個變數的平均數是否有可能等於某個值，例如0。

透過統計方法，我們可以對等距尺度的變數做以上的檢定。

但是對於類別資料，我們比較關心它是否呈現隨機分布。

1.先看看等距或等比資料的分布。

我們選擇「a9dn有幾個小孩」做為變數，然後看其是否為常態分布。

記得先將「99」轉為遺漏值。

「統計圖」「直方圖」，選「顯示常態曲線」

很明顯的小孩子的數目集中在2個及4個，6個以上非常少。

如果這個樣本來自於常態分配，而平均數為2.9，標準差為1.48的情況下，我們可以說95%的觀察值落在[2.9-1.96*0.039,2.9+1.96*0.039]之間，也是[2.81,2.976]之間。

而我們還可以進一步檢驗，是否2.9這個平均值，若多做幾次抽樣之後，仍然確實是等於0。

此處用的是「單一樣本T檢定」。

顧名思義，t檢定指的是用t分布來看我們所要檢定的值是否會落在一定的區域內。

若是會的話，那麼我們不拒絕虛無假設，即平均值等於0這個假設。

如果不會的話，那麼我們可以拒絕這個虛無假設，也就是平均值可能不會等於0。

常態分布跟t分布的不一樣地方是t分布適用於小樣本，如果觀察值小於60的時候。

當觀察值大於60時，我們還是可以用t分布，但是得到的檢定事實上與常態分布無異。

參考網頁上附的常態分布與t分布的對應機率與值。

在單一樣本檢定時，求t值的公式為

，k是我們要檢定的值。

在95%信心水準下，求平均值的上下區間公式為：

[（X-k）-tb

（X-k）+tb

]。

tb是t值在α/2而且自由度為n-1時候的值，也就是所謂的臨界點。

是標準誤，也就是standarderrorofmean，簡寫為SE，也就是平均值的散布情形。

而標準誤代表的就是平均值所在的範圍。

以這個例子來說，k為0，平均值為2.89，而標準誤為1.477，個數為1419，因此自由度等於1418，代入公式及查表（自由度大於120且信賴區間為95%時，t的臨界值為1.96）後得[2.81,2.976]。

2.89落在這個區間之間，而且這個區間包含了95%的信賴區間，也就是說抽無數次後，95%所得的平均值將落在這個區間內，因此等於0的機會是非常小，所以我們拒絕我們的虛無假設。

或者是說，求出t值為73.603，而這個值遠大於我們的t檢定值1.96，因此可以拒絕等於0這個虛無假設。

「分析」「比較平均數法」「單一樣本T檢定」

試著檢定平均值等於3或10的假設，也可以發現會遭到拒絕。

但是若設定平均值等於2.85，則將無法拒絕，表示樣本平均值跟這個值相差不多，有可能在這個區間內。

0對我們特別重要，因為若平均值可能等於0，那麼我們要考慮是否測到的其實是不存在的。

這裡用t分布是因為t分布近似常態分布，而且適用於小樣本。

t分布的臨界值比z分布來得大，因為t分布比較扁平，也因此檢定時比較不容易拒斥其假設。

2.接下來我們可以檢證是否兩組觀察值在某一個變數上是否有相同的平均值，也就是檢驗是否兩群人有在某一變數上有相同的特徵。

這樣做的好處是觀察是否不同的人有不同的平均值；如果不同的話，那麼意味著各有各的特色，即兩群人並不相同，違反了樣本彼此互相是獨立的假設。

如果相同的話，意味兩群人是來自相同的母體。

虛無假設是兩者是有著相同的平均數，也就是平均數的差異等於0，而拒斥的假設即是差異不等於0。

我們用「c4e配偶的工時」來看受訪的「a1性別」是否獨立。

虛無假設是兩者獨立，即平均數相同。

先把配偶工時高於90的轉換為遺漏值。

「分析」「比較平均數法」「獨立樣本T檢定」。

選性別填入「分組變數」，並且按「定義組別」，填入性別的類別1與2。

從下表可以看到，顯著性均大於0.05，所以不拒絕虛無假設，也就是說這兩個分組中的樣本應該是一致的，或者是這兩組樣本的樣本沒有差異。

以男女這兩個組來說，樣本數為915，而自由度為913。

另外平均數的差距為46.14-47.21=1.07。

由於我們假設男女來自不同的母體，而且假設兩組人的變異數相等，所以可以用集合變異數估計找出兩個母體的共同標準差。

算法為

=200.197。

而計算t值的公式為

=-1.05。

根據自由度及95%信賴水準，t分布給的檢定值至少在-1.96，也就是說-1.05並未通過檢定，因此我們必須接受假設，即兩者兩平均數來自同一母體。

同時我們可以找出在信賴水準為95%的條件下，這兩個平均差差異的區間為[-1.07-1.96*1.014,-1.07+1.96*1.014]，也就是[-3.05,0.91]。

如果我們假設兩個組的變異數不相等，我們計算平均值差異的標準差如下：

。

而t值則是：

=-1.086。

這裡的F檢定指的是應用F分布所做的檢定，是用one-wayANOVA所得到的檢定值，比較不依賴樣本成常態分配的假設。

表中的F檢定值為0.590，顯著性也就不到0.05。

若是要檢查是否變異數相等，可用簡單散布圖來看每組對應的樣本。

GRAPH

/SCATTERPLOT（BIVAR）=a1WITHc4e

/MISSING=LISTWISE.

3.有時候我們想比較同一群人前後兩個時間點的某個變數平均值，或是有時候我們給兩群人同一個刺激，想要知道這兩個刺激的結果是否相同。

這種類似實驗的研究，可以運用「成對樣本T檢定」來檢驗是否兩個平均值相同。

事實上這種檢驗類似上面的獨立樣本檢定，只是沒有分組變數，而是兩個連續性資料的態度變數。

「分析」「比較平均數法」「成對樣本T檢定」選「g38a一星期花多少時間做家事」及「g38b配偶花多少時間做家事」

這裡是將兩個比對的變數值相減之後，求出標準差及標準誤，然後就可以得到t值了。

可以看到t值為-0.906，顯著性達0.365，因此不拒絕虛無假設，也就是平均數相等。

以上的檢定也可應用在百分比資料。

比方說在一組患者（120名）之中，男生佔了39.2%，女生佔了60.8%。

而在另一組患者中（640名），男生佔了43.3%，女生則是56.7%。

這兩組之間的差異會不會是偶然發生的？

或是說，這兩組的差異是否達到顯著水準？

可以計算標準誤如下：

SE=

=4.87

計算兩者差異的標準誤要先計算全部人之中某一群人的發生機率。

以女性而言，在120人那一組的數目是73人，而640人那一組則是363人，合計是436人，佔了全部兩組人之57.4%。

SE（diff%）=

=4.92

因為兩組的差距為4.1%，而SE為4.92，兩者相除得0.83。

應用Z分布，可得到p值約0.4，也就是不拒斥兩者相等的假設，也就是這個差距可能是偶然發生的，在95%的信賴水準下。

（取材自bmj.bmjjournals./collections/statsbk）

4.接下來我們處理類別資料。

類別資料主要是檢驗是否為隨機分布。

應用上次上課所使用的求卡方值公式，或是無母數檢定，都可以得到檢定。

「分析」「無母數檢定」「卡方檢定」，選「全部類別相等」。

我們用「A1性別」來檢驗我們的受訪者的性別是否為隨機分布。

卡方檢定幫我們檢驗虛無假設：

各個類別為隨機分布。

在求出一個卡方值後，比照卡方表的檢定值，便可以決定是否接受或是拒斥這個虛無假設。

計算出來的卡方值為0.424。

在自由度為1的情況下，95%信賴水準的檢定值為3.841，所以我們必須接受這個虛無假設，也就是受訪者性別是隨機的。

殘差就是期望值減觀察值，而殘差除以期望值的平方和就是卡方值。

卡方分配中，自由度是k-1，k是格子數。

在自由度為1，且顯著水準為0.05情況下，至少要有3.841才能否定假設，因此在這裡我們接受性別成隨機分布的假設。

5.要檢驗類別資料是否為獨立或者是跟其他變數相關，可以用交叉列表來表示。

交叉列表分析將幫我們計算卡方值，然後比較卡方表的檢定值。

如果卡方值小於檢定值，我們不可以拒絕虛無假設，也就是兩個變數的分布是相同的，也就是沒有相關。

如果卡方值大於檢定值，我們可以拒絕虛無假設，也就是兩者分布有相關。

「分析」「描述統計」「交叉表」。

按統計量，選取「卡方統計量」

按「格式」，並選取「橫列」及「觀察值」

回到前面的畫面，選取性別為列，「g66當一對夫妻還沒有小孩，女人應該出外工作嗎？

」為直行。

從表格可以看出，男性比較傾向讓當事人決定，而女性則是做全職工作。

卡方值為49.302，拒絕兩者獨立的假設。

顯示性別與這項態度有相關。

如果要用手算的話，就是計算每一格裡的期待值，計算方式是將每一個變數的類別所佔百分比相乘，得到每一格的期待百分比，再乘以總數，得到期待值。

然後應用求卡方值的公式。

展开阅读全文