2017年3月6日 星期一

卡方、相關係數(未完)

在做田野調查時,我們無法接觸到母群體(population)中的每一個人,因此針對樣本(sample)作分析時,如何說服他人所選出的樣本足以代表母群體,當然,樣本調查結果不可能完全等於母群體,選擇有效樣本大小成了最重要的任務。

樣本大小、品質都很重要,主要把握原則 : 不偏(隨機)、獨立(機率不被其他影響),盡量地減少抽樣誤差,也就是信心水準(或顯著水準此2者代表可信度)與信賴區間(樣本區間估計)
ps.假設某候選人支持率55%,信心水準95%的信賴區間(50% ~ 60%),表示真實支持率不到50%的機率小於2.5%(假設對稱分布)



抽樣方法

卡方檢驗(Chi-square test)

又稱Pearson卡方檢定,適用 : 非連續變項(類別型或順序型),樣本數目夠大至少80%以上的格子其值(有的說期望值) > 5,常見應用分三大類 : 
  • 適配度檢定(goof-of-fit test) : 適用於想了解某一變數與母體分配相符與否,為單一變數(又稱單因子分類檢定),期望值從母體求出 ex. 售出數量 vs 筆電顏色(黑or白or灰)
  • 獨立性檢定(test of independence) : 同一樣本中,兩變數的關聯性檢定,較常應用此領域 ex. 性別(男or女) vs 筆電購買顏色(黑or白or灰)
  • 同質性檢定(test of homogeneity) : 檢測不同母體在同一變數回應下,是否有相同顯著差異 ex.大學生、教師、家長 vs 購買筆電意見(贊成or反對)
這裡以常見獨立性檢定作舉例 : 

某公司調查員工接受疫苗與肺炎的關聯性,結果如下表 : 

                                             未接種             接種                列總和___________________________________________       ________

球菌肺炎型肺炎                    23                     5                       28
       
      他型肺炎                           8                     10                      18

         健康                               61                    78                     139
___________________________________________       ________                  
     
       欄總和                             92                     93                     185


假設  

虛無假設 H0  :   「肺炎」 與「疫苗接種有無」無顯著差異
對立假設 H1  :   「肺炎」 與「疫苗接種有無」有顯著差異

卡方值計算  

Σ X²  = (O-E)²/ E     X² : 卡方值    O : 觀察次數   E : 期望次數
E = MR X MC / n      MR : 行邊際   MC : 列邊際    n : 所有樣本數


E(未接種/球菌型肺炎) :  92 x 28 / 185 = 13.92
E(未接種/他型肺炎)     :  92 x 18 / 185 = 8.95...

    期望值                            未接種             接種               ___________________________________________    

球菌肺炎型肺炎                  13.92              14.08                    
       
      他型肺炎                         8.95                 9.05                

         健康                             69.12               69.88   


X²(未接種/球菌型肺炎) : (23-13.92)²/13.92 = 5.92

X²(未接種/他型肺炎)     : (8-8.95)²/8.95 = 0.1...

   卡方值                           未接種             接種               ___________________________________________    



球菌肺炎型肺炎                  5.92               5.85                    
       
      他型肺炎                         0.1                 0.1                

         健康                             0.95                0.94
   

Σ X² = 5.92+0.1+0.95+5.85+0.1+0.94 = 13.87
自由度 : (行數-1) (列數-1) = 12 = 2
P =  0.000974  <  0.05(研究人員習慣採用的顯著水準)            
#P值可透過excel公式 CHISQ.DIST.RT(卡方值 ,自由度)求得

拒絕 H0 接受H1,有接種疫苗對於肺炎具有顯著差異
白話文 : 疫苗接種與否確實影響是否罹患肺炎


X² 解釋

最大卡方值發生於 [未接種 / 罹患球菌型肺炎] ,代表觀察結果顯著,罹患肺炎人數(23)遠大於預期人數(13.92)。第二大卡方值 [接種 / 罹患球菌型肺炎] ,罹患肺炎人數(5)遠小於預期人數(14.28)。其餘卡方值小於1.0表觀察的值近乎預期值,非球菌肺炎患者或健康者對疫苗接種無顯著影響。
簡而言之,接種疫苗 與 罹患球菌肺炎 非獨立,是有關聯性存在的


卡方檢定之強度

P = 0.000974代表千分之0.974的機率 有接種疫苗 與 無接種疫苗 兩者無差異,統計顯著不代表臨床顯著。臨床顯著表示改善的大小,如假設統計檢定之結果為顯著,但肺炎感染人數僅降低 2 人,公司為 184 名員工接種不符經濟效益。

對卡方檢定最常使用的強度檢定為 Cramer 's V test

V = (X² / n(k-1))^½            #k為行或列最小值
    = (13.87/184(2-1))^½
    = 0.275

相關性為0.275代表若相關,上述案例中有5未接種疫苗仍罹患球菌肺炎,大多數員工健康,因此其相關性不高,但有顯著性。此強度檢定方法可用於解釋統計結果。


關聯性強度檢定  

(1)Phi (𝝋)係數 : 適用2x2

                            𝜱 = (x² / n) ^½

                            當兩個類別變項任一超過兩個水準卡方值,𝜱值超出0~1的範圍,採列聯繫數                             可改善

(2)列聯係數(Contingency Coefficient) : 適用3x3, 4x4, 5x5

                                                                  C = (X² / (X² + n))^½

                                                                  當樣本係數愈大時,列聯係數值減少Cramer 's V可修正

(3)克瑞瑪 V (Cramer 's V) : 適用2x3, 3x4, 2x4...
                                             
                                               V = (X² / n(k-1))^½
                                              關聯係數介於0~1之間,兩關聯係數檢定值愈接近1表示二變量關聯                                                性強,反之愈接近0則表關聯性弱



參考資料 :
1)http://amebse.nchu.edu.tw/new_page_659.htm
2)http://qheroq.blogspot.tw/2009/10/108t1015.html
3)https://www.slideshare.net/guest04f780/ss-241772


比較:
https://researcher20.com/2008/08/11/%E7%94%A8%E5%93%AA%E7%A8%AE%E7%B5%B1%E8%A8%88%E5%88%86%E6%9E%90%E6%96%B9%E5%BC%8F%E5%A5%BD%EF%BC%9F%E5%8D%A1%E6%96%B9anovat-test-or-regression/

correlation efficient & convariance :
http://belleaya.pixnet.net/blog/category/1811659
http://qheroq.blogspot.tw/2011/04/correlation-analysis.html

沒有留言:

張貼留言