樣本大小、品質都很重要,主要把握原則 : 不偏(隨機)、獨立(機率不被其他影響),盡量地減少抽樣誤差,也就是信心水準(或顯著水準此2者代表可信度)與信賴區間(樣本區間估計)
ps.假設某候選人支持率55%,信心水準95%的信賴區間(50% ~ 60%),表示真實支持率不到50%的機率小於2.5%(假設對稱分布)
抽樣方法
卡方檢驗(Chi-square test)
又稱Pearson卡方檢定,適用 : 非連續變項(類別型或順序型),樣本數目夠大且至少80%以上的格子其值(有的說期望值) > 5,常見應用分三大類 :
- 適配度檢定(goof-of-fit test) : 適用於想了解某一變數與母體分配相符與否,為單一變數(又稱單因子分類檢定),期望值從母體求出 ex. 售出數量 vs 筆電顏色(黑or白or灰)
- 獨立性檢定(test of independence) : 同一樣本中,兩變數的關聯性檢定,較常應用此領域 ex. 性別(男or女) vs 筆電購買顏色(黑or白or灰)
- 同質性檢定(test of homogeneity) : 檢測不同母體在同一變數回應下,是否有相同顯著差異 ex.大學生、教師、家長 vs 購買筆電意見(贊成or反對)
這裡以常見獨立性檢定作舉例 :
某公司調查員工接受疫苗與肺炎的關聯性,結果如下表 :
未接種 接種 列總和___________________________________________ ________
球菌肺炎型肺炎 23 5 28
他型肺炎 8 10 18
健康 61 78 139
___________________________________________ ________
欄總和 92 93 185
假設
虛無假設 H0 : 「肺炎」 與「疫苗接種有無」無顯著差異
對立假設 H1 : 「肺炎」 與「疫苗接種有無」有顯著差異
卡方值計算
Σ X² = (O-E)²/ E X² : 卡方值 O : 觀察次數 E : 期望次數
E = MR X MC / n MR : 行邊際 MC : 列邊際 n : 所有樣本數
E = MR X MC / n MR : 行邊際 MC : 列邊際 n : 所有樣本數
E(未接種/球菌型肺炎) : 92 x 28 / 185 = 13.92
E(未接種/他型肺炎) : 92 x 18 / 185 = 8.95...
期望值 未接種 接種 ___________________________________________
球菌肺炎型肺炎 13.92 14.08
他型肺炎 8.95 9.05
健康 69.12 69.88
X²(未接種/球菌型肺炎) : (23-13.92)²/13.92 = 5.92
X²(未接種/他型肺炎) : (8-8.95)²/8.95 = 0.1...
卡方值 未接種 接種 ___________________________________________
球菌肺炎型肺炎 5.92 5.85
他型肺炎 0.1 0.1
健康 0.95 0.94
Σ X² = 5.92+0.1+0.95+5.85+0.1+0.94 = 13.87
自由度 : (行數-1) X (列數-1) = 1 X 2 = 2
P = 0.000974 < 0.05(研究人員習慣採用的顯著水準)
#P值可透過excel公式 CHISQ.DIST.RT(卡方值 ,自由度)求得
拒絕 H0 接受H1,有接種疫苗對於肺炎具有顯著差異
白話文 : 疫苗接種與否確實影響是否罹患肺炎
#P值可透過excel公式 CHISQ.DIST.RT(卡方值 ,自由度)求得
拒絕 H0 接受H1,有接種疫苗對於肺炎具有顯著差異
白話文 : 疫苗接種與否確實影響是否罹患肺炎
X² 解釋
最大卡方值發生於 [未接種 / 罹患球菌型肺炎] ,代表觀察結果顯著,罹患肺炎人數(23)遠大於預期人數(13.92)。第二大卡方值 [接種 / 罹患球菌型肺炎] ,罹患肺炎人數(5)遠小於預期人數(14.28)。其餘卡方值小於1.0表觀察的值近乎預期值,非球菌肺炎患者或健康者對疫苗接種無顯著影響。
簡而言之,接種疫苗 與 罹患球菌肺炎 非獨立,是有關聯性存在的
卡方檢定之強度
P = 0.000974代表千分之0.974的機率 有接種疫苗 與 無接種疫苗 兩者無差異,統計顯著不代表臨床顯著。臨床顯著表示改善的大小,如假設統計檢定之結果為顯著,但肺炎感染人數僅降低 2 人,公司為 184 名員工接種不符經濟效益。
對卡方檢定最常使用的強度檢定為 Cramer 's V test
V = (X² / n(k-1))^½ #k為行或列最小值
= (13.87/184(2-1))^½
= 0.275
相關性為0.275代表若相關,上述案例中有5未接種疫苗仍罹患球菌肺炎,大多數員工健康,因此其相關性不高,但有顯著性。此強度檢定方法可用於解釋統計結果。
關聯性強度檢定
(1)Phi (𝝋)係數 : 適用2x2𝜱 = (x² / n) ^½
當兩個類別變項任一超過兩個水準卡方值,𝜱值超出0~1的範圍,採列聯繫數 可改善(2)列聯係數(Contingency Coefficient) : 適用3x3, 4x4, 5x5
C = (X² / (X² + n))^½
當樣本係數愈大時,列聯係數值減少Cramer 's V可修正(3)克瑞瑪 V (Cramer 's V) : 適用2x3, 3x4, 2x4...
V = (X² / n(k-1))^½
關聯係數介於0~1之間,兩關聯係數檢定值愈接近1表示二變量關聯 性強,反之愈接近0則表關聯性弱
參考資料 :
1)http://amebse.nchu.edu.tw/new_page_659.htm
2)http://qheroq.blogspot.tw/2009/10/108t1015.html
3)https://www.slideshare.net/guest04f780/ss-241772
比較:
https://researcher20.com/2008/08/11/%E7%94%A8%E5%93%AA%E7%A8%AE%E7%B5%B1%E8%A8%88%E5%88%86%E6%9E%90%E6%96%B9%E5%BC%8F%E5%A5%BD%EF%BC%9F%E5%8D%A1%E6%96%B9anovat-test-or-regression/
correlation efficient & convariance :
http://belleaya.pixnet.net/blog/category/1811659
http://qheroq.blogspot.tw/2011/04/correlation-analysis.html
沒有留言:
張貼留言