評估者間信度統計法
如何評價編碼、分類、評審等的人間差異性
Krippendorff 之 α 是信度係數,用來測量觀察者間的一致性。他試圖回答資料有多可靠?
其他用來檢測信度的專門係數包括:
-
Scott 之 π 用在名目資料及兩個評估者
-
Fleiss 之 κ 用在名目資料,有多個評估者,所有單位的每個編碼不可漏評,且有非常大的樣本數。
-
Cohen 之 κ 用在名目資料及兩個評估者(有未加權、加權的算法)資料不可漏評。
-
Spearman 之等級相關係數 ρ 衡量兩個評估者對於一串相同物件排序的一致性。
-
Pearson 之組內相關係數適用於等距資料、兩位評估者,且有非常大的樣本數。
Krippendorff 之 α 是上述所有專門指標的推廣。
Krippendorff 之 α 比任何其他特殊目的的係數更具普遍性,且使研究者能判斷各種資料的可靠性。
他能依據樣本數大小進行調整,且能夠做到大量的可靠度資料比較,這是專門的衡量方法所做不到的。
信度的判讀 1 ≥ α ≥ 0。亦即,當觀察者完全一致,則 α = 1;若 α = 0,則表示缺乏一致性。
資料的可靠性被認為是〝可靠〞於 α ≥ 0.800、僅〝暫定〞於 0.800 > α ≥ 0.667、而〝拋棄〞於 α < 0.667。
α 應用在:
-
任何觀察者數量,不只是兩位
-
任何類別的數量、量表的數值或衡量方法
-
任何量尺或衡量工具的尺度(名目、序位、等距、等比等)
-
不完整或遺漏資料
-
可接受大及小的樣本數,不需要最小量
在醫療照護領域有些主觀判斷的例子,無論有沒有相關的訓練:
-
病歷診斷編碼(ICD-9, ICD-10)
-
同儕評估醫師的表現
-
審查管理的適當性(臨床檢驗、外科手術)
-
評估護理技術
-
5S單位監測及得獎者的篩選
-
評估「提案」創意來決定獎勵
-
事故報告之「嚴重分級評估矩陣(SAC)」:嚴重度、發生機率
-
麻醉評估患者的嚴重程度(ASA)
-
每個手術的傷口分類(清潔〜臟等級)
負責這些活動的員工在判斷/編碼上應該受過適當的訓練,在開始負責這些評估之前,應有前測及再測的機制卻保有評估的能力。
參考文獻:
Krippendorff, K. (2011)
Computing Krippendorff's alpha-reliability.
Krippendorff 之 α 信度