評估者間信度統計法

如何評價編碼、分類、評審等的人間差異性

Krippendorff 之 α 是信度係數,用來測量觀察者間的一致性。他試圖回答資料有多可靠?

其他用來檢測信度的專門係數包括:

  • Scott 之 π 用在名目資料及兩個評估者
  • Fleiss 之 κ 用在名目資料,有多個評估者,所有單位的每個編碼不可漏評,且有非常大的樣本數。
  • Cohen 之 κ 用在名目資料及兩個評估者(有未加權、加權的算法)資料不可漏評。
  • Spearman 之等級相關係數 ρ 衡量兩個評估者對於一串相同物件排序的一致性。
  • Pearson 之組內相關係數適用於等距資料、兩位評估者,且有非常大的樣本數。

Krippendorff 之 α 是上述所有專門指標的推廣。 Krippendorff 之 α 比任何其他特殊目的的係數更具普遍性,且使研究者能判斷各種資料的可靠性。 他能依據樣本數大小進行調整,且能夠做到大量的可靠度資料比較,這是專門的衡量方法所做不到的。
信度的判讀 1 ≥ α ≥ 0。亦即,當觀察者完全一致,則 α = 1;若 α = 0,則表示缺乏一致性。 資料的可靠性被認為是〝可靠〞於 α ≥ 0.800、僅〝暫定〞於 0.800 > α ≥ 0.667、而〝拋棄〞於 α < 0.667。

α 應用在:

  • 任何觀察者數量,不只是兩位
  • 任何類別的數量、量表的數值或衡量方法
  • 任何量尺或衡量工具的尺度(名目、序位、等距、等比等)
  • 不完整或遺漏資料
  • 可接受大及小的樣本數,不需要最小量

在醫療照護領域有些主觀判斷的例子,無論有沒有相關的訓練:

  • 病歷診斷編碼(ICD-9, ICD-10)
  • 同儕評估醫師的表現
  • 審查管理的適當性(臨床檢驗、外科手術)
  • 評估護理技術
  • 5S單位監測及得獎者的篩選
  • 評估「提案」創意來決定獎勵
  • 事故報告之「嚴重分級評估矩陣(SAC)」:嚴重度、發生機率
  • 麻醉評估患者的嚴重程度(ASA)
  • 每個手術的傷口分類(清潔〜臟等級)

負責這些活動的員工在判斷/編碼上應該受過適當的訓練,在開始負責這些評估之前,應有前測及再測的機制卻保有評估的能力。

參考文獻:

Krippendorff, K. (2011) Computing Krippendorff's alpha-reliability.

Krippendorff 之 α 信度

A. 二進製或二元數據、兩名評估者、沒有漏評資料

評估基準: {0 1} [* = 漏評]
原始資料(評估者對受評者矩陣)
受評者 →12345678910
評估者 10100000010
評估者 21110010000


B. 類別資料、兩名評估者、沒有漏評資料

評估基準: {a b c d e} [* = 漏評]

原始資料(評估者對受評者矩陣)
受評者 →123456789101112
評估者 1aabbdcccedda
評估者 2babbbccceddd


C. 序資料/利克特、任意數量的評估者、漏評資料

評估基準: {1 2 3 4 5} [* = 漏評]

原始資料(評估者對受評者矩陣)
受評者 →123456789101112
評估者 1123321412***
評估者 21233224125*3
評估者 3*3332342251*
評估者 412332441251*


W. 維基百科的例子

評估基準: {1 2 3 4} [* = 漏評]

原始資料(評估者對受評者矩陣)
受評者 →123456789101112131415
評估者 1*****34121133*3
評估者 21*213343*******
評估者 3**21344*21133*4


與自己的數據試試吧