PickMyTest

Cohens Kappa

Cohens Kappa misst die Übereinstimmung zwischen zwei Beurteilern bei kategorialen Daten und korrigiert dabei für zufällige Übereinstimmung.

Cohens Kappa#

Cohens Kappa (κ) ist ein statistisches Maß, das die Übereinstimmung zwischen genau zwei Beurteilern quantifiziert, die dieselben Objekte in Kategorien einordnen. Im Gegensatz zur einfachen prozentualen Übereinstimmung berücksichtigt Kappa den Anteil der Übereinstimmung, der allein durch Zufall zu erwarten wäre. Damit liefert es ein deutlich realistischeres Bild der tatsächlichen Beurteilerübereinstimmung.

Wann verwenden?#

  • Du hast genau zwei Beurteiler, die unabhängig voneinander bewerten
  • Die Bewertungen erfolgen auf einer kategorialen Skala (z. B. gesund/krank, Typ A/B/C)
  • Du möchtest wissen, ob die Übereinstimmung über das Zufallsniveau hinausgeht
  • Die Beurteiler bewerten dieselbe Gruppe von Objekten (Patienten, Bilder, Texte usw.)
  • Du brauchst ein einzelnes, leicht interpretierbares Maß für die Übereinstimmung

Voraussetzungen#

  • Genau 2 Beurteiler
  • Beide bewerten dieselben Objekte
  • Kategoriale Skala (nominal oder ordinal)
  • Unabhängige Bewertungen (kein gegenseitiger Einfluss)

Formel#

Cohens Kappa berechnet sich aus der beobachteten Übereinstimmung pop_o und der zufällig erwarteten Übereinstimmung pep_e:

κ=pope1pe\kappa = \frac{p_o - p_e}{1 - p_e}

Dabei ist pop_o der Anteil der Fälle, in denen beide Beurteiler übereinstimmen, und pep_e der Anteil der Übereinstimmung, der bei zufälliger Zuordnung zu erwarten wäre. pep_e ergibt sich aus den Randverteilungen der Kontingenztabelle:

pe=kpk1pk2p_e = \sum_{k} p_{k1} \cdot p_{k2}

wobei pk1p_{k1} und pk2p_{k2} die relativen Häufigkeiten der Kategorie kk bei Beurteiler 1 bzw. 2 sind.

Beispiel#

Praxisbeispiel: Diagnose durch zwei Ärzte

Zwei Ärzte untersuchen unabhängig voneinander 100 Patienten und stufen jeden als gesund oder krank ein. Die Ergebnisse:

Arzt 2: gesundArzt 2: krankSumme
Arzt 1: gesund401050
Arzt 1: krank54550
Summe4555100

Beobachtete Übereinstimmung: po=(40+45)/100=0,85p_o = (40 + 45) / 100 = 0{,}85

Erwartete Übereinstimmung: pe=(50/100×45/100)+(50/100×55/100)=0,225+0,275=0,50p_e = (50/100 \times 45/100) + (50/100 \times 55/100) = 0{,}225 + 0{,}275 = 0{,}50

Kappa: κ=(0,850,50)/(10,50)=0,70\kappa = (0{,}85 - 0{,}50) / (1 - 0{,}50) = 0{,}70

Mit κ=0,70\kappa = 0{,}70 liegt eine substanzielle Übereinstimmung vor.

Effektstärke#

Cohens Kappa ist selbst ein Maß für die Effektstärke. Die gebräuchlichste Interpretation stammt von Landis und Koch (1977):

Kappa-WertInterpretation
< 0,00Schlecht (schlechter als Zufall)
0,00 – 0,20Gering
0,21 – 0,40Ausreichend
0,41 – 0,60Moderat
0,61 – 0,80Substanziell
0,81 – 1,00(Fast) perfekt

Ein κ\kappa von 1 bedeutet perfekte Übereinstimmung, ein κ\kappa von 0 entspricht reiner Zufallsübereinstimmung, und negative Werte deuten auf systematische Nicht-Übereinstimmung hin.

Weiterführende Literatur

  • Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.
  • Landis, J. R. & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.
  • McHugh, M. L. (2012). Interrater reliability: the kappa statistic. Biochemia Medica, 22(3), 276–282.