Cohens Kappa#

Cohens Kappa (κ) ist ein statistisches Maß, das die Übereinstimmung zwischen genau zwei Beurteilern quantifiziert, die dieselben Objekte in Kategorien einordnen. Im Gegensatz zur einfachen prozentualen Übereinstimmung berücksichtigt Kappa den Anteil der Übereinstimmung, der allein durch Zufall zu erwarten wäre. Damit liefert es ein deutlich realistischeres Bild der tatsächlichen Beurteilerübereinstimmung.

Wann verwenden?#

Du hast genau zwei Beurteiler, die unabhängig voneinander bewerten
Die Bewertungen erfolgen auf einer kategorialen Skala (z. B. gesund/krank, Typ A/B/C)
Du möchtest wissen, ob die Übereinstimmung über das Zufallsniveau hinausgeht
Die Beurteiler bewerten dieselbe Gruppe von Objekten (Patienten, Bilder, Texte usw.)
Du brauchst ein einzelnes, leicht interpretierbares Maß für die Übereinstimmung

Voraussetzungen#

Genau 2 Beurteiler
Beide bewerten dieselben Objekte
Kategoriale Skala (nominal oder ordinal)
Unabhängige Bewertungen (kein gegenseitiger Einfluss)

Formel#

Cohens Kappa berechnet sich aus der beobachteten Übereinstimmung $p_o$ und der zufällig erwarteten Übereinstimmung $p_e$ :

\kappa = \frac{p_o - p_e}{1 - p_e}

Dabei ist $p_o$ der Anteil der Fälle, in denen beide Beurteiler übereinstimmen, und $p_e$ der Anteil der Übereinstimmung, der bei zufälliger Zuordnung zu erwarten wäre. $p_e$ ergibt sich aus den Randverteilungen der Kontingenztabelle:

p_e = \sum_{k} p_{k1} \cdot p_{k2}

wobei $p_{k1}$ und $p_{k2}$ die relativen Häufigkeiten der Kategorie $k$ bei Beurteiler 1 bzw. 2 sind.

Beispiel#

Praxisbeispiel: Diagnose durch zwei Ärzte

Zwei Ärzte untersuchen unabhängig voneinander 100 Patienten und stufen jeden als gesund oder krank ein. Die Ergebnisse:

	Arzt 2: gesund	Arzt 2: krank	Summe
Arzt 1: gesund	40	10	50
Arzt 1: krank	5	45	50
Summe	45	55	100

Beobachtete Übereinstimmung: $p_o = (40 + 45) / 100 = 0{,}85$

Erwartete Übereinstimmung: $p_e = (50/100 \times 45/100) + (50/100 \times 55/100) = 0{,}225 + 0{,}275 = 0{,}50$

Kappa: $\kappa = (0{,}85 - 0{,}50) / (1 - 0{,}50) = 0{,}70$

Mit $\kappa = 0{,}70$ liegt eine substanzielle Übereinstimmung vor.

Effektstärke#

Cohens Kappa ist selbst ein Maß für die Effektstärke. Die gebräuchlichste Interpretation stammt von Landis und Koch (1977):

Kappa-Wert	Interpretation
< 0,00	Schlecht (schlechter als Zufall)
0,00 – 0,20	Gering
0,21 – 0,40	Ausreichend
0,41 – 0,60	Moderat
0,61 – 0,80	Substanziell
0,81 – 1,00	(Fast) perfekt

Ein $\kappa$ von 1 bedeutet perfekte Übereinstimmung, ein $\kappa$ von 0 entspricht reiner Zufallsübereinstimmung, und negative Werte deuten auf systematische Nicht-Übereinstimmung hin.

Weiterführende Literatur

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.
Landis, J. R. & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.
McHugh, M. L. (2012). Interrater reliability: the kappa statistic. Biochemia Medica, 22(3), 276–282.