Cohens Kappa#
Cohens Kappa (κ) ist ein statistisches Maß, das die Übereinstimmung zwischen genau zwei Beurteilern quantifiziert, die dieselben Objekte in Kategorien einordnen. Im Gegensatz zur einfachen prozentualen Übereinstimmung berücksichtigt Kappa den Anteil der Übereinstimmung, der allein durch Zufall zu erwarten wäre. Damit liefert es ein deutlich realistischeres Bild der tatsächlichen Beurteilerübereinstimmung.
Wann verwenden?#
- Du hast genau zwei Beurteiler, die unabhängig voneinander bewerten
- Die Bewertungen erfolgen auf einer kategorialen Skala (z. B. gesund/krank, Typ A/B/C)
- Du möchtest wissen, ob die Übereinstimmung über das Zufallsniveau hinausgeht
- Die Beurteiler bewerten dieselbe Gruppe von Objekten (Patienten, Bilder, Texte usw.)
- Du brauchst ein einzelnes, leicht interpretierbares Maß für die Übereinstimmung
Voraussetzungen#
- Genau 2 Beurteiler
- Beide bewerten dieselben Objekte
- Kategoriale Skala (nominal oder ordinal)
- Unabhängige Bewertungen (kein gegenseitiger Einfluss)
Formel#
Cohens Kappa berechnet sich aus der beobachteten Übereinstimmung und der zufällig erwarteten Übereinstimmung :
Dabei ist der Anteil der Fälle, in denen beide Beurteiler übereinstimmen, und der Anteil der Übereinstimmung, der bei zufälliger Zuordnung zu erwarten wäre. ergibt sich aus den Randverteilungen der Kontingenztabelle:
wobei und die relativen Häufigkeiten der Kategorie bei Beurteiler 1 bzw. 2 sind.
Beispiel#
Praxisbeispiel: Diagnose durch zwei Ärzte
Zwei Ärzte untersuchen unabhängig voneinander 100 Patienten und stufen jeden als gesund oder krank ein. Die Ergebnisse:
| Arzt 2: gesund | Arzt 2: krank | Summe | |
|---|---|---|---|
| Arzt 1: gesund | 40 | 10 | 50 |
| Arzt 1: krank | 5 | 45 | 50 |
| Summe | 45 | 55 | 100 |
Beobachtete Übereinstimmung:
Erwartete Übereinstimmung:
Kappa:
Mit liegt eine substanzielle Übereinstimmung vor.
Effektstärke#
Cohens Kappa ist selbst ein Maß für die Effektstärke. Die gebräuchlichste Interpretation stammt von Landis und Koch (1977):
| Kappa-Wert | Interpretation |
|---|---|
| < 0,00 | Schlecht (schlechter als Zufall) |
| 0,00 – 0,20 | Gering |
| 0,21 – 0,40 | Ausreichend |
| 0,41 – 0,60 | Moderat |
| 0,61 – 0,80 | Substanziell |
| 0,81 – 1,00 | (Fast) perfekt |
Ein von 1 bedeutet perfekte Übereinstimmung, ein von 0 entspricht reiner Zufallsübereinstimmung, und negative Werte deuten auf systematische Nicht-Übereinstimmung hin.
Weiterführende Literatur
- Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.
- Landis, J. R. & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.
- McHugh, M. L. (2012). Interrater reliability: the kappa statistic. Biochemia Medica, 22(3), 276–282.