Fleiss' Kappa#
Fleiss' Kappa (κ) ist eine Erweiterung von Cohens Kappa für Situationen, in denen drei oder mehr Beurteiler dieselben Objekte in Kategorien einordnen. Wie Cohens Kappa korrigiert es für zufällige Übereinstimmung, ist aber für beliebig viele Beurteiler anwendbar. Es ist das Standardmaß, wenn mehrere Personen dieselben Fälle unabhängig beurteilen.
Wann verwenden?#
- Du hast drei oder mehr Beurteiler, die unabhängig voneinander bewerten
- Die Bewertungen erfolgen auf einer kategorialen Skala (z. B. normal/auffällig/unklar)
- Jedes Objekt wird von einer festen Anzahl von Beurteilern bewertet
- Du möchtest die Gesamtübereinstimmung über alle Beurteiler hinweg quantifizieren
- Du brauchst eine zufallskorrigierte Kennzahl für die Übereinstimmung
Voraussetzungen#
- Feste Anzahl von Beurteilern pro Objekt
- Kategoriale Skala (nominal oder ordinal)
- Unabhängige Bewertungen (kein gegenseitiger Einfluss)
- Jedes Objekt wird von derselben Anzahl Beurteiler bewertet
Formel#
Fleiss' Kappa basiert auf dem Vergleich der beobachteten Übereinstimmung mit der zufällig erwarteten Übereinstimmung :
Für jedes Objekt wird die paarweise Übereinstimmung berechnet:
wobei die Anzahl der Beurteiler pro Objekt, die Anzahl der Kategorien und die Anzahl der Beurteiler ist, die Objekt in Kategorie einordnen. ist der Mittelwert aller , und ergibt sich aus den Gesamthäufigkeiten der Kategorien:
wobei der Gesamtanteil der Bewertungen in Kategorie ist.
Beispiel#
Praxisbeispiel: Röntgenbefundung durch drei Radiologen
Drei Radiologen bewerten unabhängig voneinander 50 Röntgenbilder als normal, auffällig oder unklar. Die Ergebnisse werden in einer Tabelle zusammengefasst, in der für jedes Bild die Anzahl der Radiologen pro Kategorie eingetragen wird.
| Bild | Normal | Auffällig | Unklar |
|---|---|---|---|
| 1 | 3 | 0 | 0 |
| 2 | 1 | 2 | 0 |
| 3 | 0 | 1 | 2 |
| ... | ... | ... | ... |
| 50 | 2 | 1 | 0 |
Für Bild 1 stimmen alle drei überein (), für Bild 2 stimmen zwei überein (). Nach Berechnung aller und der Zufallserwartung ergibt sich beispielsweise , was auf eine moderate Übereinstimmung hinweist.
Effektstärke#
Fleiss' Kappa wird wie Cohens Kappa interpretiert — es ist selbst ein Effektstärkemaß. Die gängige Einteilung nach Landis und Koch (1977):
| Kappa-Wert | Interpretation |
|---|---|
| < 0,00 | Schlecht (schlechter als Zufall) |
| 0,00 – 0,20 | Gering |
| 0,21 – 0,40 | Ausreichend |
| 0,41 – 0,60 | Moderat |
| 0,61 – 0,80 | Substanziell |
| 0,81 – 1,00 | (Fast) perfekt |
Beachte: Fleiss' Kappa fällt in der Praxis oft niedriger aus als Cohens Kappa, da die Übereinstimmung über mehr Beurteiler schwieriger zu erreichen ist.
Weiterführende Literatur
- Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378–382.
- Landis, J. R. & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.
- Gwet, K. L. (2014). Handbook of Inter-Rater Reliability (4. Aufl.). Advanced Analytics.