Fleiss' Kappa#

Fleiss' Kappa (κ) ist eine Erweiterung von Cohens Kappa für Situationen, in denen drei oder mehr Beurteiler dieselben Objekte in Kategorien einordnen. Wie Cohens Kappa korrigiert es für zufällige Übereinstimmung, ist aber für beliebig viele Beurteiler anwendbar. Es ist das Standardmaß, wenn mehrere Personen dieselben Fälle unabhängig beurteilen.

Wann verwenden?#

Du hast drei oder mehr Beurteiler, die unabhängig voneinander bewerten
Die Bewertungen erfolgen auf einer kategorialen Skala (z. B. normal/auffällig/unklar)
Jedes Objekt wird von einer festen Anzahl von Beurteilern bewertet
Du möchtest die Gesamtübereinstimmung über alle Beurteiler hinweg quantifizieren
Du brauchst eine zufallskorrigierte Kennzahl für die Übereinstimmung

Voraussetzungen#

Feste Anzahl von Beurteilern pro Objekt
Kategoriale Skala (nominal oder ordinal)
Unabhängige Bewertungen (kein gegenseitiger Einfluss)
Jedes Objekt wird von derselben Anzahl Beurteiler bewertet

Formel#

Fleiss' Kappa basiert auf dem Vergleich der beobachteten Übereinstimmung $\bar{P}$ mit der zufällig erwarteten Übereinstimmung $\bar{P}_e$ :

\kappa = \frac{\bar{P} - \bar{P}_e}{1 - \bar{P}_e}

Für jedes Objekt $i$ wird die paarweise Übereinstimmung berechnet:

P_i = \frac{1}{n(n-1)} \sum_{j=1}^{k} n_{ij}(n_{ij} - 1)

wobei $n$ die Anzahl der Beurteiler pro Objekt, $k$ die Anzahl der Kategorien und $n_{ij}$ die Anzahl der Beurteiler ist, die Objekt $i$ in Kategorie $j$ einordnen. $\bar{P}$ ist der Mittelwert aller $P_i$ , und $\bar{P}_e$ ergibt sich aus den Gesamthäufigkeiten der Kategorien:

\bar{P}_e = \sum_{j=1}^{k} p_j^2

wobei $p_j$ der Gesamtanteil der Bewertungen in Kategorie $j$ ist.

Beispiel#

Praxisbeispiel: Röntgenbefundung durch drei Radiologen

Drei Radiologen bewerten unabhängig voneinander 50 Röntgenbilder als normal, auffällig oder unklar. Die Ergebnisse werden in einer Tabelle zusammengefasst, in der für jedes Bild die Anzahl der Radiologen pro Kategorie eingetragen wird.

Bild	Normal	Auffällig	Unklar
1	3	0	0
2	1	2	0
3	0	1	2
...	...	...	...
50	2	1	0

Für Bild 1 stimmen alle drei überein ( $P_1 = 1{,}0$ ), für Bild 2 stimmen zwei überein ( $P_2 = 0{,}33$ ). Nach Berechnung aller $P_i$ und der Zufallserwartung ergibt sich beispielsweise $\kappa = 0{,}58$ , was auf eine moderate Übereinstimmung hinweist.

Effektstärke#

Fleiss' Kappa wird wie Cohens Kappa interpretiert — es ist selbst ein Effektstärkemaß. Die gängige Einteilung nach Landis und Koch (1977):

Kappa-Wert	Interpretation
< 0,00	Schlecht (schlechter als Zufall)
0,00 – 0,20	Gering
0,21 – 0,40	Ausreichend
0,41 – 0,60	Moderat
0,61 – 0,80	Substanziell
0,81 – 1,00	(Fast) perfekt

Beachte: Fleiss' Kappa fällt in der Praxis oft niedriger aus als Cohens Kappa, da die Übereinstimmung über mehr Beurteiler schwieriger zu erreichen ist.

Weiterführende Literatur

Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378–382.
Landis, J. R. & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.
Gwet, K. L. (2014). Handbook of Inter-Rater Reliability (4. Aufl.). Advanced Analytics.