PickMyTest

Fleiss' Kappa

Fleiss' Kappa erweitert Cohens Kappa auf drei oder mehr Beurteiler und misst die Übereinstimmung bei kategorialen Daten unter Berücksichtigung des Zufalls.

Fleiss' Kappa#

Fleiss' Kappa (κ) ist eine Erweiterung von Cohens Kappa für Situationen, in denen drei oder mehr Beurteiler dieselben Objekte in Kategorien einordnen. Wie Cohens Kappa korrigiert es für zufällige Übereinstimmung, ist aber für beliebig viele Beurteiler anwendbar. Es ist das Standardmaß, wenn mehrere Personen dieselben Fälle unabhängig beurteilen.

Wann verwenden?#

  • Du hast drei oder mehr Beurteiler, die unabhängig voneinander bewerten
  • Die Bewertungen erfolgen auf einer kategorialen Skala (z. B. normal/auffällig/unklar)
  • Jedes Objekt wird von einer festen Anzahl von Beurteilern bewertet
  • Du möchtest die Gesamtübereinstimmung über alle Beurteiler hinweg quantifizieren
  • Du brauchst eine zufallskorrigierte Kennzahl für die Übereinstimmung

Voraussetzungen#

  • Feste Anzahl von Beurteilern pro Objekt
  • Kategoriale Skala (nominal oder ordinal)
  • Unabhängige Bewertungen (kein gegenseitiger Einfluss)
  • Jedes Objekt wird von derselben Anzahl Beurteiler bewertet

Formel#

Fleiss' Kappa basiert auf dem Vergleich der beobachteten Übereinstimmung Pˉ\bar{P} mit der zufällig erwarteten Übereinstimmung Pˉe\bar{P}_e:

κ=PˉPˉe1Pˉe\kappa = \frac{\bar{P} - \bar{P}_e}{1 - \bar{P}_e}

Für jedes Objekt ii wird die paarweise Übereinstimmung berechnet:

Pi=1n(n1)j=1knij(nij1)P_i = \frac{1}{n(n-1)} \sum_{j=1}^{k} n_{ij}(n_{ij} - 1)

wobei nn die Anzahl der Beurteiler pro Objekt, kk die Anzahl der Kategorien und nijn_{ij} die Anzahl der Beurteiler ist, die Objekt ii in Kategorie jj einordnen. Pˉ\bar{P} ist der Mittelwert aller PiP_i, und Pˉe\bar{P}_e ergibt sich aus den Gesamthäufigkeiten der Kategorien:

Pˉe=j=1kpj2\bar{P}_e = \sum_{j=1}^{k} p_j^2

wobei pjp_j der Gesamtanteil der Bewertungen in Kategorie jj ist.

Beispiel#

Praxisbeispiel: Röntgenbefundung durch drei Radiologen

Drei Radiologen bewerten unabhängig voneinander 50 Röntgenbilder als normal, auffällig oder unklar. Die Ergebnisse werden in einer Tabelle zusammengefasst, in der für jedes Bild die Anzahl der Radiologen pro Kategorie eingetragen wird.

BildNormalAuffälligUnklar
1300
2120
3012
............
50210

Für Bild 1 stimmen alle drei überein (P1=1,0P_1 = 1{,}0), für Bild 2 stimmen zwei überein (P2=0,33P_2 = 0{,}33). Nach Berechnung aller PiP_i und der Zufallserwartung ergibt sich beispielsweise κ=0,58\kappa = 0{,}58, was auf eine moderate Übereinstimmung hinweist.

Effektstärke#

Fleiss' Kappa wird wie Cohens Kappa interpretiert — es ist selbst ein Effektstärkemaß. Die gängige Einteilung nach Landis und Koch (1977):

Kappa-WertInterpretation
< 0,00Schlecht (schlechter als Zufall)
0,00 – 0,20Gering
0,21 – 0,40Ausreichend
0,41 – 0,60Moderat
0,61 – 0,80Substanziell
0,81 – 1,00(Fast) perfekt

Beachte: Fleiss' Kappa fällt in der Praxis oft niedriger aus als Cohens Kappa, da die Übereinstimmung über mehr Beurteiler schwieriger zu erreichen ist.

Weiterführende Literatur

  • Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378–382.
  • Landis, J. R. & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.
  • Gwet, K. L. (2014). Handbook of Inter-Rater Reliability (4. Aufl.). Advanced Analytics.