PickMyTest

Intraklassenkorrelation (ICC)

Die Intraklassenkorrelation (ICC) misst die Übereinstimmung zwischen zwei oder mehr Beurteilern bei stetigen Messungen und quantifiziert, wie konsistent die Bewertungen sind.

Intraklassenkorrelation (ICC)#

Die Intraklassenkorrelation (ICC) ist das Standardmaß für die Übereinstimmung zwischen zwei oder mehr Beurteilern, wenn die Messungen auf einer stetigen Skala erfolgen. Während Cohens und Fleiss' Kappa für kategoriale Daten konzipiert sind, erfasst die ICC, wie konsistent Beurteiler auf einer numerischen Skala bewerten. Sie basiert auf einer varianzanalytischen Zerlegung und gibt an, welcher Anteil der Gesamtvarianz auf tatsächliche Unterschiede zwischen den Objekten zurückgeht.

Wann verwenden?#

  • Du hast stetige (metrische) Messungen, z. B. Bewertungen auf einer Skala von 1–100
  • Zwei oder mehr Beurteiler bewerten dieselben Objekte
  • Du möchtest sowohl Konsistenz als auch absolute Übereinstimmung beurteilen können
  • Du brauchst ein Maß, das über verschiedene Studiendesigns hinweg vergleichbar ist
  • Du willst zwischen verschiedenen Fehlerquellen (Beurteiler, Objekte, Zufall) unterscheiden

Voraussetzungen#

  • Stetige (metrische) Messwerte
  • Unabhängige Beobachtungseinheiten (Objekte)
  • Beurteiler repräsentativ für die Population (bei ICC(2))
  • Annähernd normalverteilte Residuen

ICC-Varianten#

Es gibt verschiedene ICC-Formen, die sich in ihren Annahmen unterscheiden. Die wichtigsten sind:

  • ICC(1,1): Jedes Objekt wird von einer zufälligen Teilmenge der Beurteiler bewertet. Wird selten verwendet.
  • ICC(2,1): Jedes Objekt wird von allen Beurteilern bewertet, die als zufällige Stichprobe aus einer größeren Population gelten. Dies ist die häufigste Variante — sie berücksichtigt sowohl systematische Unterschiede zwischen Beurteilern als auch Zufallsfehler.
  • ICC(3,1): Jedes Objekt wird von allen Beurteilern bewertet, aber die Beurteiler sind die einzigen von Interesse (fester Effekt). Systematische Unterschiede zwischen Beurteilern werden herausgerechnet. Geeignet, wenn die Ergebnisse nur für diese spezifischen Beurteiler gelten sollen.

Die Zusätze „,1" bzw. „,k" geben an, ob die Reliabilität einer Einzelmessung oder des Mittelwerts über k Beurteiler berichtet wird.

Formel#

Die Grundform der ICC (für ICC(2,1) bei absoluter Übereinstimmung) lautet:

ICC=MSbetweenMSwithinMSbetween+(k1)MSwithin\text{ICC} = \frac{MS_{between} - MS_{within}}{MS_{between} + (k - 1) \cdot MS_{within}}

wobei MSbetweenMS_{between} die mittlere Quadratsumme zwischen den Objekten, MSwithinMS_{within} die mittlere Quadratsumme innerhalb der Objekte und kk die Anzahl der Beurteiler ist. Für ICC(2,1) kommt ein zusätzlicher Term für den Beurteilereffekt hinzu:

ICC(2,1)=MSbetweenMSerrorMSbetween+(k1)MSerror+kn(MSratersMSerror)\text{ICC}(2,1) = \frac{MS_{between} - MS_{error}}{MS_{between} + (k - 1) \cdot MS_{error} + \frac{k}{n}(MS_{raters} - MS_{error})}

Beispiel#

Praxisbeispiel: Bewertung von Präsentationen

Drei Jurymitglieder bewerten die Qualität von 20 studentischen Präsentationen auf einer Skala von 1 bis 100. Jedes Jurymitglied bewertet jede Präsentation unabhängig.

PräsentationJuror 1Juror 2Juror 3
1726875
2858288
3455042
............
20918793

Eine varianzanalytische Zerlegung ergibt MSbetween=420MS_{between} = 420, MSerror=25MS_{error} = 25 und MSraters=30MS_{raters} = 30. Der ICC(2,1) beträgt dann ca. 0,84, was eine gute Übereinstimmung anzeigt. Die Juroren bewerten also recht konsistent — die Unterschiede in den Noten spiegeln größtenteils echte Qualitätsunterschiede der Präsentationen wider.

Effektstärke#

Die ICC ist selbst ein Effektstärkemaß. Die gängige Einteilung nach Koo und Li (2016):

ICC-WertInterpretation
< 0,50Schlecht
0,50 – 0,75Moderat
0,75 – 0,90Gut
> 0,90Ausgezeichnet

Wichtig: Die ICC sollte immer zusammen mit dem 95%-Konfidenzintervall berichtet werden, da die Punktschätzung allein irreführend sein kann, besonders bei kleinen Stichproben.

Weiterführende Literatur

  • Shrout, P. E. & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428.
  • Koo, T. K. & Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, 15(2), 155–163.
  • McGraw, K. O. & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1(1), 30–46.