Intraklassenkorrelation (ICC)#

Die Intraklassenkorrelation (ICC) ist das Standardmaß für die Übereinstimmung zwischen zwei oder mehr Beurteilern, wenn die Messungen auf einer stetigen Skala erfolgen. Während Cohens und Fleiss' Kappa für kategoriale Daten konzipiert sind, erfasst die ICC, wie konsistent Beurteiler auf einer numerischen Skala bewerten. Sie basiert auf einer varianzanalytischen Zerlegung und gibt an, welcher Anteil der Gesamtvarianz auf tatsächliche Unterschiede zwischen den Objekten zurückgeht.

Wann verwenden?#

Du hast stetige (metrische) Messungen, z. B. Bewertungen auf einer Skala von 1–100
Zwei oder mehr Beurteiler bewerten dieselben Objekte
Du möchtest sowohl Konsistenz als auch absolute Übereinstimmung beurteilen können
Du brauchst ein Maß, das über verschiedene Studiendesigns hinweg vergleichbar ist
Du willst zwischen verschiedenen Fehlerquellen (Beurteiler, Objekte, Zufall) unterscheiden

Voraussetzungen#

Stetige (metrische) Messwerte
Unabhängige Beobachtungseinheiten (Objekte)
Beurteiler repräsentativ für die Population (bei ICC(2))
Annähernd normalverteilte Residuen

ICC-Varianten#

Es gibt verschiedene ICC-Formen, die sich in ihren Annahmen unterscheiden. Die wichtigsten sind:

ICC(1,1): Jedes Objekt wird von einer zufälligen Teilmenge der Beurteiler bewertet. Wird selten verwendet.
ICC(2,1): Jedes Objekt wird von allen Beurteilern bewertet, die als zufällige Stichprobe aus einer größeren Population gelten. Dies ist die häufigste Variante — sie berücksichtigt sowohl systematische Unterschiede zwischen Beurteilern als auch Zufallsfehler.
ICC(3,1): Jedes Objekt wird von allen Beurteilern bewertet, aber die Beurteiler sind die einzigen von Interesse (fester Effekt). Systematische Unterschiede zwischen Beurteilern werden herausgerechnet. Geeignet, wenn die Ergebnisse nur für diese spezifischen Beurteiler gelten sollen.

Die Zusätze „,1" bzw. „,k" geben an, ob die Reliabilität einer Einzelmessung oder des Mittelwerts über k Beurteiler berichtet wird.

Formel#

Die Grundform der ICC (für ICC(2,1) bei absoluter Übereinstimmung) lautet:

\text{ICC} = \frac{MS_{between} - MS_{within}}{MS_{between} + (k - 1) \cdot MS_{within}}

wobei $MS_{between}$ die mittlere Quadratsumme zwischen den Objekten, $MS_{within}$ die mittlere Quadratsumme innerhalb der Objekte und $k$ die Anzahl der Beurteiler ist. Für ICC(2,1) kommt ein zusätzlicher Term für den Beurteilereffekt hinzu:

\text{ICC}(2,1) = \frac{MS_{between} - MS_{error}}{MS_{between} + (k - 1) \cdot MS_{error} + \frac{k}{n}(MS_{raters} - MS_{error})}

Beispiel#

Praxisbeispiel: Bewertung von Präsentationen

Drei Jurymitglieder bewerten die Qualität von 20 studentischen Präsentationen auf einer Skala von 1 bis 100. Jedes Jurymitglied bewertet jede Präsentation unabhängig.

Präsentation	Juror 1	Juror 2	Juror 3
1	72	68	75
2	85	82	88
3	45	50	42
...	...	...	...
20	91	87	93

Eine varianzanalytische Zerlegung ergibt $MS_{between} = 420$ , $MS_{error} = 25$ und $MS_{raters} = 30$ . Der ICC(2,1) beträgt dann ca. 0,84, was eine gute Übereinstimmung anzeigt. Die Juroren bewerten also recht konsistent — die Unterschiede in den Noten spiegeln größtenteils echte Qualitätsunterschiede der Präsentationen wider.

Effektstärke#

Die ICC ist selbst ein Effektstärkemaß. Die gängige Einteilung nach Koo und Li (2016):

ICC-Wert	Interpretation
< 0,50	Schlecht
0,50 – 0,75	Moderat
0,75 – 0,90	Gut
> 0,90	Ausgezeichnet

Wichtig: Die ICC sollte immer zusammen mit dem 95%-Konfidenzintervall berichtet werden, da die Punktschätzung allein irreführend sein kann, besonders bei kleinen Stichproben.

Weiterführende Literatur

Shrout, P. E. & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428.
Koo, T. K. & Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, 15(2), 155–163.
McGraw, K. O. & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1(1), 30–46.