Interrater-Reliabilität#

Wenn zwei oder mehr Personen dasselbe beurteilen — Aufsätze benoten, Diagnosen stellen, Verhaltensweisen kodieren — stellt sich eine entscheidende Frage: Wie gut stimmen die Beurteiler überein? Die Interrater-Reliabilität quantifiziert genau das. Ohne sie wissen wir nicht, ob unsere Messungen vom Gegenstand abhängen oder einfach davon, wer gerade beurteilt.

Warum ist das wichtig?#

Stell dir vor, zwei Ärztinnen beurteilen 100 Röntgenbilder. Wenn sie in 90 % der Fälle übereinstimmen, klingt das gut. Aber was, wenn 80 % der Bilder eindeutig unauffällig sind und jede Ärztin einfach "unauffällig" ankreuzt? Dann ist die hohe Übereinstimmung zum grossen Teil auf den Zufall (bzw. die Basisrate) zurückzuführen. Genau deshalb brauchen wir zufallskorrigierte Masse.

Prozentuale Übereinstimmung vs. zufallskorrigierte Masse#

Warum die rohe Übereinstimmung täuscht

Zwei Gutachter bewerten 100 Aufsätze als "bestanden" oder "nicht bestanden". Gutachter A sagt bei 80 Aufsätzen "bestanden", Gutachter B ebenfalls. Sie stimmen in 82 Fällen überein.

Prozentuale Übereinstimmung: 82 % — klingt ordentlich.

Aber: Wenn beide unabhängig voneinander bei 80 % "bestanden" sagen, erwarten wir allein durch Zufall eine Übereinstimmung von:

P_e = (0.80 \times 0.80) + (0.20 \times 0.20) = 0.64 + 0.04 = 0.68

Also 68 % Übereinstimmung nur durch Zufall! Die tatsächliche Übereinstimmung über den Zufall hinaus ist viel geringer als die rohen 82 % vermuten lassen.

Cohens Kappa:

\kappa = \frac{P_o - P_e}{1 - P_e} = \frac{0.82 - 0.68}{1 - 0.68} = \frac{0.14}{0.32} = 0.44

Ein Kappa von 0.44 — das ist nur "moderate" Übereinstimmung, nicht "gut".

Welches Mass für welche Situation?#

Cohens Kappa — Zwei Beurteiler, kategoriale Daten#

Das Standardmass, wenn genau zwei Beurteiler kategoriale Urteile abgeben (ja/nein, Diagnose A/B/C usw.). Kappa korrigiert die beobachtete Übereinstimmung um die zufällig erwartete.

Typische Anwendung

Zwei Diagnostiker klassifizieren Patienten (Depression ja/nein)
Zwei Kodierer bewerten Interviewtranskripte (Kategoriensystem)
Zwei Lehrkräfte benoten Aufsätze (bestanden/nicht bestanden)

Gewichtetes Kappa — Ordinale Kategorien#

Wenn die Kategorien eine natürliche Ordnung haben (z.B. "leicht — mittel — schwer"), möchtest du, dass "leicht vs. schwer" stärker bestraft wird als "leicht vs. mittel". Gewichtetes Kappa tut genau das.

Fleiss' Kappa — Mehr als zwei Beurteiler#

Wenn drei oder mehr Beurteiler dieselben Objekte kategorisieren, ist Fleiss' Kappa die richtige Wahl. Es erweitert Cohens Kappa auf den Fall mehrerer Rater.

ICC (Intraclass Correlation) — Metrische Daten#

Wenn die Beurteilungen auf einer metrischen Skala erfolgen (z.B. Schmerzskala 0–10, Punkte in einem Assessment), ist der ICC das richtige Mass. Es gibt verschiedene ICC-Varianten je nachdem, ob die Beurteiler fest oder zufällig sind und ob absolute Übereinstimmung oder Konsistenz interessiert.

Interpretationsrichtlinien#

Die folgende Einteilung nach Landis und Koch (1977) wird am häufigsten zitiert:

Kappa / ICC	Interpretation
< 0.00	Schlecht (schlechter als Zufall)
0.00 – 0.20	Gering
0.21 – 0.40	Ausreichend
0.41 – 0.60	Moderat
0.61 – 0.80	Gut (substantial)
0.81 – 1.00	Sehr gut (fast perfekt)

Aber Vorsicht: Diese Grenzen sind willkürlich. In klinischen Kontexten wird oft mindestens Kappa >= 0.60 gefordert, bei Screening-Instrumenten eher >= 0.80.

Entscheidungshilfe#

Frage	Antwort	Mass
Wie viele Beurteiler?	2	Cohens Kappa / ICC
Wie viele Beurteiler?	3+	Fleiss' Kappa / ICC
Skalenniveau?	Nominal	Kappa
Skalenniveau?	Ordinal	Gewichtetes Kappa
Skalenniveau?	Metrisch	ICC

Praxisbeispiel#

Aufsatzbewertung an der Universität

Zwei Dozierende bewerten 50 Seminararbeiten unabhängig voneinander auf einer Skala von 1–6.

Prozentuale exakte Übereinstimmung: 38 % — klingt schlecht
Übereinstimmung ± 1 Notenstufe: 84 % — schon besser
ICC (two-way, absolute agreement): 0.72 — gute Übereinstimmung

Die prozentuale exakte Übereinstimmung ist bei einer 6-stufigen Skala immer niedrig. Der ICC berücksichtigt, wie nah die Urteile beieinander liegen, und gibt ein realistischeres Bild.

Übereinstimmung verbessern#

Wenn die Interrater-Reliabilität zu niedrig ist, hilft meistens:

Kodierregeln präzisieren: Klare Definitionen und Ankerbeispiele für jede Kategorie
Training: Gemeinsames Üben an Beispielfällen mit anschliessender Diskussion
Pilotphase: Erst eine kleine Stichprobe kodieren, Reliabilität prüfen, dann nachbessern
Komplexität reduzieren: Weniger Kategorien führen oft zu höherer Übereinstimmung

Häufige Missverständnisse#

"90 % Übereinstimmung ist super." — Ohne Zufallskorrektur sagt die rohe Prozentzahl wenig aus. Bei schiefer Verteilung kann 90 % Übereinstimmung einem niedrigen Kappa entsprechen.
"Kappa ist das einzige Mass." — Für metrische Daten ist der ICC besser geeignet. Kappa ist nur für kategoriale Daten gedacht.
"Niedrige Reliabilität heisst, die Beurteiler sind schlecht." — Manchmal liegt es am Beurteilungssystem: Vage Kategorien, zu viele Abstufungen oder unklare Kriterien machen es selbst erfahrenen Beurteilern schwer.
"Kappa kann nicht negativ werden." — Doch. Ein negatives Kappa bedeutet, dass die Übereinstimmung schlechter ist als der Zufall — die Beurteiler widersprechen sich systematisch.

Berichterstattung#

Die Interrater-Reliabilität wurde anhand von 50 unabhängig doppelt kodierten Fällen bestimmt. Cohens Kappa betrug kappa = .73 (95%-KI: .61–.85), was nach Landis und Koch (1977) einer guten Übereinstimmung entspricht.

Weiterführende Literatur

Landis, J. R. & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33, 159–174.
Shrout, P. E. & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86, 420–428.
Wirtz, M. & Caspar, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität. Hogrefe.