Post-hoc-Verfahren#

Du hast eine ANOVA gerechnet und ein signifikantes Ergebnis erhalten — super. Aber die ANOVA sagt dir nur, dass sich mindestens zwei Gruppen unterscheiden. Welche genau? Das verraten dir Post-hoc-Tests. Sie führen systematisch paarweise Vergleiche durch und korrigieren dabei das Signifikanzniveau, damit du nicht durch Zufall falsch-positive Ergebnisse produzierst.

Warum braucht man Post-hoc-Tests?#

Stell dir vor, du vergleichst vier Lehrmethoden miteinander. Die ANOVA ergibt F(3, 76) = 4.82, p = .004 — es gibt also signifikante Unterschiede. Aber zwischen welchen Methoden? Es gibt insgesamt 6 mögliche Paarvergleiche (A–B, A–C, A–D, B–C, B–D, C–D). Würdest du einfach sechs einzelne t-Tests rechnen, würde dein tatsächliches Alpha-Niveau weit über 0.05 steigen. Post-hoc-Verfahren lösen genau dieses Problem.

Die wichtigsten Verfahren#

Tukey HSD (Honestly Significant Difference)#

Der Klassiker und oft die beste Wahl. Tukey kontrolliert die familywise error rate und vergleicht alle Gruppen paarweise.

Wann Tukey verwenden?

Gleich grosse Gruppen (oder annähernd gleich)
Varianzhomogenität ist gegeben (Levene-Test nicht signifikant)
Du möchtest alle paarweisen Vergleiche durchführen

Bonferroni-Korrektur#

Einfach und konservativ: Das Signifikanzniveau wird durch die Anzahl der Vergleiche geteilt. Bei 6 Vergleichen wird alpha = 0.05/6 = 0.0083.

Wann Bonferroni verwenden?

Wenige, vorab geplante Vergleiche
Ungleiche Gruppengrößen
Du brauchst ein einfach erklärbares Verfahren
Achtung: Bei vielen Vergleichen wird Bonferroni sehr konservativ (geringe Power)

Scheffé-Test#

Das konservativste Verfahren, aber auch das flexibelste. Scheffé erlaubt nicht nur paarweise Vergleiche, sondern auch komplexe Kontraste (z.B. Gruppe A+B vs. C+D).

Wann Scheffé verwenden?

Du willst nicht nur einfache Paarvergleiche, sondern auch komplexe Kontraste testen
Du hast keine spezifischen Hypothesen vorab formuliert
Beachte: Für reine Paarvergleiche ist Tukey meist besser (höhere Power)

Games-Howell#

Die Rettung bei Varianzheterogenität. Games-Howell setzt weder Varianzhomogenität noch gleiche Gruppengrößen voraus.

Wann Games-Howell verwenden?

Levene-Test ist signifikant (ungleiche Varianzen)
Gruppengrößen sind unterschiedlich
Alternative zum Tukey-Test, wenn dessen Voraussetzungen verletzt sind

Dunn-Bonferroni (nach Kruskal-Wallis)#

Wenn du einen nichtparametrischen Kruskal-Wallis-Test verwendet hast, brauchst du auch ein nichtparametrisches Post-hoc-Verfahren. Der Dunn-Test mit Bonferroni-Korrektur ist hier Standard.

Entscheidungshilfe: Welches Verfahren wählen?#

Situation	Empfohlenes Verfahren
Gleiche Gruppen, homogene Varianzen	Tukey HSD
Wenige geplante Vergleiche	Bonferroni
Ungleiche Varianzen	Games-Howell
Komplexe Kontraste	Scheffé
Nach Kruskal-Wallis	Dunn-Bonferroni
Sehr viele Vergleiche	Holm-Bonferroni (weniger konservativ)

Praxisbeispiel#

Vier Lehrmethoden im Vergleich

Eine Dozentin vergleicht vier Lehrmethoden (Vorlesung, Flipped Classroom, Problembasiert, Selbststudium) anhand der Klausurergebnisse (n = 20 pro Gruppe).

ANOVA: F(3, 76) = 4.82, p = .004 — signifikant
Levene-Test: p = .31 — Varianzhomogenität gegeben
Post-hoc (Tukey HSD):
- Vorlesung vs. Flipped Classroom: p = .42 (n.s.)
- Vorlesung vs. Problembasiert: p = .003 (signifikant)
- Vorlesung vs. Selbststudium: p = .87 (n.s.)
- Flipped Classroom vs. Problembasiert: p = .09 (n.s.)
- Flipped Classroom vs. Selbststudium: p = .21 (n.s.)
- Problembasiert vs. Selbststudium: p = .01 (signifikant)

Ergebnis: Problembasiertes Lernen führt zu signifikant besseren Klausurergebnissen als Vorlesung und Selbststudium.

Häufige Missverständnisse#

"Ich kann einfach viele t-Tests rechnen." — Nein. Ohne Korrektur steigt die Wahrscheinlichkeit für falsch-positive Befunde stark an. Bei 6 Vergleichen liegt das tatsächliche Alpha schon bei ca. 0.26.
"Post-hoc-Tests nur bei signifikanter ANOVA." — Das ist die gängige Praxis, aber einige Methodiker argumentieren, dass Post-hoc-Tests auch bei nicht-signifikanter ANOVA informativ sein können.
"Tukey geht immer." — Tukey setzt annähernd gleiche Gruppengrößen und Varianzhomogenität voraus. Bei Verletzung dieser Annahmen ist Games-Howell besser.
"Konservativere Tests sind immer besser." — Konservativere Verfahren (Bonferroni, Scheffé) reduzieren zwar den Typ-I-Fehler, erhöhen aber den Typ-II-Fehler. Die Wahl sollte zur Fragestellung passen.

Berichterstattung#

Post-hoc-Ergebnisse werden üblicherweise zusammen mit der ANOVA berichtet:

Eine einfaktorielle ANOVA ergab signifikante Unterschiede zwischen den Lehrmethoden, F(3, 76) = 4.82, p = .004, η² = .16. Post-hoc-Vergleiche (Tukey HSD) zeigten, dass problembasiertes Lernen zu signifikant besseren Ergebnissen führte als Vorlesung (p = .003, d = 0.89) und Selbststudium (p = .01, d = 0.74).

Weiterführende Literatur

Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5th ed.). Sage. Kapitel 12: Post-hoc-Verfahren.
Rasch, B., Friese, M., Hofmann, W. & Naumann, E. (2021). Quantitative Methoden 2 (5. Aufl.). Springer. Kapitel zu multiplen Vergleichen.
Toothaker, L. E. (1993). Multiple Comparison Procedures. Sage.