Post-hoc-Verfahren#
Du hast eine ANOVA gerechnet und ein signifikantes Ergebnis erhalten — super. Aber die ANOVA sagt dir nur, dass sich mindestens zwei Gruppen unterscheiden. Welche genau? Das verraten dir Post-hoc-Tests. Sie führen systematisch paarweise Vergleiche durch und korrigieren dabei das Signifikanzniveau, damit du nicht durch Zufall falsch-positive Ergebnisse produzierst.
Warum braucht man Post-hoc-Tests?#
Stell dir vor, du vergleichst vier Lehrmethoden miteinander. Die ANOVA ergibt F(3, 76) = 4.82, p = .004 — es gibt also signifikante Unterschiede. Aber zwischen welchen Methoden? Es gibt insgesamt 6 mögliche Paarvergleiche (A–B, A–C, A–D, B–C, B–D, C–D). Würdest du einfach sechs einzelne t-Tests rechnen, würde dein tatsächliches Alpha-Niveau weit über 0.05 steigen. Post-hoc-Verfahren lösen genau dieses Problem.
Die wichtigsten Verfahren#
Tukey HSD (Honestly Significant Difference)#
Der Klassiker und oft die beste Wahl. Tukey kontrolliert die familywise error rate und vergleicht alle Gruppen paarweise.
Wann Tukey verwenden?
- Gleich grosse Gruppen (oder annähernd gleich)
- Varianzhomogenität ist gegeben (Levene-Test nicht signifikant)
- Du möchtest alle paarweisen Vergleiche durchführen
Bonferroni-Korrektur#
Einfach und konservativ: Das Signifikanzniveau wird durch die Anzahl der Vergleiche geteilt. Bei 6 Vergleichen wird alpha = 0.05/6 = 0.0083.
Wann Bonferroni verwenden?
- Wenige, vorab geplante Vergleiche
- Ungleiche Gruppengrößen
- Du brauchst ein einfach erklärbares Verfahren
- Achtung: Bei vielen Vergleichen wird Bonferroni sehr konservativ (geringe Power)
Scheffé-Test#
Das konservativste Verfahren, aber auch das flexibelste. Scheffé erlaubt nicht nur paarweise Vergleiche, sondern auch komplexe Kontraste (z.B. Gruppe A+B vs. C+D).
Wann Scheffé verwenden?
- Du willst nicht nur einfache Paarvergleiche, sondern auch komplexe Kontraste testen
- Du hast keine spezifischen Hypothesen vorab formuliert
- Beachte: Für reine Paarvergleiche ist Tukey meist besser (höhere Power)
Games-Howell#
Die Rettung bei Varianzheterogenität. Games-Howell setzt weder Varianzhomogenität noch gleiche Gruppengrößen voraus.
Wann Games-Howell verwenden?
- Levene-Test ist signifikant (ungleiche Varianzen)
- Gruppengrößen sind unterschiedlich
- Alternative zum Tukey-Test, wenn dessen Voraussetzungen verletzt sind
Dunn-Bonferroni (nach Kruskal-Wallis)#
Wenn du einen nichtparametrischen Kruskal-Wallis-Test verwendet hast, brauchst du auch ein nichtparametrisches Post-hoc-Verfahren. Der Dunn-Test mit Bonferroni-Korrektur ist hier Standard.
Entscheidungshilfe: Welches Verfahren wählen?#
| Situation | Empfohlenes Verfahren |
|---|---|
| Gleiche Gruppen, homogene Varianzen | Tukey HSD |
| Wenige geplante Vergleiche | Bonferroni |
| Ungleiche Varianzen | Games-Howell |
| Komplexe Kontraste | Scheffé |
| Nach Kruskal-Wallis | Dunn-Bonferroni |
| Sehr viele Vergleiche | Holm-Bonferroni (weniger konservativ) |
Praxisbeispiel#
Vier Lehrmethoden im Vergleich
Eine Dozentin vergleicht vier Lehrmethoden (Vorlesung, Flipped Classroom, Problembasiert, Selbststudium) anhand der Klausurergebnisse (n = 20 pro Gruppe).
- ANOVA: F(3, 76) = 4.82, p = .004 — signifikant
- Levene-Test: p = .31 — Varianzhomogenität gegeben
- Post-hoc (Tukey HSD):
- Vorlesung vs. Flipped Classroom: p = .42 (n.s.)
- Vorlesung vs. Problembasiert: p = .003 (signifikant)
- Vorlesung vs. Selbststudium: p = .87 (n.s.)
- Flipped Classroom vs. Problembasiert: p = .09 (n.s.)
- Flipped Classroom vs. Selbststudium: p = .21 (n.s.)
- Problembasiert vs. Selbststudium: p = .01 (signifikant)
Ergebnis: Problembasiertes Lernen fĂĽhrt zu signifikant besseren Klausurergebnissen als Vorlesung und Selbststudium.
Häufige Missverständnisse#
- "Ich kann einfach viele t-Tests rechnen." — Nein. Ohne Korrektur steigt die Wahrscheinlichkeit für falsch-positive Befunde stark an. Bei 6 Vergleichen liegt das tatsächliche Alpha schon bei ca. 0.26.
- "Post-hoc-Tests nur bei signifikanter ANOVA." — Das ist die gängige Praxis, aber einige Methodiker argumentieren, dass Post-hoc-Tests auch bei nicht-signifikanter ANOVA informativ sein können.
- "Tukey geht immer." — Tukey setzt annähernd gleiche Gruppengrößen und Varianzhomogenität voraus. Bei Verletzung dieser Annahmen ist Games-Howell besser.
- "Konservativere Tests sind immer besser." — Konservativere Verfahren (Bonferroni, Scheffé) reduzieren zwar den Typ-I-Fehler, erhöhen aber den Typ-II-Fehler. Die Wahl sollte zur Fragestellung passen.
Berichterstattung#
Post-hoc-Ergebnisse werden ĂĽblicherweise zusammen mit der ANOVA berichtet:
Eine einfaktorielle ANOVA ergab signifikante Unterschiede zwischen den Lehrmethoden, F(3, 76) = 4.82, p = .004, η² = .16. Post-hoc-Vergleiche (Tukey HSD) zeigten, dass problembasiertes Lernen zu signifikant besseren Ergebnissen führte als Vorlesung (p = .003, d = 0.89) und Selbststudium (p = .01, d = 0.74).
WeiterfĂĽhrende Literatur
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5th ed.). Sage. Kapitel 12: Post-hoc-Verfahren.
- Rasch, B., Friese, M., Hofmann, W. & Naumann, E. (2021). Quantitative Methoden 2 (5. Aufl.). Springer. Kapitel zu multiplen Vergleichen.
- Toothaker, L. E. (1993). Multiple Comparison Procedures. Sage.