PickMyTest

Post-hoc-Verfahren

Welche Post-hoc-Tests nach einer signifikanten ANOVA verwenden und warum

Post-hoc-Verfahren#

Du hast eine ANOVA gerechnet und ein signifikantes Ergebnis erhalten — super. Aber die ANOVA sagt dir nur, dass sich mindestens zwei Gruppen unterscheiden. Welche genau? Das verraten dir Post-hoc-Tests. Sie führen systematisch paarweise Vergleiche durch und korrigieren dabei das Signifikanzniveau, damit du nicht durch Zufall falsch-positive Ergebnisse produzierst.

Warum braucht man Post-hoc-Tests?#

Stell dir vor, du vergleichst vier Lehrmethoden miteinander. Die ANOVA ergibt F(3, 76) = 4.82, p = .004 — es gibt also signifikante Unterschiede. Aber zwischen welchen Methoden? Es gibt insgesamt 6 mögliche Paarvergleiche (A–B, A–C, A–D, B–C, B–D, C–D). Würdest du einfach sechs einzelne t-Tests rechnen, würde dein tatsächliches Alpha-Niveau weit über 0.05 steigen. Post-hoc-Verfahren lösen genau dieses Problem.

Die wichtigsten Verfahren#

Tukey HSD (Honestly Significant Difference)#

Der Klassiker und oft die beste Wahl. Tukey kontrolliert die familywise error rate und vergleicht alle Gruppen paarweise.

Wann Tukey verwenden?

  • Gleich grosse Gruppen (oder annähernd gleich)
  • Varianzhomogenität ist gegeben (Levene-Test nicht signifikant)
  • Du möchtest alle paarweisen Vergleiche durchfĂĽhren

Bonferroni-Korrektur#

Einfach und konservativ: Das Signifikanzniveau wird durch die Anzahl der Vergleiche geteilt. Bei 6 Vergleichen wird alpha = 0.05/6 = 0.0083.

Wann Bonferroni verwenden?

  • Wenige, vorab geplante Vergleiche
  • Ungleiche Gruppengrößen
  • Du brauchst ein einfach erklärbares Verfahren
  • Achtung: Bei vielen Vergleichen wird Bonferroni sehr konservativ (geringe Power)

Scheffé-Test#

Das konservativste Verfahren, aber auch das flexibelste. Scheffé erlaubt nicht nur paarweise Vergleiche, sondern auch komplexe Kontraste (z.B. Gruppe A+B vs. C+D).

Wann Scheffé verwenden?

  • Du willst nicht nur einfache Paarvergleiche, sondern auch komplexe Kontraste testen
  • Du hast keine spezifischen Hypothesen vorab formuliert
  • Beachte: FĂĽr reine Paarvergleiche ist Tukey meist besser (höhere Power)

Games-Howell#

Die Rettung bei Varianzheterogenität. Games-Howell setzt weder Varianzhomogenität noch gleiche Gruppengrößen voraus.

Wann Games-Howell verwenden?

  • Levene-Test ist signifikant (ungleiche Varianzen)
  • Gruppengrößen sind unterschiedlich
  • Alternative zum Tukey-Test, wenn dessen Voraussetzungen verletzt sind

Dunn-Bonferroni (nach Kruskal-Wallis)#

Wenn du einen nichtparametrischen Kruskal-Wallis-Test verwendet hast, brauchst du auch ein nichtparametrisches Post-hoc-Verfahren. Der Dunn-Test mit Bonferroni-Korrektur ist hier Standard.

Entscheidungshilfe: Welches Verfahren wählen?#

SituationEmpfohlenes Verfahren
Gleiche Gruppen, homogene VarianzenTukey HSD
Wenige geplante VergleicheBonferroni
Ungleiche VarianzenGames-Howell
Komplexe KontrasteScheffé
Nach Kruskal-WallisDunn-Bonferroni
Sehr viele VergleicheHolm-Bonferroni (weniger konservativ)

Praxisbeispiel#

Vier Lehrmethoden im Vergleich

Eine Dozentin vergleicht vier Lehrmethoden (Vorlesung, Flipped Classroom, Problembasiert, Selbststudium) anhand der Klausurergebnisse (n = 20 pro Gruppe).

  1. ANOVA: F(3, 76) = 4.82, p = .004 — signifikant
  2. Levene-Test: p = .31 — Varianzhomogenität gegeben
  3. Post-hoc (Tukey HSD):
    • Vorlesung vs. Flipped Classroom: p = .42 (n.s.)
    • Vorlesung vs. Problembasiert: p = .003 (signifikant)
    • Vorlesung vs. Selbststudium: p = .87 (n.s.)
    • Flipped Classroom vs. Problembasiert: p = .09 (n.s.)
    • Flipped Classroom vs. Selbststudium: p = .21 (n.s.)
    • Problembasiert vs. Selbststudium: p = .01 (signifikant)

Ergebnis: Problembasiertes Lernen fĂĽhrt zu signifikant besseren Klausurergebnissen als Vorlesung und Selbststudium.

Häufige Missverständnisse#

  • "Ich kann einfach viele t-Tests rechnen." — Nein. Ohne Korrektur steigt die Wahrscheinlichkeit fĂĽr falsch-positive Befunde stark an. Bei 6 Vergleichen liegt das tatsächliche Alpha schon bei ca. 0.26.
  • "Post-hoc-Tests nur bei signifikanter ANOVA." — Das ist die gängige Praxis, aber einige Methodiker argumentieren, dass Post-hoc-Tests auch bei nicht-signifikanter ANOVA informativ sein können.
  • "Tukey geht immer." — Tukey setzt annähernd gleiche Gruppengrößen und Varianzhomogenität voraus. Bei Verletzung dieser Annahmen ist Games-Howell besser.
  • "Konservativere Tests sind immer besser." — Konservativere Verfahren (Bonferroni, ScheffĂ©) reduzieren zwar den Typ-I-Fehler, erhöhen aber den Typ-II-Fehler. Die Wahl sollte zur Fragestellung passen.

Berichterstattung#

Post-hoc-Ergebnisse werden ĂĽblicherweise zusammen mit der ANOVA berichtet:

Eine einfaktorielle ANOVA ergab signifikante Unterschiede zwischen den Lehrmethoden, F(3, 76) = 4.82, p = .004, η² = .16. Post-hoc-Vergleiche (Tukey HSD) zeigten, dass problembasiertes Lernen zu signifikant besseren Ergebnissen führte als Vorlesung (p = .003, d = 0.89) und Selbststudium (p = .01, d = 0.74).

WeiterfĂĽhrende Literatur

  • Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5th ed.). Sage. Kapitel 12: Post-hoc-Verfahren.
  • Rasch, B., Friese, M., Hofmann, W. & Naumann, E. (2021). Quantitative Methoden 2 (5. Aufl.). Springer. Kapitel zu multiplen Vergleichen.
  • Toothaker, L. E. (1993). Multiple Comparison Procedures. Sage.