Welch-t-Test#
Der Welch-t-Test (auch Welch-Test oder ungleicher-Varianzen-t-Test) ist eine Variante des t-Tests für unabhängige Stichproben, die keine Varianzhomogenität voraussetzt. Er verwendet die Welch-Satterthwaite-Approximation, um die Freiheitsgrade anzupassen, und liefert auch bei ungleichen Varianzen und ungleichen Stichprobengrößen zuverlässige Ergebnisse. Viele Statistiker empfehlen ihn mittlerweile als Standardverfahren anstelle des klassischen t-Tests.
Wann verwenden?#
- Du vergleichst die Mittelwerte von zwei unabhängigen Gruppen
- Die Varianzen in den beiden Gruppen sind nicht gleich (Levene-Test signifikant) oder du möchtest diese Annahme nicht treffen
- Die Stichprobengrößen sind unterschiedlich — besonders dann ist der Welch-Test dem klassischen t-Test überlegen
- Du möchtest einen robusten Test verwenden, der auch bei Varianzhomogenität nur minimal an Power verliert
- Die Daten sind annähernd normalverteilt, aber die Varianzen sind heteroskedastisch
Voraussetzungen#
- Normalverteilung der Daten in beiden Gruppen (Shapiro-Wilk-Test, QQ-Plot)
- Unabhängigkeit der Beobachtungen (keine Messwiederholung)
- Metrische (intervall- oder verhältnisskalierte) abhängige Variable
- Varianzhomogenität ist NICHT erforderlich
Hinweis: Der entscheidende Vorteil des Welch-t-Tests gegenüber dem klassischen t-Test ist, dass er die Varianzhomogenität nicht voraussetzt. Bei gleichen Varianzen liefert er nahezu identische Ergebnisse wie der klassische t-Test (nur minimal konservativer). Daher empfehlen Delacre et al. (2017), den Welch-Test generell als Standard zu verwenden.
Formel#
Die Teststatistik des Welch-t-Tests:
Dabei sind und die Gruppenmittelwerte, und die Gruppenvarianzen und und die Stichprobengrößen.
Die Freiheitsgrade werden mit der Welch-Satterthwaite-Approximation berechnet:
Diese Freiheitsgrade sind in der Regel keine ganzen Zahlen und liegen zwischen und .
Beispiel#
Praxisbeispiel: Gehaltsvergleich zwischen Abteilungen
Eine HR-Analystin vergleicht die Gehälter in der Marketing-Abteilung (n = 45) und der IT-Abteilung (n = 120). Die Stichprobengrößen und Varianzen unterscheiden sich deutlich.
- Marketing: €, €
- IT: €, €
Der Levene-Test ist signifikant (), die Varianzen sind also ungleich. Der klassische t-Test wäre hier ungeeignet.
Welch-t-Test:
- (Welch-Satterthwaite)
- (zweiseitig)
- (mittlerer Effekt)
Die IT-Abteilung verdient signifikant mehr als die Marketing-Abteilung, auch nach Berücksichtigung der ungleichen Varianzen und Stichprobengrößen.
Effektstärke#
Die Effektstärke wird wie beim klassischen t-Test mit Cohens d berechnet:
| Effektstärke | |d| |
|---|---|
| Klein | 0.20 |
| Mittel | 0.50 |
| Groß | 0.80 |
Bei stark ungleichen Varianzen kann alternativ Glass' Delta () verwendet werden, das nur die Standardabweichung der Kontrollgruppe im Nenner nutzt.
Weiterführende Literatur
- Delacre, M., Lakens, D. & Leys, C. (2017). Why psychologists should by default use Welch's t-test instead of Student's t-test. International Review of Social Psychology, 30(1), 92–101.
- Ruxton, G. D. (2006). The unequal variance t-test is an underused alternative to Student's t-test and the Mann–Whitney U test. Behavioral Ecology, 17(4), 688–690.
- Rasch, B., Friese, M., Hofmann, W. & Naumann, E. (2021). Quantitative Methoden 1 (5. Aufl.). Springer.