Welch-t-Test#

Der Welch-t-Test (auch Welch-Test oder ungleicher-Varianzen-t-Test) ist eine Variante des t-Tests für unabhängige Stichproben, die keine Varianzhomogenität voraussetzt. Er verwendet die Welch-Satterthwaite-Approximation, um die Freiheitsgrade anzupassen, und liefert auch bei ungleichen Varianzen und ungleichen Stichprobengrößen zuverlässige Ergebnisse. Viele Statistiker empfehlen ihn mittlerweile als Standardverfahren anstelle des klassischen t-Tests.

Wann verwenden?#

Du vergleichst die Mittelwerte von zwei unabhängigen Gruppen
Die Varianzen in den beiden Gruppen sind nicht gleich (Levene-Test signifikant) oder du möchtest diese Annahme nicht treffen
Die Stichprobengrößen sind unterschiedlich — besonders dann ist der Welch-Test dem klassischen t-Test überlegen
Du möchtest einen robusten Test verwenden, der auch bei Varianzhomogenität nur minimal an Power verliert
Die Daten sind annähernd normalverteilt, aber die Varianzen sind heteroskedastisch

Voraussetzungen#

Normalverteilung der Daten in beiden Gruppen (Shapiro-Wilk-Test, QQ-Plot)
Unabhängigkeit der Beobachtungen (keine Messwiederholung)
Metrische (intervall- oder verhältnisskalierte) abhängige Variable
Varianzhomogenität ist NICHT erforderlich

Hinweis: Der entscheidende Vorteil des Welch-t-Tests gegenüber dem klassischen t-Test ist, dass er die Varianzhomogenität nicht voraussetzt. Bei gleichen Varianzen liefert er nahezu identische Ergebnisse wie der klassische t-Test (nur minimal konservativer). Daher empfehlen Delacre et al. (2017), den Welch-Test generell als Standard zu verwenden.

Formel#

Die Teststatistik des Welch-t-Tests:

t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Dabei sind $\bar{X}_1$ und $\bar{X}_2$ die Gruppenmittelwerte, $s_1^2$ und $s_2^2$ die Gruppenvarianzen und $n_1$ und $n_2$ die Stichprobengrößen.

Die Freiheitsgrade werden mit der Welch-Satterthwaite-Approximation berechnet:

df = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{\left(\frac{s_1^2}{n_1}\right)^2}{n_1 - 1} + \frac{\left(\frac{s_2^2}{n_2}\right)^2}{n_2 - 1}}

Diese Freiheitsgrade sind in der Regel keine ganzen Zahlen und liegen zwischen $\min(n_1, n_2) - 1$ und $n_1 + n_2 - 2$ .

Beispiel#

Praxisbeispiel: Gehaltsvergleich zwischen Abteilungen

Eine HR-Analystin vergleicht die Gehälter in der Marketing-Abteilung (n = 45) und der IT-Abteilung (n = 120). Die Stichprobengrößen und Varianzen unterscheiden sich deutlich.

Marketing: $\bar{X}_1 = 52\,400$ €, $s_1 = 8\,200$ €
IT: $\bar{X}_2 = 58\,600$ €, $s_2 = 14\,500$ €

Der Levene-Test ist signifikant ( $p = .003$ ), die Varianzen sind also ungleich. Der klassische t-Test wäre hier ungeeignet.

Welch-t-Test:

t = \frac{52\,400 - 58\,600}{\sqrt{\frac{8200^2}{45} + \frac{14500^2}{120}}} = \frac{-6\,200}{1\,698} = -3.65

$df = 127.4$ (Welch-Satterthwaite)
$p < .001$ (zweiseitig)
$d = -0.56$ (mittlerer Effekt)

Die IT-Abteilung verdient signifikant mehr als die Marketing-Abteilung, auch nach Berücksichtigung der ungleichen Varianzen und Stichprobengrößen.

Effektstärke#

Die Effektstärke wird wie beim klassischen t-Test mit Cohens d berechnet:

d = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{(n_1 - 1) \cdot s_1^2 + (n_2 - 1) \cdot s_2^2}{n_1 + n_2 - 2}}}

Effektstärke	\|d\|
Klein	0.20
Mittel	0.50
Groß	0.80

Bei stark ungleichen Varianzen kann alternativ Glass' Delta ( $\Delta$ ) verwendet werden, das nur die Standardabweichung der Kontrollgruppe im Nenner nutzt.

Weiterführende Literatur

Delacre, M., Lakens, D. & Leys, C. (2017). Why psychologists should by default use Welch's t-test instead of Student's t-test. International Review of Social Psychology, 30(1), 92–101.
Ruxton, G. D. (2006). The unequal variance t-test is an underused alternative to Student's t-test and the Mann–Whitney U test. Behavioral Ecology, 17(4), 688–690.
Rasch, B., Friese, M., Hofmann, W. & Naumann, E. (2021). Quantitative Methoden 1 (5. Aufl.). Springer.