PickMyTest

Welch-t-Test

Der Welch-t-Test vergleicht die Mittelwerte zweier unabhängiger Gruppen, ohne gleiche Varianzen vorauszusetzen. Er verwendet die Welch-Satterthwaite-Approximation für die Freiheitsgrade.

Welch-t-Test#

Der Welch-t-Test (auch Welch-Test oder ungleicher-Varianzen-t-Test) ist eine Variante des t-Tests für unabhängige Stichproben, die keine Varianzhomogenität voraussetzt. Er verwendet die Welch-Satterthwaite-Approximation, um die Freiheitsgrade anzupassen, und liefert auch bei ungleichen Varianzen und ungleichen Stichprobengrößen zuverlässige Ergebnisse. Viele Statistiker empfehlen ihn mittlerweile als Standardverfahren anstelle des klassischen t-Tests.

Wann verwenden?#

  • Du vergleichst die Mittelwerte von zwei unabhängigen Gruppen
  • Die Varianzen in den beiden Gruppen sind nicht gleich (Levene-Test signifikant) oder du möchtest diese Annahme nicht treffen
  • Die Stichprobengrößen sind unterschiedlich — besonders dann ist der Welch-Test dem klassischen t-Test überlegen
  • Du möchtest einen robusten Test verwenden, der auch bei Varianzhomogenität nur minimal an Power verliert
  • Die Daten sind annähernd normalverteilt, aber die Varianzen sind heteroskedastisch

Voraussetzungen#

  • Normalverteilung der Daten in beiden Gruppen (Shapiro-Wilk-Test, QQ-Plot)
  • Unabhängigkeit der Beobachtungen (keine Messwiederholung)
  • Metrische (intervall- oder verhältnisskalierte) abhängige Variable
  • Varianzhomogenität ist NICHT erforderlich

Hinweis: Der entscheidende Vorteil des Welch-t-Tests gegenüber dem klassischen t-Test ist, dass er die Varianzhomogenität nicht voraussetzt. Bei gleichen Varianzen liefert er nahezu identische Ergebnisse wie der klassische t-Test (nur minimal konservativer). Daher empfehlen Delacre et al. (2017), den Welch-Test generell als Standard zu verwenden.

Formel#

Die Teststatistik des Welch-t-Tests:

t=Xˉ1Xˉ2s12n1+s22n2t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

Dabei sind Xˉ1\bar{X}_1 und Xˉ2\bar{X}_2 die Gruppenmittelwerte, s12s_1^2 und s22s_2^2 die Gruppenvarianzen und n1n_1 und n2n_2 die Stichprobengrößen.

Die Freiheitsgrade werden mit der Welch-Satterthwaite-Approximation berechnet:

df=(s12n1+s22n2)2(s12n1)2n11+(s22n2)2n21df = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{\left(\frac{s_1^2}{n_1}\right)^2}{n_1 - 1} + \frac{\left(\frac{s_2^2}{n_2}\right)^2}{n_2 - 1}}

Diese Freiheitsgrade sind in der Regel keine ganzen Zahlen und liegen zwischen min(n1,n2)1\min(n_1, n_2) - 1 und n1+n22n_1 + n_2 - 2.

Beispiel#

Praxisbeispiel: Gehaltsvergleich zwischen Abteilungen

Eine HR-Analystin vergleicht die Gehälter in der Marketing-Abteilung (n = 45) und der IT-Abteilung (n = 120). Die Stichprobengrößen und Varianzen unterscheiden sich deutlich.

  • Marketing: Xˉ1=52400\bar{X}_1 = 52\,400 €, s1=8200s_1 = 8\,200
  • IT: Xˉ2=58600\bar{X}_2 = 58\,600 €, s2=14500s_2 = 14\,500

Der Levene-Test ist signifikant (p=.003p = .003), die Varianzen sind also ungleich. Der klassische t-Test wäre hier ungeeignet.

Welch-t-Test:

t=52400586008200245+145002120=62001698=3.65t = \frac{52\,400 - 58\,600}{\sqrt{\frac{8200^2}{45} + \frac{14500^2}{120}}} = \frac{-6\,200}{1\,698} = -3.65
  • df=127.4df = 127.4 (Welch-Satterthwaite)
  • p<.001p < .001 (zweiseitig)
  • d=0.56d = -0.56 (mittlerer Effekt)

Die IT-Abteilung verdient signifikant mehr als die Marketing-Abteilung, auch nach Berücksichtigung der ungleichen Varianzen und Stichprobengrößen.

Effektstärke#

Die Effektstärke wird wie beim klassischen t-Test mit Cohens d berechnet:

d=Xˉ1Xˉ2(n11)s12+(n21)s22n1+n22d = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{(n_1 - 1) \cdot s_1^2 + (n_2 - 1) \cdot s_2^2}{n_1 + n_2 - 2}}}
Effektstärke|d|
Klein0.20
Mittel0.50
Groß0.80

Bei stark ungleichen Varianzen kann alternativ Glass' Delta (Δ\Delta) verwendet werden, das nur die Standardabweichung der Kontrollgruppe im Nenner nutzt.

Weiterführende Literatur

  • Delacre, M., Lakens, D. & Leys, C. (2017). Why psychologists should by default use Welch's t-test instead of Student's t-test. International Review of Social Psychology, 30(1), 92–101.
  • Ruxton, G. D. (2006). The unequal variance t-test is an underused alternative to Student's t-test and the Mann–Whitney U test. Behavioral Ecology, 17(4), 688–690.
  • Rasch, B., Friese, M., Hofmann, W. & Naumann, E. (2021). Quantitative Methoden 1 (5. Aufl.). Springer.