Testvoraussetzungen#
Jeder statistische Test beruht auf bestimmten Annahmen (Voraussetzungen). Werden diese Annahmen verletzt, können die Ergebnisse verzerrt, die p-Werte unzuverlässig oder die Schlussfolgerungen ungültig sein.
Die wichtigsten Voraussetzungen im Überblick#
1. Skalenniveau der abhängigen Variable#
Die Art der Variable bestimmt die Klasse möglicher Tests:
- Metrisch (Intervall/Verhältnis) → t-Test, ANOVA, Regression
- Ordinal → Mann-Whitney, Kruskal-Wallis, Spearman
- Nominal → Chi-Quadrat, Fishers exakter Test
2. Unabhängigkeit der Beobachtungen#
Die Messwerte verschiedener Teilnehmenden dürfen sich nicht gegenseitig beeinflussen. Diese Voraussetzung gilt für nahezu alle statistischen Tests.
Verletzung: Wenn Schüler derselben Klasse getestet werden, sind die Beobachtungen nicht unabhängig (Clustereffekt). Lösung: Mehrebenenmodelle oder Mittelung auf Clusterebene.
Beispiel: Verletzung der Unabhängigkeit
Ein Forscher untersucht den Lernerfolg von 200 Schülern aus 10 Klassen. Die Schüler einer Klasse haben denselben Lehrer und beeinflussen sich gegenseitig.
Problem: Ein einfacher t-Test ignoriert die Clusterstruktur und liefert zu kleine p-Werte. Lösung: Ein Mehrebenenmodell berücksichtigt die Verschachtelung von Schülern in Klassen.
3. Normalverteilung#
Viele parametrische Tests setzen voraus, dass bestimmte Verteilungen normalverteilt sind:
| Test | Was muss normalverteilt sein? |
|---|---|
| t-Test (unabhängig) | Daten in jeder Gruppe |
| t-Test (gepaart) | Differenzen der gepaarten Werte |
| ANOVA | Residuen in jeder Gruppe |
| Regression | Residuen |
Prüfmethoden:
- Grafisch: Histogramm, Q-Q-Plot
- Statistisch: Shapiro-Wilk-Test (n < 50), Kolmogorov-Smirnov-Test (n ≥ 50)
- Kennwerte: Schiefe und Kurtosis
4. Varianzhomogenität (Homoskedastizität)#
Die Streuung der abhängigen Variable sollte in allen Gruppen gleich sein.
Prüfmethoden:
- Levene-Test: Am häufigsten verwendet, robust gegen Nicht-Normalverteilung
- Bartlett-Test: Empfindlicher, setzt Normalverteilung voraus
- Faustregel: Wenn das Verhältnis der größten zur kleinsten Varianz < 3:1 ist, gilt die Annahme als erfüllt
Bei Verletzung:
- t-Test → Welch-t-Test (korrigiert die Freiheitsgrade)
- ANOVA → Welch-ANOVA oder Brown-Forsythe-Test
5. Sphärizität (bei Messwiederholungen)#
Bei ANOVAs mit Messwiederholung müssen die Varianzen der Differenzen zwischen allen Stufenpaaren gleich sein.
Prüfmethode: Mauchly-Test
Bei Verletzung:
- Greenhouse-Geisser-Korrektur (konservativer)
- Huynh-Feldt-Korrektur (liberaler)
6. Linearität#
Für Korrelation und Regression muss der Zusammenhang zwischen den Variablen linear sein.
Prüfmethode: Streudiagramm, Residuenplot
7. Keine (Multi-)Kollinearität#
Bei multipler Regression sollten die Prädiktoren nicht zu stark miteinander korrelieren.
Prüfmethode: Variance Inflation Factor (VIF). Ein VIF > 10 deutet auf problematische Kollinearität hin.
Welcher Test braucht welche Voraussetzungen?#
| Voraussetzung | t-Test | ANOVA | Mann-Whitney | Kruskal-Wallis | Chi² |
|---|---|---|---|---|---|
| Metrische AV | Ja | Ja | Nein | Nein | Nein |
| Unabhängigkeit | Ja | Ja | Ja | Ja | Ja |
| Normalverteilung | Ja | Ja | Nein | Nein | Nein |
| Varianzhomogenität | Ja | Ja | Nein* | Nein* | Nein |
| Erwartete Häufigkeiten ≥ 5 | – | – | – | – | Ja |
*Mann-Whitney und Kruskal-Wallis setzen ähnliche Verteilungsformen voraus, wenn man Mediane vergleichen möchte.
Wie wichtig sind Voraussetzungen wirklich?#
Nicht alle Verletzungen sind gleich gravierend:
Robust gegenüber Verletzung:
- t-Test und ANOVA sind bei gleichen Gruppengrößen robust gegen moderate Verletzungen der Normalverteilung
- Bei n > 30 pro Gruppe sind leichte Abweichungen von der Normalverteilung meist unproblematisch
Empfindlich gegenüber Verletzung:
- Verletzung der Unabhängigkeit ist fast immer problematisch
- Ungleiche Gruppengrößen + Varianzheterogenität ist eine kritische Kombination
- Sphärizitätsverletzung bei Messwiederholungs-ANOVA kann die Fehlerrate stark erhöhen
Entscheidungsweg bei Voraussetzungsverletzung#
- Prüfe die Voraussetzung (grafisch und/oder statistisch)
- Beurteile die Schwere der Verletzung (leicht → oft tolerierbar, schwer → problematisch)
- Wähle eine Alternative:
- Nichtparametrischer Test
- Robuster Test (z. B. Welch-t-Test)
- Datentransformation
- Bootstrapping
Praktischer Entscheidungsbaum
Du möchtest zwei Gruppen vergleichen (metrische AV):
- Normalverteilung prüfen → Shapiro-Wilk
- Ja → Weiter zu 2
- Nein → Mann-Whitney-U-Test
- Varianzhomogenität prüfen → Levene-Test
- Ja → t-Test
- Nein → Welch-t-Test
Häufige Missverständnisse#
„Wenn der Shapiro-Wilk signifikant ist, muss ich einen nichtparametrischen Test verwenden." Nicht zwingend. Bei großen Stichproben wird der Shapiro-Wilk fast immer signifikant, auch bei vernachlässigbaren Abweichungen. Kombiniere den Test mit grafischer Prüfung.
„Nichtparametrische Tests haben keine Voraussetzungen." Falsch. Auch nichtparametrische Tests haben Voraussetzungen, etwa Unabhängigkeit und (für Medianvergleiche) ähnliche Verteilungsformen.
„Ich muss alle Voraussetzungen perfekt erfüllen." Statistik in der Praxis ist selten perfekt. Viele Tests sind robust gegen leichte Verletzungen. Entscheidend ist, die Verletzungen zu kennen und transparent zu berichten.
Weiterführende Literatur
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.
- Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer.