Testvoraussetzungen#

Jeder statistische Test beruht auf bestimmten Annahmen (Voraussetzungen). Werden diese Annahmen verletzt, können die Ergebnisse verzerrt, die p-Werte unzuverlässig oder die Schlussfolgerungen ungültig sein.

Die wichtigsten Voraussetzungen im Überblick#

1. Skalenniveau der abhängigen Variable#

Die Art der Variable bestimmt die Klasse möglicher Tests:

Metrisch (Intervall/Verhältnis) → t-Test, ANOVA, Regression
Ordinal → Mann-Whitney, Kruskal-Wallis, Spearman
Nominal → Chi-Quadrat, Fishers exakter Test

2. Unabhängigkeit der Beobachtungen#

Die Messwerte verschiedener Teilnehmenden dürfen sich nicht gegenseitig beeinflussen. Diese Voraussetzung gilt für nahezu alle statistischen Tests.

Verletzung: Wenn Schüler derselben Klasse getestet werden, sind die Beobachtungen nicht unabhängig (Clustereffekt). Lösung: Mehrebenenmodelle oder Mittelung auf Clusterebene.

Beispiel: Verletzung der Unabhängigkeit

Ein Forscher untersucht den Lernerfolg von 200 Schülern aus 10 Klassen. Die Schüler einer Klasse haben denselben Lehrer und beeinflussen sich gegenseitig.

Problem: Ein einfacher t-Test ignoriert die Clusterstruktur und liefert zu kleine p-Werte. Lösung: Ein Mehrebenenmodell berücksichtigt die Verschachtelung von Schülern in Klassen.

3. Normalverteilung#

Viele parametrische Tests setzen voraus, dass bestimmte Verteilungen normalverteilt sind:

Test	Was muss normalverteilt sein?
t-Test (unabhängig)	Daten in jeder Gruppe
t-Test (gepaart)	Differenzen der gepaarten Werte
ANOVA	Residuen in jeder Gruppe
Regression	Residuen

Prüfmethoden:

Grafisch: Histogramm, Q-Q-Plot
Statistisch: Shapiro-Wilk-Test (n < 50), Kolmogorov-Smirnov-Test (n ≥ 50)
Kennwerte: Schiefe und Kurtosis

4. Varianzhomogenität (Homoskedastizität)#

Die Streuung der abhängigen Variable sollte in allen Gruppen gleich sein.

Prüfmethoden:

Levene-Test: Am häufigsten verwendet, robust gegen Nicht-Normalverteilung
Bartlett-Test: Empfindlicher, setzt Normalverteilung voraus
Faustregel: Wenn das Verhältnis der größten zur kleinsten Varianz < 3:1 ist, gilt die Annahme als erfüllt

Bei Verletzung:

t-Test → Welch-t-Test (korrigiert die Freiheitsgrade)
ANOVA → Welch-ANOVA oder Brown-Forsythe-Test

5. Sphärizität (bei Messwiederholungen)#

Bei ANOVAs mit Messwiederholung müssen die Varianzen der Differenzen zwischen allen Stufenpaaren gleich sein.

Prüfmethode: Mauchly-Test

Bei Verletzung:

Greenhouse-Geisser-Korrektur (konservativer)
Huynh-Feldt-Korrektur (liberaler)

6. Linearität#

Für Korrelation und Regression muss der Zusammenhang zwischen den Variablen linear sein.

Prüfmethode: Streudiagramm, Residuenplot

7. Keine (Multi-)Kollinearität#

Bei multipler Regression sollten die Prädiktoren nicht zu stark miteinander korrelieren.

Prüfmethode: Variance Inflation Factor (VIF). Ein VIF > 10 deutet auf problematische Kollinearität hin.

Welcher Test braucht welche Voraussetzungen?#

Voraussetzung	t-Test	ANOVA	Mann-Whitney	Kruskal-Wallis	Chi²
Metrische AV	Ja	Ja	Nein	Nein	Nein
Unabhängigkeit	Ja	Ja	Ja	Ja	Ja
Normalverteilung	Ja	Ja	Nein	Nein	Nein
Varianzhomogenität	Ja	Ja	Nein*	Nein*	Nein
Erwartete Häufigkeiten ≥ 5	–	–	–	–	Ja

*Mann-Whitney und Kruskal-Wallis setzen ähnliche Verteilungsformen voraus, wenn man Mediane vergleichen möchte.

Wie wichtig sind Voraussetzungen wirklich?#

Nicht alle Verletzungen sind gleich gravierend:

Robust gegenüber Verletzung:

t-Test und ANOVA sind bei gleichen Gruppengrößen robust gegen moderate Verletzungen der Normalverteilung
Bei n > 30 pro Gruppe sind leichte Abweichungen von der Normalverteilung meist unproblematisch

Empfindlich gegenüber Verletzung:

Verletzung der Unabhängigkeit ist fast immer problematisch
Ungleiche Gruppengrößen + Varianzheterogenität ist eine kritische Kombination
Sphärizitätsverletzung bei Messwiederholungs-ANOVA kann die Fehlerrate stark erhöhen

Entscheidungsweg bei Voraussetzungsverletzung#

Prüfe die Voraussetzung (grafisch und/oder statistisch)
Beurteile die Schwere der Verletzung (leicht → oft tolerierbar, schwer → problematisch)
Wähle eine Alternative:
- Nichtparametrischer Test
- Robuster Test (z. B. Welch-t-Test)
- Datentransformation
- Bootstrapping

Praktischer Entscheidungsbaum

Du möchtest zwei Gruppen vergleichen (metrische AV):

Normalverteilung prüfen → Shapiro-Wilk
- Ja → Weiter zu 2
- Nein → Mann-Whitney-U-Test
Varianzhomogenität prüfen → Levene-Test
- Ja → t-Test
- Nein → Welch-t-Test

Häufige Missverständnisse#

„Wenn der Shapiro-Wilk signifikant ist, muss ich einen nichtparametrischen Test verwenden." Nicht zwingend. Bei großen Stichproben wird der Shapiro-Wilk fast immer signifikant, auch bei vernachlässigbaren Abweichungen. Kombiniere den Test mit grafischer Prüfung.

„Nichtparametrische Tests haben keine Voraussetzungen." Falsch. Auch nichtparametrische Tests haben Voraussetzungen, etwa Unabhängigkeit und (für Medianvergleiche) ähnliche Verteilungsformen.

„Ich muss alle Voraussetzungen perfekt erfüllen." Statistik in der Praxis ist selten perfekt. Viele Tests sind robust gegen leichte Verletzungen. Entscheidend ist, die Verletzungen zu kennen und transparent zu berichten.

Weiterführende Literatur

Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.
Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer.