PickMyTest

Testvoraussetzungen

Welche Annahmen statistische Tests erfordern und wie man sie prüft

Testvoraussetzungen#

Jeder statistische Test beruht auf bestimmten Annahmen (Voraussetzungen). Werden diese Annahmen verletzt, können die Ergebnisse verzerrt, die p-Werte unzuverlässig oder die Schlussfolgerungen ungültig sein.

Die wichtigsten Voraussetzungen im Überblick#

1. Skalenniveau der abhängigen Variable#

Die Art der Variable bestimmt die Klasse möglicher Tests:

  • Metrisch (Intervall/Verhältnis) → t-Test, ANOVA, Regression
  • Ordinal → Mann-Whitney, Kruskal-Wallis, Spearman
  • Nominal → Chi-Quadrat, Fishers exakter Test

2. Unabhängigkeit der Beobachtungen#

Die Messwerte verschiedener Teilnehmenden dürfen sich nicht gegenseitig beeinflussen. Diese Voraussetzung gilt für nahezu alle statistischen Tests.

Verletzung: Wenn Schüler derselben Klasse getestet werden, sind die Beobachtungen nicht unabhängig (Clustereffekt). Lösung: Mehrebenenmodelle oder Mittelung auf Clusterebene.

Beispiel: Verletzung der Unabhängigkeit

Ein Forscher untersucht den Lernerfolg von 200 Schülern aus 10 Klassen. Die Schüler einer Klasse haben denselben Lehrer und beeinflussen sich gegenseitig.

Problem: Ein einfacher t-Test ignoriert die Clusterstruktur und liefert zu kleine p-Werte. Lösung: Ein Mehrebenenmodell berücksichtigt die Verschachtelung von Schülern in Klassen.

3. Normalverteilung#

Viele parametrische Tests setzen voraus, dass bestimmte Verteilungen normalverteilt sind:

TestWas muss normalverteilt sein?
t-Test (unabhängig)Daten in jeder Gruppe
t-Test (gepaart)Differenzen der gepaarten Werte
ANOVAResiduen in jeder Gruppe
RegressionResiduen

Prüfmethoden:

  • Grafisch: Histogramm, Q-Q-Plot
  • Statistisch: Shapiro-Wilk-Test (n < 50), Kolmogorov-Smirnov-Test (n ≥ 50)
  • Kennwerte: Schiefe und Kurtosis

4. Varianzhomogenität (Homoskedastizität)#

Die Streuung der abhängigen Variable sollte in allen Gruppen gleich sein.

Prüfmethoden:

  • Levene-Test: Am häufigsten verwendet, robust gegen Nicht-Normalverteilung
  • Bartlett-Test: Empfindlicher, setzt Normalverteilung voraus
  • Faustregel: Wenn das Verhältnis der größten zur kleinsten Varianz < 3:1 ist, gilt die Annahme als erfüllt

Bei Verletzung:

  • t-Test → Welch-t-Test (korrigiert die Freiheitsgrade)
  • ANOVA → Welch-ANOVA oder Brown-Forsythe-Test

5. Sphärizität (bei Messwiederholungen)#

Bei ANOVAs mit Messwiederholung müssen die Varianzen der Differenzen zwischen allen Stufenpaaren gleich sein.

Prüfmethode: Mauchly-Test

Bei Verletzung:

  • Greenhouse-Geisser-Korrektur (konservativer)
  • Huynh-Feldt-Korrektur (liberaler)

6. Linearität#

Für Korrelation und Regression muss der Zusammenhang zwischen den Variablen linear sein.

Prüfmethode: Streudiagramm, Residuenplot

7. Keine (Multi-)Kollinearität#

Bei multipler Regression sollten die Prädiktoren nicht zu stark miteinander korrelieren.

Prüfmethode: Variance Inflation Factor (VIF). Ein VIF > 10 deutet auf problematische Kollinearität hin.

Welcher Test braucht welche Voraussetzungen?#

Voraussetzungt-TestANOVAMann-WhitneyKruskal-WallisChi²
Metrische AVJaJaNeinNeinNein
UnabhängigkeitJaJaJaJaJa
NormalverteilungJaJaNeinNeinNein
VarianzhomogenitätJaJaNein*Nein*Nein
Erwartete Häufigkeiten ≥ 5Ja

*Mann-Whitney und Kruskal-Wallis setzen ähnliche Verteilungsformen voraus, wenn man Mediane vergleichen möchte.

Wie wichtig sind Voraussetzungen wirklich?#

Nicht alle Verletzungen sind gleich gravierend:

Robust gegenüber Verletzung:

  • t-Test und ANOVA sind bei gleichen Gruppengrößen robust gegen moderate Verletzungen der Normalverteilung
  • Bei n > 30 pro Gruppe sind leichte Abweichungen von der Normalverteilung meist unproblematisch

Empfindlich gegenüber Verletzung:

  • Verletzung der Unabhängigkeit ist fast immer problematisch
  • Ungleiche Gruppengrößen + Varianzheterogenität ist eine kritische Kombination
  • Sphärizitätsverletzung bei Messwiederholungs-ANOVA kann die Fehlerrate stark erhöhen

Entscheidungsweg bei Voraussetzungsverletzung#

  1. Prüfe die Voraussetzung (grafisch und/oder statistisch)
  2. Beurteile die Schwere der Verletzung (leicht → oft tolerierbar, schwer → problematisch)
  3. Wähle eine Alternative:
    • Nichtparametrischer Test
    • Robuster Test (z. B. Welch-t-Test)
    • Datentransformation
    • Bootstrapping

Praktischer Entscheidungsbaum

Du möchtest zwei Gruppen vergleichen (metrische AV):

  1. Normalverteilung prüfen → Shapiro-Wilk
    • Ja → Weiter zu 2
    • Nein → Mann-Whitney-U-Test
  2. Varianzhomogenität prüfen → Levene-Test
    • Ja → t-Test
    • Nein → Welch-t-Test

Häufige Missverständnisse#

„Wenn der Shapiro-Wilk signifikant ist, muss ich einen nichtparametrischen Test verwenden." Nicht zwingend. Bei großen Stichproben wird der Shapiro-Wilk fast immer signifikant, auch bei vernachlässigbaren Abweichungen. Kombiniere den Test mit grafischer Prüfung.

„Nichtparametrische Tests haben keine Voraussetzungen." Falsch. Auch nichtparametrische Tests haben Voraussetzungen, etwa Unabhängigkeit und (für Medianvergleiche) ähnliche Verteilungsformen.

„Ich muss alle Voraussetzungen perfekt erfüllen." Statistik in der Praxis ist selten perfekt. Viele Tests sind robust gegen leichte Verletzungen. Entscheidend ist, die Verletzungen zu kennen und transparent zu berichten.

Weiterführende Literatur

  • Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.
  • Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer.