Normalverteilung#
Die Normalverteilung (auch Gauß-Verteilung oder Glockenkurve) ist die wichtigste Verteilung in der Statistik. Viele statistische Tests setzen voraus, dass die Daten normalverteilt sind, und zahlreiche natürliche Phänomene folgen annähernd dieser Verteilung.
Was ist die Normalverteilung?#
Eine normalverteilte Variable ist symmetrisch um ihren Mittelwert verteilt. Die Verteilung wird vollständig durch zwei Parameter beschrieben:
wobei:
- der Mittelwert (Erwartungswert) ist
- die Varianz ist
- die Standardabweichung ist
Die Dichtefunktion lautet:
Die 68-95-99,7-Regel#
Bei einer Normalverteilung liegen:
- 68,3 % der Werte innerhalb von
- 95,4 % der Werte innerhalb von
- 99,7 % der Werte innerhalb von
Beispiel: IQ-Verteilung
Der IQ ist normalverteilt mit μ = 100 und σ = 15.
- 68 % der Menschen haben einen IQ zwischen 85 und 115
- 95 % haben einen IQ zwischen 70 und 130
- 99,7 % haben einen IQ zwischen 55 und 145
Die Standardnormalverteilung#
Jede Normalverteilung lässt sich durch z-Transformation in die Standardnormalverteilung überführen:
Die Standardnormalverteilung hat und .
Warum ist sie so wichtig?#
Zentraler Grenzwertsatz#
Der zentrale Grenzwertsatz besagt: Unabhängig von der Verteilung der Grundgesamtheit ist die Verteilung des Stichprobenmittelwerts bei ausreichend großer Stichprobe annähernd normalverteilt.
Das bedeutet: Selbst wenn die einzelnen Messwerte nicht normalverteilt sind, kann der Mittelwert vieler solcher Messwerte normalverteilt sein. Ab n ≥ 30 gilt dies als gute Faustregel.
Voraussetzung vieler Tests#
Parametrische Tests wie t-Test, ANOVA und Pearson-Korrelation setzen Normalverteilung voraus. Bei Verletzung dieser Annahme stehen nichtparametrische Alternativen zur Verfügung.
Normalverteilung prüfen#
Grafische Methoden#
- Histogramm – Zeigt die Form der Verteilung
- Q-Q-Plot (Quantil-Quantil-Diagramm) – Punkte sollten auf einer Geraden liegen
- Boxplot – Asymmetrien und Ausreißer erkennen
Statistische Tests#
| Test | Geeignet für | Hinweis |
|---|---|---|
| Shapiro-Wilk | n < 50 | Am empfehlenswertesten für kleine Stichproben |
| Kolmogorov-Smirnov | n ≥ 50 | Weniger empfindlich als Shapiro-Wilk |
| Anderson-Darling | Alle n | Betont die Ränder der Verteilung |
Kennwerte#
- Schiefe (Skewness): Sollte nahe 0 sein. Werte zwischen -1 und +1 gelten als akzeptabel.
- Kurtosis (Wölbung): Sollte nahe 3 sein (bzw. Exzess nahe 0). Werte zwischen -2 und +2 gelten als akzeptabel.
Was tun bei Nicht-Normalverteilung?#
- Nichtparametrische Tests verwenden – z. B. Mann-Whitney statt t-Test
- Datentransformation – Logarithmierung, Wurzeltransformation oder Box-Cox-Transformation
- Stichprobengröße erhöhen – Der zentrale Grenzwertsatz sorgt bei großen Stichproben für Robustheit
- Bootstrapping – Verteilungsfreie Methode zur Schätzung von Konfidenzintervallen
Häufige Missverständnisse#
„Die Daten selbst müssen normalverteilt sein." Bei vielen Tests reicht es, wenn die Residuen normalverteilt sind (Regression) oder die Differenzen (gepaarter t-Test). Es geht nicht immer um die Rohdaten.
„Der Shapiro-Wilk-Test ist nicht signifikant, also sind die Daten normalverteilt." Ein nicht-signifikantes Ergebnis bedeutet nur, dass man die Nullhypothese (Normalverteilung) nicht ablehnen kann. Bei kleinen Stichproben hat der Test geringe Power und kann Abweichungen leicht übersehen.
„Normalverteilung muss perfekt sein." Parametrische Tests sind oft robust gegenüber leichten Verletzungen der Normalverteilungsannahme, besonders bei größeren Stichproben (n > 30).
Weiterführende Literatur
- Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.