Normalverteilung#

Die Normalverteilung (auch Gauß-Verteilung oder Glockenkurve) ist die wichtigste Verteilung in der Statistik. Viele statistische Tests setzen voraus, dass die Daten normalverteilt sind, und zahlreiche natürliche Phänomene folgen annähernd dieser Verteilung.

Was ist die Normalverteilung?#

Eine normalverteilte Variable ist symmetrisch um ihren Mittelwert verteilt. Die Verteilung wird vollständig durch zwei Parameter beschrieben:

X \sim N(\mu, \sigma^2)

wobei:

$\mu$ der Mittelwert (Erwartungswert) ist
$\sigma^2$ die Varianz ist
$\sigma$ die Standardabweichung ist

Die Dichtefunktion lautet:

f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{(x - \mu)^2}{2\sigma^2}}

Die 68-95-99,7-Regel#

Bei einer Normalverteilung liegen:

68,3 % der Werte innerhalb von $\mu \pm 1\sigma$
95,4 % der Werte innerhalb von $\mu \pm 2\sigma$
99,7 % der Werte innerhalb von $\mu \pm 3\sigma$

Beispiel: IQ-Verteilung

Der IQ ist normalverteilt mit μ = 100 und σ = 15.

68 % der Menschen haben einen IQ zwischen 85 und 115
95 % haben einen IQ zwischen 70 und 130
99,7 % haben einen IQ zwischen 55 und 145

Die Standardnormalverteilung#

Jede Normalverteilung lässt sich durch z-Transformation in die Standardnormalverteilung überführen:

z = \frac{x - \mu}{\sigma}

Die Standardnormalverteilung hat $\mu = 0$ und $\sigma = 1$ .

Warum ist sie so wichtig?#

Zentraler Grenzwertsatz#

Der zentrale Grenzwertsatz besagt: Unabhängig von der Verteilung der Grundgesamtheit ist die Verteilung des Stichprobenmittelwerts bei ausreichend großer Stichprobe annähernd normalverteilt.

\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

Das bedeutet: Selbst wenn die einzelnen Messwerte nicht normalverteilt sind, kann der Mittelwert vieler solcher Messwerte normalverteilt sein. Ab n ≥ 30 gilt dies als gute Faustregel.

Voraussetzung vieler Tests#

Parametrische Tests wie t-Test, ANOVA und Pearson-Korrelation setzen Normalverteilung voraus. Bei Verletzung dieser Annahme stehen nichtparametrische Alternativen zur Verfügung.

Normalverteilung prüfen#

Grafische Methoden#

Histogramm – Zeigt die Form der Verteilung
Q-Q-Plot (Quantil-Quantil-Diagramm) – Punkte sollten auf einer Geraden liegen
Boxplot – Asymmetrien und Ausreißer erkennen

Statistische Tests#

Test	Geeignet für	Hinweis
Shapiro-Wilk	n < 50	Am empfehlenswertesten für kleine Stichproben
Kolmogorov-Smirnov	n ≥ 50	Weniger empfindlich als Shapiro-Wilk
Anderson-Darling	Alle n	Betont die Ränder der Verteilung

Kennwerte#

Schiefe (Skewness): Sollte nahe 0 sein. Werte zwischen -1 und +1 gelten als akzeptabel.
Kurtosis (Wölbung): Sollte nahe 3 sein (bzw. Exzess nahe 0). Werte zwischen -2 und +2 gelten als akzeptabel.

Was tun bei Nicht-Normalverteilung?#

Nichtparametrische Tests verwenden – z. B. Mann-Whitney statt t-Test
Datentransformation – Logarithmierung, Wurzeltransformation oder Box-Cox-Transformation
Stichprobengröße erhöhen – Der zentrale Grenzwertsatz sorgt bei großen Stichproben für Robustheit
Bootstrapping – Verteilungsfreie Methode zur Schätzung von Konfidenzintervallen

Häufige Missverständnisse#

„Die Daten selbst müssen normalverteilt sein." Bei vielen Tests reicht es, wenn die Residuen normalverteilt sind (Regression) oder die Differenzen (gepaarter t-Test). Es geht nicht immer um die Rohdaten.

„Der Shapiro-Wilk-Test ist nicht signifikant, also sind die Daten normalverteilt." Ein nicht-signifikantes Ergebnis bedeutet nur, dass man die Nullhypothese (Normalverteilung) nicht ablehnen kann. Bei kleinen Stichproben hat der Test geringe Power und kann Abweichungen leicht übersehen.

„Normalverteilung muss perfekt sein." Parametrische Tests sind oft robust gegenüber leichten Verletzungen der Normalverteilungsannahme, besonders bei größeren Stichproben (n > 30).

Weiterführende Literatur

Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.