Freiheitsgrade#

Freiheitsgrade (degrees of freedom, df) geben an, wie viele Werte in einer Berechnung frei variieren können. Sie bestimmen die Form der Verteilung, die zur Berechnung des p-Werts herangezogen wird.

Die Grundidee#

Stell dir vor, du hast drei Zahlen, deren Mittelwert 10 sein soll. Die ersten beiden Zahlen kannst du frei wählen – zum Beispiel 8 und 12. Die dritte Zahl ist dann festgelegt (sie muss 10 sein, damit der Mittelwert stimmt).

Du hast also 2 Freiheitsgrade (df = n - 1 = 3 - 1 = 2).

Anschauliches Beispiel

Fünf Zahlen sollen den Mittelwert 20 ergeben:

Du wählst: 15, 22, 18, 25 → vier Zahlen frei gewählt
Die fünfte Zahl muss 20 sein (da 15 + 22 + 18 + 25 + x = 100, also x = 20)

Freiheitsgrade: df = 5 - 1 = 4

Warum werden Freiheitsgrade „verbraucht"?#

Jeder geschätzte Parameter aus den Daten „verbraucht" einen Freiheitsgrad. Wenn du den Mittelwert aus deiner Stichprobe berechnest, legst du damit eine Einschränkung fest: Die Summe der Werte ist fixiert. Deshalb verlierst du einen Freiheitsgrad.

Das ist auch der Grund, warum die Stichprobenvarianz durch n - 1 (nicht n) geteilt wird:

s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1}

Division durch n - 1 statt n korrigiert die systematische Unterschätzung der Populationsvarianz (Bessel-Korrektur).

Freiheitsgrade bei verschiedenen Tests#

t-Test für unabhängige Stichproben#

df = n_1 + n_2 - 2

Zwei Mittelwerte werden geschätzt, also werden 2 Freiheitsgrade verbraucht.

Beispiel

Gruppe 1: n₁ = 25, Gruppe 2: n₂ = 30

df = 25 + 30 - 2 = 53

Welch-t-Test#

Beim Welch-t-Test werden die Freiheitsgrade über die Satterthwaite-Approximation berechnet und sind in der Regel keine ganzen Zahlen:

df = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{(s_1^2/n_1)^2}{n_1 - 1} + \frac{(s_2^2/n_2)^2}{n_2 - 1}}

Gepaarter t-Test#

df = n - 1

wobei n die Anzahl der Paare ist.

Einfaktorielle ANOVA#

Zwei verschiedene Freiheitsgrade:

Zwischen den Gruppen: $df_{\text{zwischen}} = k - 1$ (k = Anzahl der Gruppen)
Innerhalb der Gruppen: $df_{\text{innerhalb}} = N - k$ (N = Gesamtstichprobe)

Beispiel: ANOVA mit 3 Gruppen

3 Gruppen mit jeweils n = 20 (N = 60):

df_zwischen = 3 - 1 = 2
df_innerhalb = 60 - 3 = 57
Berichtet als: F(2, 57)

Chi-Quadrat-Test#

df = (r - 1) \times (c - 1)

wobei r die Anzahl der Zeilen und c die Anzahl der Spalten ist.

Beispiel: 3×2-Kreuztabelle

3 Zeilen × 2 Spalten:

df = (3 - 1) × (2 - 1) = 2 × 1 = 2

Multiple Regression#

Regressionsmodell: $df_{\text{Regression}} = p$ (p = Anzahl der Prädiktoren)
Residuen: $df_{\text{Residuen}} = n - p - 1$

Freiheitsgrade und Verteilungsform#

Die Freiheitsgrade bestimmen die Form der Referenzverteilung:

t-Verteilung: Mit wenigen Freiheitsgraden hat die t-Verteilung breitere Enden als die Normalverteilung. Mit zunehmenden df nähert sie sich der Normalverteilung an. Ab df ≈ 30 sind die Unterschiede minimal.

F-Verteilung: Wird durch zwei df-Werte definiert (Zähler und Nenner). Die Form ändert sich je nach Kombination.

Chi-Quadrat-Verteilung: Der Mittelwert der Verteilung entspricht den Freiheitsgraden. Mit steigenden df wird sie symmetrischer.

Praktische Bedeutung#

Freiheitsgrade beeinflussen den kritischen Wert, ab dem ein Ergebnis signifikant wird:

df	Kritischer t-Wert (α = 0,05, zweiseitig)
5	2,571
10	2,228
30	2,042
100	1,984
∞	1,960

Bei wenigen Freiheitsgraden muss der t-Wert größer sein, um Signifikanz zu erreichen. Das liegt daran, dass kleine Stichproben mehr Unsicherheit mit sich bringen.

Richtig berichten#

Freiheitsgrade werden immer mit der Teststatistik berichtet:

t-Test: t(53) = 2,31, p = 0,025
ANOVA: F(2, 57) = 4,12, p = 0,021
Chi-Quadrat: χ²(2) = 8,45, p = 0,015

Häufige Missverständnisse#

„Freiheitsgrade sind nur eine technische Nebensache." Nein. Sie bestimmen direkt den p-Wert. Falsche Freiheitsgrade führen zu falschen Schlussfolgerungen.

„Mehr Freiheitsgrade sind immer besser." Mehr df bedeuten mehr Information, was grundsätzlich gut ist. Allerdings können unnötig viele Parameter (und damit verbrauchte df) ein Modell überanpassen.

„Die Freiheitsgrade entsprechen der Stichprobengröße." Fast, aber nicht ganz. Sie entsprechen der Stichprobengröße minus der Anzahl geschätzter Parameter. Bei einem t-Test mit n = 20 pro Gruppe sind es df = 38, nicht df = 40.

Weiterführende Literatur

Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.
Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer.