Stichprobengröße#

Die Stichprobengröße (n) ist einer der wichtigsten Faktoren für die Qualität und Aussagekraft einer Studie. Sie beeinflusst die statistische Power, die Präzision der Schätzungen und die Generalisierbarkeit der Ergebnisse.

Warum ist die Stichprobengröße wichtig?#

1. Statistische Power#

Größere Stichproben haben mehr Power — also eine höhere Wahrscheinlichkeit, tatsächlich vorhandene Effekte zu entdecken.

Auswirkung der Stichprobengröße auf die Power

t-Test, erwarteter Effekt d = 0,5, α = 0,05 (zweiseitig):

n pro Gruppe	Power
10	0,18
20	0,34
50	0,70
64	0,80
100	0,94

Erst ab n = 64 pro Gruppe wird die empfohlene Power von 0,80 erreicht.

2. Präzision der Schätzungen#

Der Standardfehler des Mittelwerts nimmt mit steigendem n ab:

SE = \frac{s}{\sqrt{n}}

Doppelte Stichprobengröße → Standardfehler wird um den Faktor $\sqrt{2} \approx 1{,}41$ kleiner. Die Konfidenzintervalle werden enger.

3. Robustheit#

Größere Stichproben machen Tests robuster gegen Verletzungen der Normalverteilungsannahme (zentraler Grenzwertsatz).

Wie bestimmt man die richtige Stichprobengröße?#

A-priori-Poweranalyse#

Die empfohlene Methode. Vor der Datenerhebung werden festgelegt:

Gewünschte Power (üblicherweise 0,80 oder 0,90)
Signifikanzniveau (üblicherweise α = 0,05)
Erwartete Effektstärke (aus Literatur, Pilotstudie oder Theorie)
Art des Tests (t-Test, ANOVA, Korrelation etc.)

Benötigte Stichprobengrößen (Richtwerte)#

Für einen t-Test für unabhängige Stichproben (α = 0,05, zweiseitig, Power = 0,80):

Erwarteter Effekt (d)	n pro Gruppe	Gesamt
0,2 (klein)	394	788
0,5 (mittel)	64	128
0,8 (groß)	26	52

Für eine einfaktorielle ANOVA (3 Gruppen, α = 0,05, Power = 0,80):

Erwarteter Effekt (f)	n pro Gruppe	Gesamt
0,10 (klein)	322	966
0,25 (mittel)	53	159
0,40 (groß)	22	66

Für eine Pearson-Korrelation (α = 0,05, zweiseitig, Power = 0,80):

Erwarteter Effekt (r)	n
0,10 (klein)	782
0,30 (mittel)	85
0,50 (groß)	28

Software für Poweranalysen#

G*Power — Kostenlos, weitverbreitet, für viele Tests geeignet
R — Pakete wie pwr, powerAnalysis
SPSS — Integrierte Poweranalyse-Funktionen
Online-Rechner — z. B. für einfache Berechnungen

Zu kleine Stichprobe — Die Risiken#

Geringe Power: Echte Effekte werden übersehen (Typ-II-Fehler)
Überschätzung von Effektstärken: Signifikante Ergebnisse bei kleinem n überschätzen den wahren Effekt systematisch
Instabile Ergebnisse: Replikation wird unwahrscheinlich
Nicht-Normalverteilung: Parametrische Tests sind weniger robust

Das Problem kleiner Stichproben

Eine Studie mit n = 10 pro Gruppe findet einen signifikanten Effekt von d = 1,2. Klingt beeindruckend, aber:

Bei so kleinem n kann nur ein sehr großer Effekt signifikant werden
Die wahre Effektstärke ist wahrscheinlich deutlich kleiner
Dieses Phänomen heißt „Winner's Curse" oder „Regression zur Mitte"

Zu große Stichprobe — Gibt es das?#

Ja, es gibt Nachteile übermäßig großer Stichproben:

Triviale Effekte werden signifikant: Bei n = 10.000 wird fast jeder noch so kleine Unterschied signifikant
Kosten und Aufwand: Ressourcenverschwendung, wenn die Power bereits bei kleinerer Stichprobe ausreichend wäre
Ethische Aspekte: In klinischen Studien werden mehr Teilnehmende der Kontrollgruppe zugeordnet als nötig

Die Lösung ist, immer Effektstärken zu berichten und die praktische Bedeutsamkeit zu bewerten.

Faustregeln (mit Vorsicht zu genießen)#

Analyse	Minimum (grobe Orientierung)
t-Test	n ≥ 20 pro Gruppe
ANOVA	n ≥ 15 pro Gruppe
Korrelation	n ≥ 30
Regression	n ≥ 10–20 pro Prädiktor
Chi-Quadrat	Erwartete Häufigkeiten ≥ 5 pro Zelle

Wichtig: Diese Faustregeln sind kein Ersatz für eine formale Poweranalyse. Sie können in die Irre führen, wenn die erwartete Effektstärke klein ist.

Ungleiche Gruppengrößen#

Gleiche Gruppengrößen sind ideal, aber nicht immer möglich. Die Auswirkungen:

Power: Maximale Power bei gleichen Gruppengrößen
Robustheit: Ungleiche Gruppen + Varianzheterogenität = problematisch
Faustregel: Verhältnisse bis 1:1,5 sind meist unproblematisch

Häufige Missverständnisse#

„n = 30 reicht immer." Diese Faustregel bezieht sich auf den zentralen Grenzwertsatz (Normalverteilung der Mittelwerte). Ob n = 30 genug Power bietet, hängt von der Effektstärke ab. Für kleine Effekte reicht n = 30 bei Weitem nicht.

„Mehr Teilnehmende sind immer besser." Nicht unbedingt. Ab einem bestimmten n ist der Zugewinn an Power minimal. Ressourcen können besser für besseres Studiendesign eingesetzt werden.

„Die Stichprobengröße kann nach der Studie festgelegt werden." Die Stichprobengröße sollte a priori geplant werden. Nachträgliches Hinzufügen von Daten, bis Signifikanz erreicht wird, ist methodisch fragwürdig (optionales Stoppen / p-Hacking).

Weiterführende Literatur

Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2. Aufl.). Lawrence Erlbaum Associates.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.