Stichprobengröße#
Die Stichprobengröße (n) ist einer der wichtigsten Faktoren für die Qualität und Aussagekraft einer Studie. Sie beeinflusst die statistische Power, die Präzision der Schätzungen und die Generalisierbarkeit der Ergebnisse.
Warum ist die Stichprobengröße wichtig?#
1. Statistische Power#
Größere Stichproben haben mehr Power — also eine höhere Wahrscheinlichkeit, tatsächlich vorhandene Effekte zu entdecken.
Auswirkung der Stichprobengröße auf die Power
t-Test, erwarteter Effekt d = 0,5, α = 0,05 (zweiseitig):
| n pro Gruppe | Power |
|---|---|
| 10 | 0,18 |
| 20 | 0,34 |
| 50 | 0,70 |
| 64 | 0,80 |
| 100 | 0,94 |
Erst ab n = 64 pro Gruppe wird die empfohlene Power von 0,80 erreicht.
2. Präzision der Schätzungen#
Der Standardfehler des Mittelwerts nimmt mit steigendem n ab:
Doppelte Stichprobengröße → Standardfehler wird um den Faktor kleiner. Die Konfidenzintervalle werden enger.
3. Robustheit#
Größere Stichproben machen Tests robuster gegen Verletzungen der Normalverteilungsannahme (zentraler Grenzwertsatz).
Wie bestimmt man die richtige Stichprobengröße?#
A-priori-Poweranalyse#
Die empfohlene Methode. Vor der Datenerhebung werden festgelegt:
- Gewünschte Power (üblicherweise 0,80 oder 0,90)
- Signifikanzniveau (üblicherweise α = 0,05)
- Erwartete Effektstärke (aus Literatur, Pilotstudie oder Theorie)
- Art des Tests (t-Test, ANOVA, Korrelation etc.)
Benötigte Stichprobengrößen (Richtwerte)#
Für einen t-Test für unabhängige Stichproben (α = 0,05, zweiseitig, Power = 0,80):
| Erwarteter Effekt (d) | n pro Gruppe | Gesamt |
|---|---|---|
| 0,2 (klein) | 394 | 788 |
| 0,5 (mittel) | 64 | 128 |
| 0,8 (groß) | 26 | 52 |
Für eine einfaktorielle ANOVA (3 Gruppen, α = 0,05, Power = 0,80):
| Erwarteter Effekt (f) | n pro Gruppe | Gesamt |
|---|---|---|
| 0,10 (klein) | 322 | 966 |
| 0,25 (mittel) | 53 | 159 |
| 0,40 (groß) | 22 | 66 |
Für eine Pearson-Korrelation (α = 0,05, zweiseitig, Power = 0,80):
| Erwarteter Effekt (r) | n |
|---|---|
| 0,10 (klein) | 782 |
| 0,30 (mittel) | 85 |
| 0,50 (groß) | 28 |
Software für Poweranalysen#
- G*Power — Kostenlos, weitverbreitet, für viele Tests geeignet
- R — Pakete wie
pwr,powerAnalysis - SPSS — Integrierte Poweranalyse-Funktionen
- Online-Rechner — z. B. für einfache Berechnungen
Zu kleine Stichprobe — Die Risiken#
- Geringe Power: Echte Effekte werden übersehen (Typ-II-Fehler)
- Überschätzung von Effektstärken: Signifikante Ergebnisse bei kleinem n überschätzen den wahren Effekt systematisch
- Instabile Ergebnisse: Replikation wird unwahrscheinlich
- Nicht-Normalverteilung: Parametrische Tests sind weniger robust
Das Problem kleiner Stichproben
Eine Studie mit n = 10 pro Gruppe findet einen signifikanten Effekt von d = 1,2. Klingt beeindruckend, aber:
- Bei so kleinem n kann nur ein sehr großer Effekt signifikant werden
- Die wahre Effektstärke ist wahrscheinlich deutlich kleiner
- Dieses Phänomen heißt „Winner's Curse" oder „Regression zur Mitte"
Zu große Stichprobe — Gibt es das?#
Ja, es gibt Nachteile übermäßig großer Stichproben:
- Triviale Effekte werden signifikant: Bei n = 10.000 wird fast jeder noch so kleine Unterschied signifikant
- Kosten und Aufwand: Ressourcenverschwendung, wenn die Power bereits bei kleinerer Stichprobe ausreichend wäre
- Ethische Aspekte: In klinischen Studien werden mehr Teilnehmende der Kontrollgruppe zugeordnet als nötig
Die Lösung ist, immer Effektstärken zu berichten und die praktische Bedeutsamkeit zu bewerten.
Faustregeln (mit Vorsicht zu genießen)#
| Analyse | Minimum (grobe Orientierung) |
|---|---|
| t-Test | n ≥ 20 pro Gruppe |
| ANOVA | n ≥ 15 pro Gruppe |
| Korrelation | n ≥ 30 |
| Regression | n ≥ 10–20 pro Prädiktor |
| Chi-Quadrat | Erwartete Häufigkeiten ≥ 5 pro Zelle |
Wichtig: Diese Faustregeln sind kein Ersatz für eine formale Poweranalyse. Sie können in die Irre führen, wenn die erwartete Effektstärke klein ist.
Ungleiche Gruppengrößen#
Gleiche Gruppengrößen sind ideal, aber nicht immer möglich. Die Auswirkungen:
- Power: Maximale Power bei gleichen Gruppengrößen
- Robustheit: Ungleiche Gruppen + Varianzheterogenität = problematisch
- Faustregel: Verhältnisse bis 1:1,5 sind meist unproblematisch
Häufige Missverständnisse#
„n = 30 reicht immer." Diese Faustregel bezieht sich auf den zentralen Grenzwertsatz (Normalverteilung der Mittelwerte). Ob n = 30 genug Power bietet, hängt von der Effektstärke ab. Für kleine Effekte reicht n = 30 bei Weitem nicht.
„Mehr Teilnehmende sind immer besser." Nicht unbedingt. Ab einem bestimmten n ist der Zugewinn an Power minimal. Ressourcen können besser für besseres Studiendesign eingesetzt werden.
„Die Stichprobengröße kann nach der Studie festgelegt werden." Die Stichprobengröße sollte a priori geplant werden. Nachträgliches Hinzufügen von Daten, bis Signifikanz erreicht wird, ist methodisch fragwürdig (optionales Stoppen / p-Hacking).
Weiterführende Literatur
- Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2. Aufl.). Lawrence Erlbaum Associates.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.