PickMyTest

Stichprobengröße

Wie die Stichprobengröße statistische Ergebnisse beeinflusst und wie man sie plant

Stichprobengröße#

Die Stichprobengröße (n) ist einer der wichtigsten Faktoren für die Qualität und Aussagekraft einer Studie. Sie beeinflusst die statistische Power, die Präzision der Schätzungen und die Generalisierbarkeit der Ergebnisse.

Warum ist die Stichprobengröße wichtig?#

1. Statistische Power#

Größere Stichproben haben mehr Power — also eine höhere Wahrscheinlichkeit, tatsächlich vorhandene Effekte zu entdecken.

Auswirkung der Stichprobengröße auf die Power

t-Test, erwarteter Effekt d = 0,5, α = 0,05 (zweiseitig):

n pro GruppePower
100,18
200,34
500,70
640,80
1000,94

Erst ab n = 64 pro Gruppe wird die empfohlene Power von 0,80 erreicht.

2. Präzision der Schätzungen#

Der Standardfehler des Mittelwerts nimmt mit steigendem n ab:

SE=snSE = \frac{s}{\sqrt{n}}

Doppelte Stichprobengröße → Standardfehler wird um den Faktor 21,41\sqrt{2} \approx 1{,}41 kleiner. Die Konfidenzintervalle werden enger.

3. Robustheit#

Größere Stichproben machen Tests robuster gegen Verletzungen der Normalverteilungsannahme (zentraler Grenzwertsatz).

Wie bestimmt man die richtige Stichprobengröße?#

A-priori-Poweranalyse#

Die empfohlene Methode. Vor der Datenerhebung werden festgelegt:

  1. Gewünschte Power (üblicherweise 0,80 oder 0,90)
  2. Signifikanzniveau (üblicherweise α = 0,05)
  3. Erwartete Effektstärke (aus Literatur, Pilotstudie oder Theorie)
  4. Art des Tests (t-Test, ANOVA, Korrelation etc.)

Benötigte Stichprobengrößen (Richtwerte)#

Für einen t-Test für unabhängige Stichproben (α = 0,05, zweiseitig, Power = 0,80):

Erwarteter Effekt (d)n pro GruppeGesamt
0,2 (klein)394788
0,5 (mittel)64128
0,8 (groß)2652

Für eine einfaktorielle ANOVA (3 Gruppen, α = 0,05, Power = 0,80):

Erwarteter Effekt (f)n pro GruppeGesamt
0,10 (klein)322966
0,25 (mittel)53159
0,40 (groß)2266

Für eine Pearson-Korrelation (α = 0,05, zweiseitig, Power = 0,80):

Erwarteter Effekt (r)n
0,10 (klein)782
0,30 (mittel)85
0,50 (groß)28

Software für Poweranalysen#

  • G*Power — Kostenlos, weitverbreitet, für viele Tests geeignet
  • R — Pakete wie pwr, powerAnalysis
  • SPSS — Integrierte Poweranalyse-Funktionen
  • Online-Rechner — z. B. für einfache Berechnungen

Zu kleine Stichprobe — Die Risiken#

  1. Geringe Power: Echte Effekte werden übersehen (Typ-II-Fehler)
  2. Überschätzung von Effektstärken: Signifikante Ergebnisse bei kleinem n überschätzen den wahren Effekt systematisch
  3. Instabile Ergebnisse: Replikation wird unwahrscheinlich
  4. Nicht-Normalverteilung: Parametrische Tests sind weniger robust

Das Problem kleiner Stichproben

Eine Studie mit n = 10 pro Gruppe findet einen signifikanten Effekt von d = 1,2. Klingt beeindruckend, aber:

  • Bei so kleinem n kann nur ein sehr großer Effekt signifikant werden
  • Die wahre Effektstärke ist wahrscheinlich deutlich kleiner
  • Dieses Phänomen heißt „Winner's Curse" oder „Regression zur Mitte"

Zu große Stichprobe — Gibt es das?#

Ja, es gibt Nachteile übermäßig großer Stichproben:

  1. Triviale Effekte werden signifikant: Bei n = 10.000 wird fast jeder noch so kleine Unterschied signifikant
  2. Kosten und Aufwand: Ressourcenverschwendung, wenn die Power bereits bei kleinerer Stichprobe ausreichend wäre
  3. Ethische Aspekte: In klinischen Studien werden mehr Teilnehmende der Kontrollgruppe zugeordnet als nötig

Die Lösung ist, immer Effektstärken zu berichten und die praktische Bedeutsamkeit zu bewerten.

Faustregeln (mit Vorsicht zu genießen)#

AnalyseMinimum (grobe Orientierung)
t-Testn ≥ 20 pro Gruppe
ANOVAn ≥ 15 pro Gruppe
Korrelationn ≥ 30
Regressionn ≥ 10–20 pro Prädiktor
Chi-QuadratErwartete Häufigkeiten ≥ 5 pro Zelle

Wichtig: Diese Faustregeln sind kein Ersatz für eine formale Poweranalyse. Sie können in die Irre führen, wenn die erwartete Effektstärke klein ist.

Ungleiche Gruppengrößen#

Gleiche Gruppengrößen sind ideal, aber nicht immer möglich. Die Auswirkungen:

  • Power: Maximale Power bei gleichen Gruppengrößen
  • Robustheit: Ungleiche Gruppen + Varianzheterogenität = problematisch
  • Faustregel: Verhältnisse bis 1:1,5 sind meist unproblematisch

Häufige Missverständnisse#

„n = 30 reicht immer." Diese Faustregel bezieht sich auf den zentralen Grenzwertsatz (Normalverteilung der Mittelwerte). Ob n = 30 genug Power bietet, hängt von der Effektstärke ab. Für kleine Effekte reicht n = 30 bei Weitem nicht.

„Mehr Teilnehmende sind immer besser." Nicht unbedingt. Ab einem bestimmten n ist der Zugewinn an Power minimal. Ressourcen können besser für besseres Studiendesign eingesetzt werden.

„Die Stichprobengröße kann nach der Studie festgelegt werden." Die Stichprobengröße sollte a priori geplant werden. Nachträgliches Hinzufügen von Daten, bis Signifikanz erreicht wird, ist methodisch fragwürdig (optionales Stoppen / p-Hacking).

Weiterführende Literatur

  • Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2. Aufl.). Lawrence Erlbaum Associates.
  • Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.