Logistische Regression#
Die logistische Regression ist ein Verfahren zur Modellierung der Wahrscheinlichkeit eines binären Ereignisses (z. B. ja/nein, krank/gesund) in Abhängigkeit von einer oder mehreren unabhängigen Variablen. Im Gegensatz zur linearen Regression ist die abhängige Variable kategorial (dichotom).
Wann verwenden?#
Verwende die logistische Regression, wenn du:
- Eine binäre abhängige Variable vorhersagen möchtest (z. B. 0/1, ja/nein)
- Die Einflussfaktoren auf ein Ereignis identifizieren möchtest
- Die Wahrscheinlichkeit eines Ereignisses schätzen möchtest
- Die Prädiktoren metrisch, ordinal oder kategorial sein können (gemischte Datentypen)
Voraussetzungen#
- Abhängige Variable ist binär kodiert (0/1)
- Unabhängigkeit der Beobachtungen
- Keine Multikollinearität zwischen den Prädiktoren (VIF < 10)
- Lineare Beziehung zwischen den Prädiktoren und dem Logit der abhängigen Variable
- Ausreichend große Stichprobe (Faustregel: mindestens 10 Ereignisse pro Prädiktor)
- Keine einflussreichen Ausreißer
Formel#
Das logistische Regressionsmodell verwendet die Logit-Funktion:
wobei die Wahrscheinlichkeit des Ereignisses ist. Umgestellt nach :
Die Odds Ratio (Chancenverhältnis) für einen Prädiktor:
Beispiel#
Praxisbeispiel: Kundenabwanderung (Churn)
Ein Telekommunikationsunternehmen möchte vorhersagen, ob ein Kunde den Vertrag kündigt (1) oder bleibt (0). Als Prädiktoren werden verwendet:
- X₁: Vertragsdauer (in Monaten)
- X₂: Monatliche Kosten (in €)
- X₃: Anzahl der Beschwerden
Ergebnis: Die Odds Ratio für Beschwerden beträgt OR = 1.85. Das bedeutet: Mit jeder zusätzlichen Beschwerde steigt die Chance einer Kündigung um den Faktor 1.85 (bzw. um 85 %), wenn die anderen Variablen konstant gehalten werden.
Effektstärke#
Für die logistische Regression werden verschiedene Pseudo-R²-Maße verwendet:
Nagelkerkes R²:
wobei die Likelihood des Nullmodells und die Likelihood des vollständigen Modells ist.
| Effektstärke | Nagelkerkes R² |
|---|---|
| Klein | 0.02 |
| Mittel | 0.13 |
| Groß | 0.26 |
Zusätzlich sind die Odds Ratios () ein wichtiges Maß für die praktische Bedeutsamkeit der einzelnen Prädiktoren. Die Klassifikationsgenauigkeit und die ROC-Kurve (AUC) bewerten die Güte des Modells.
Weiterführende Literatur
- Hosmer, D. W., Lemeshow, S. & Sturdivant, R. X. (2013). Applied Logistic Regression (3. Aufl.). Wiley.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.