PickMyTest

Logistische Regression

Modelliert die Wahrscheinlichkeit eines binären Ereignisses in Abhängigkeit von einer oder mehreren unabhängigen Variablen

Logistische Regression#

Die logistische Regression ist ein Verfahren zur Modellierung der Wahrscheinlichkeit eines binären Ereignisses (z. B. ja/nein, krank/gesund) in Abhängigkeit von einer oder mehreren unabhängigen Variablen. Im Gegensatz zur linearen Regression ist die abhängige Variable kategorial (dichotom).

Wann verwenden?#

Verwende die logistische Regression, wenn du:

  • Eine binäre abhängige Variable vorhersagen möchtest (z. B. 0/1, ja/nein)
  • Die Einflussfaktoren auf ein Ereignis identifizieren möchtest
  • Die Wahrscheinlichkeit eines Ereignisses schätzen möchtest
  • Die Prädiktoren metrisch, ordinal oder kategorial sein können (gemischte Datentypen)

Voraussetzungen#

  • Abhängige Variable ist binär kodiert (0/1)
  • Unabhängigkeit der Beobachtungen
  • Keine Multikollinearität zwischen den Prädiktoren (VIF < 10)
  • Lineare Beziehung zwischen den Prädiktoren und dem Logit der abhängigen Variable
  • Ausreichend große Stichprobe (Faustregel: mindestens 10 Ereignisse pro Prädiktor)
  • Keine einflussreichen Ausreißer

Formel#

Das logistische Regressionsmodell verwendet die Logit-Funktion:

ln(p1p)=β0+β1X1+β2X2++βkXk\ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k

wobei pp die Wahrscheinlichkeit des Ereignisses ist. Umgestellt nach pp:

p=11+e(β0+β1X1++βkXk)p = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k)}}

Die Odds Ratio (Chancenverhältnis) für einen Prädiktor:

OR=eβiOR = e^{\beta_i}

Beispiel#

Praxisbeispiel: Kundenabwanderung (Churn)

Ein Telekommunikationsunternehmen möchte vorhersagen, ob ein Kunde den Vertrag kündigt (1) oder bleibt (0). Als Prädiktoren werden verwendet:

  • X₁: Vertragsdauer (in Monaten)
  • X₂: Monatliche Kosten (in €)
  • X₃: Anzahl der Beschwerden

Ergebnis: Die Odds Ratio für Beschwerden beträgt OR = 1.85. Das bedeutet: Mit jeder zusätzlichen Beschwerde steigt die Chance einer Kündigung um den Faktor 1.85 (bzw. um 85 %), wenn die anderen Variablen konstant gehalten werden.

Effektstärke#

Für die logistische Regression werden verschiedene Pseudo-R²-Maße verwendet:

Nagelkerkes R²:

RNagelkerke2=1(L0LM)2/n1L02/nR^2_{\text{Nagelkerke}} = \frac{1 - \left(\frac{L_0}{L_M}\right)^{2/n}}{1 - L_0^{2/n}}

wobei L0L_0 die Likelihood des Nullmodells und LML_M die Likelihood des vollständigen Modells ist.

EffektstärkeNagelkerkes R²
Klein0.02
Mittel0.13
Groß0.26

Zusätzlich sind die Odds Ratios (eβe^{\beta}) ein wichtiges Maß für die praktische Bedeutsamkeit der einzelnen Prädiktoren. Die Klassifikationsgenauigkeit und die ROC-Kurve (AUC) bewerten die Güte des Modells.

Weiterführende Literatur

  • Hosmer, D. W., Lemeshow, S. & Sturdivant, R. X. (2013). Applied Logistic Regression (3. Aufl.). Wiley.
  • Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.