statistics Intermedio

Regresión Logística

El modelo clásico para estimar probabilidades y tomar decisiones binarias a partir de una combinación lineal.

machine-learning estadística clasificación

La Regresión Logística modela la probabilidad de que ocurra una clase positiva. Aunque parte de una combinación lineal de las variables de entrada, la salida final se comprime entre 0 y 1 mediante una función sigmoide.

Experimenta con la frontera de decisión

Mueve la pendiente, el intercepto y el umbral para ver cómo cambia la curva logística, la frontera de decisión y la matriz de confusión sobre una muestra binaria simulada. Aquí los controles redefinen el proceso que genera los datos, así que no estás reentrenando un modelo sobre una muestra fija: estás explorando distintos escenarios.

Laboratorio de Regresión Logística

Clasificación binaria con sigmoide

modelo

p(y=1|x) = σ(1.45x 0.35)umbral = 0.50
x bajap(y=1 | x)x alta
Ajustes de la simulación
Lectura rápida

x* ≈ 0.24

La frontera cambia cuando mueves el intercepto o el umbral. Si subes el umbral, la simulación exige más evidencia para predecir la clase positiva.

Accuracy

92.9%

Precision

90.5%

Recall

95.0%

Log Loss

0.237

Matriz de confusión

TP

19

FP

2

FN

1

TN

20

Qué mirar
  • La sigmoide convierte una combinación lineal en una probabilidad entre 0 y 1.
  • El umbral no cambia las probabilidades; solo cambia la decisión final.
  • Con más pendiente, la transición entre clases se vuelve más brusca.
  • Cuando cambias β₀ o β₁, también cambia el proceso que genera la muestra observada.

Probabilidad media positiva: 0.488

La ecuación fundamental

La probabilidad estimada de pertenecer a la clase positiva viene dada por:

\[P(y=1|x) = \sigma(\beta_0 + \beta_1 x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x)}}\]

En vez de predecir una recta sin límite, el modelo transforma la combinación lineal en una curva en forma de S.

Del logit a la clasificación

Otra forma de escribirlo es mediante el logit:

\[\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x\]

Eso significa que:

  • \(\beta_0\) desplaza la curva hacia la izquierda o la derecha.
  • \(\beta_1\) controla qué tan abrupta es la transición entre las clases.
  • El umbral convierte la probabilidad en una decisión final: si \(p \ge t\), el modelo predice clase 1.

Qué observar en la simulación

  • Si subes el umbral, el modelo se vuelve más conservador para etiquetar positivos.
  • Si aumentas la pendiente, la frontera de decisión se vuelve más nítida.
  • La accuracy puede mejorar o empeorar según el equilibrio entre falsos positivos y falsos negativos.
  • La log loss penaliza con más fuerza las probabilidades muy seguras pero equivocadas.

Aplicaciones

Se usa para detectar fraude, predecir abandono de clientes, estimar la probabilidad de una enfermedad y, en general, para cualquier problema donde la salida sea sí/no, éxito/fracaso o compra/no compra.