Regresión Logística
El modelo clásico para estimar probabilidades y tomar decisiones binarias a partir de una combinación lineal.
La Regresión Logística modela la probabilidad de que ocurra una clase positiva. Aunque parte de una combinación lineal de las variables de entrada, la salida final se comprime entre 0 y 1 mediante una función sigmoide.
Experimenta con la frontera de decisión
Mueve la pendiente, el intercepto y el umbral para ver cómo cambia la curva logística, la frontera de decisión y la matriz de confusión sobre una muestra binaria simulada. Aquí los controles redefinen el proceso que genera los datos, así que no estás reentrenando un modelo sobre una muestra fija: estás explorando distintos escenarios.
Laboratorio de Regresión Logística
Clasificación binaria con sigmoide
modelo
x* ≈ 0.24
La frontera cambia cuando mueves el intercepto o el umbral. Si subes el umbral, la simulación exige más evidencia para predecir la clase positiva.
Accuracy
92.9%
Precision
90.5%
Recall
95.0%
Log Loss
0.237
TP
19
FP
2
FN
1
TN
20
- La sigmoide convierte una combinación lineal en una probabilidad entre 0 y 1.
- El umbral no cambia las probabilidades; solo cambia la decisión final.
- Con más pendiente, la transición entre clases se vuelve más brusca.
- Cuando cambias β₀ o β₁, también cambia el proceso que genera la muestra observada.
Probabilidad media positiva: 0.488
La ecuación fundamental
La probabilidad estimada de pertenecer a la clase positiva viene dada por:
En vez de predecir una recta sin límite, el modelo transforma la combinación lineal en una curva en forma de S.
Del logit a la clasificación
Otra forma de escribirlo es mediante el logit:
Eso significa que:
- \(\beta_0\) desplaza la curva hacia la izquierda o la derecha.
- \(\beta_1\) controla qué tan abrupta es la transición entre las clases.
- El umbral convierte la probabilidad en una decisión final: si \(p \ge t\), el modelo predice clase 1.
Qué observar en la simulación
- Si subes el umbral, el modelo se vuelve más conservador para etiquetar positivos.
- Si aumentas la pendiente, la frontera de decisión se vuelve más nítida.
- La accuracy puede mejorar o empeorar según el equilibrio entre falsos positivos y falsos negativos.
- La log loss penaliza con más fuerza las probabilidades muy seguras pero equivocadas.
Aplicaciones
Se usa para detectar fraude, predecir abandono de clientes, estimar la probabilidad de una enfermedad y, en general, para cualquier problema donde la salida sea sí/no, éxito/fracaso o compra/no compra.