Correlación

La correlación de Pearson es probablemente la métrica más utilizada para entender la relación entre dos variables. A diferencia de la covarianza, la correlación está normalizada y siempre oscila entre -1 y 1.

La normalización definitiva

A diferencia de la covarianza, la correlación de Pearson ($\rho$) normaliza los datos dividiendo por el producto de sus desviaciones estándar:

\[\rho_{x,y} = \frac{cov(X,Y)}{\sigma_x \sigma_y}\]

Donde:

$cov(X,Y)$: Covarianza entre $X$ e $Y$.
$\sigma_x$: Desviación estándar de $X$.
$\sigma_y$: Desviación estándar de $Y$.

Interpretación de los valores

1: Correlación positiva perfecta.
0: Ninguna relación lineal.
-1: Correlación negativa perfecta.

Juega con una muestra real

Mueve los controles para cambiar la correlación objetivo y el tamaño de la muestra. Verás cómo el coeficiente observado cambia por el ruido muestral, incluso cuando la relación subyacente es la misma.

Laboratorio de Correlación

Pearson en tiempo real

r observado

0.683Moderada

X normalizadaY normalizada

Ajustes

Correlación objetivo0.70

Tamaño de muestra36

Lectura rápida

Positiva

Cuando la nube se inclina hacia arriba, r crece. Cuando cae, r se vuelve negativa. Con muestras pequeñas, el valor observado oscila más.

Qué mirar

Acerca el deslizador a ±1 para ver una relación lineal casi perfecta.
Baja el tamaño de muestra para notar el ruido muestral.
La recta discontinua resume la tendencia lineal de la nube.

[!TIP] Si trabajas con pocas observaciones, el valor de $r$ puede apartarse bastante del objetivo. Más datos suelen estabilizar la estimación.

¿Por qué es mejor que la covarianza?

Al estar limitada a un rango fijo, podemos comparar la relación entre “Altura y Peso” con la relación entre “Temperatura y Consumo Eléctrico” de forma directa, sin importar las unidades de medida.

¡Cuidado!

“Correlación no implica causalidad.”

Este es el mantra sagrado de la estadística. Que dos variables se muevan juntas no significa que una cause la otra. Podría haber una tercera variable oculta (confounding variable) o ser simple coincidencia.