statistics Intermedio

PCA (Análisis de Componentes Principales)

Una técnica de reducción de dimensionalidad para simplificar datos complejos sin perder información esencial.

machine-learning estadística visualización

El PCA (Principal Component Analysis) es una técnica matemática que transforma un conjunto de variables correlacionadas en un número menor de variables no correlacionadas llamadas “componentes principales”.

Visualiza la Reducción de Dimensiones

En este simulador 3D, puedes ver cómo una nube de puntos compleja se proyecta sobre un plano de 2 dimensiones (PC1 y PC2) perdiendo la mínima información posible.

[!TIP] PC1 es la línea amarilla. Observa cómo atraviesa la parte más larga de la elipse. Representa la dirección de máxima varianza.

¿Para qué sirve?

  1. Reducción de ruido: Al quedarnos solo con los componentes que explican la mayor parte de la varianza, eliminamos el ruido aleatorio (como el eje rojo PC3).
  2. Visualización: Permite proyectar datos de muchas dimensiones a solo 2 o 3 para poder verlos en un gráfico.
  3. Eficiencia: Los modelos de ML entrenan mucho más rápido con menos variables.

Intuición geométrica

La idea es “rotar” el espacio de tus datos hasta que estemos mirando desde el ángulo más informativo. Ese ángulo es el que maximiza la dispersión de los puntos.

El Algoritmo Paso a Paso

Para comprender cómo los datos pierden dimensiones sin perder su “esencia” informativa, seguimos este flujo matemático riguroso:

1. Centrado y Estandarización

Para evitar que variables con escalas grandes (como “ingresos”) dominen injustamente sobre variables con escalas pequeñas (como “edad”), reescalamos todos los datos:

\[Z = \frac{X - \mu}{\sigma}\]
  • Media cero: Centramos la nube de puntos en el origen.
  • Varianza unitaria: Aseguramos que cada dimensión tenga el mismo peso estadístico inicial.

2. Construcción de la Matriz de Covarianza

Calculamos la matriz \(\Sigma\) (o \(C\)) que describe las interdependencias lineales entre todas las variables originales.

\[\Sigma = \frac{1}{n-1} Z^T Z\]

Cada celda en esta matriz nos dice si dos variables tienden a crecer juntas (covarianza positiva) o de forma inversa.

3. Autovalores y Autovectores: El “ADN” de tus datos

Para extraer los ejes principales, resolvemos la ecuación característica de la matriz de covarianza. No son columnas de la matriz, sino los valores especiales que equilibran esta relación:

\[\det(\Sigma - \lambda I) = 0\]
  • Autovalores (\(\lambda\)): Indican la Importancia. Al resolver el determinante, obtenemos estos números que nos dicen cuánta varianza captura cada dirección.
  • Autovectores (\(v\)): Indican la Dirección. Son los vectores que definen los nuevos ejes de coordenadas (las líneas amarillo/celeste del simulador).

4. Proyección al Nuevo Espacio

Finalmente, seleccionamos los mejores autovectores (aquellos con mayores autovalores) y proyectamos nuestros datos originales sobre ellos:

\[T = Z \cdot W_k\]

Donde \(W_k\) es la matriz de los \(k\) autovectores principales seleccionados. El resultado \(T\) son tus datos reducidos, listos para visualización o entrenamiento eficiente.