- La razón por la que la recta de regresión lineal por mínimos cuadrados parece más inclinada de lo real en datos de prueba simples se debe a las características del proceso de generación de datos
- El modelo de regresión sigue la forma ( Y = \beta_0 + \beta_1 X + \varepsilon ) bajo el supuesto de que el término de error es independiente de X
- A medida que aumenta la varianza del error, la dispersión de los datos crece en dirección vertical, y la dirección del componente principal de PCA se vuelve cada vez más cercana a la vertical
- En cambio, cuando la varianza de X es mucho mayor que el error, la recta de PCA y la de regresión OLS casi coinciden
- Esta diferencia se debe a que PCA y OLS tienen objetivos distintos (maximizar la varianza vs. minimizar el error), por lo que muestran resultados visualmente diferentes según la forma de la distribución de los datos
Modelo de regresión y proceso de generación de datos
- El OLS simple (método de mínimos cuadrados ordinarios) tiene la forma ( Y = \beta_0 + \beta_1 X + \varepsilon ), partiendo del supuesto de que X y el término de error (\varepsilon) son independientes
- Cuando el término de error es 0, todos los puntos quedan sobre la recta de regresión, y la dirección del componente principal de PCA coincide con la recta de regresión
- Al agregar error, la varianza aumenta en dirección vertical, y PCA refleja esa dispersión eligiendo como componente principal una dirección con una pendiente más pronunciada
Cuando domina la varianza del error
- En la relación ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
si ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), la mayor parte de la variación se concentra en dirección vertical
- En ese caso, la dirección del componente principal de PCA se vuelve casi vertical, es decir, se ve más inclinada que la recta de regresión
- En cambio, si ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), PCA y OLS casi coinciden
Elipse de covarianza y forma de la distribución
- La elipse de covarianza (covariance ellipse) representa bien la forma de los datos solo cuando ( (X, Y) ) sigue una distribución normal conjunta
- Incluso cuando la distribución de X cambia a binomial, uniforme, bimodal, triangular, etc.,
si la varianza de X es grande, PCA y la recta de regresión coinciden, y si el error es grande, PCA se desplaza hacia la dirección vertical
- La elipse muestra la direccionalidad de los datos, pero no representa con precisión la densidad ni la forma real de la distribución
Naturaleza de X y consideraciones de modelado
- En el código, la función
make_y_from_x genera Y como una función lineal de X con ruido gaussiano IID, de acuerdo con los supuestos de OLS
- X no tiene por qué ser necesariamente una variable aleatoria; también puede ser un valor fijo según el diseño experimental
- La elipse de covarianza trata X y Y de manera simétrica, pero el proceso real de generación de datos es asimétrico
Resumen clave
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA y OLS coinciden
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA se desplaza hacia la dirección vertical
- X no tiene por qué ser una variable aleatoria ni seguir una distribución normal
- PCA se enfoca en la dirección de la varianza, mientras que OLS se enfoca en minimizar el error de predicción, por eso los resultados pueden verse distintos
1 comentarios
Comentarios en Hacker News
En cambio, el enfoque visual que considera ruido tanto en X como en Y se llama Total Least Squares (TLS).
Por eso solía enseñar que en general se prefiere la regresión de Deming (Deming regression).
Por ejemplo, si es un sensor que muestrea a 1 kHz, el ruido propio del sensor suele ser mucho mayor que el jitter del reloj del MCU.
Si la varianza de x es muy pequeña, delta crece y el modelo puede volverse mal condicionado.
Por ejemplo, en un convertidor analógico-digital el tiempo es estable gracias a un oscilador de cuarzo, pero la medición no.
Podrían existir otras potencias como 1, 3 o 4, así que surge la duda de por qué siempre aparecen cuadrados.
Si la distribución de los errores es distinta, otra función de pérdida puede ser más adecuada.
Por ejemplo, Huber loss actúa como cuadrática para errores pequeños y lineal para errores grandes, así que es robusta ante outliers.
Para las fórmulas, ver las páginas 352–353 de Convex Optimization de Boyd & Vandenberghe.
Además, ANOVA se basa en el teorema de Pitágoras, por lo que los términos cuadrados son esenciales.
El teorema de Gauss–Markov garantiza que este estimador es insesgado y de mínima varianza.
Las potencias menores que 1 tienen la propiedad extraña de preferir un error grande a varios errores pequeños.
En cambio, los cuadrados son fáciles de manejar matemáticamente y también tienen buenas propiedades numéricas en regresión lineal simple.
Los términos de orden superior, como la potencia 4 o más, tienen muchos óptimos locales y derivadas complicadas, así que pierden simplicidad computacional.
absno es diferenciable cerca de 0, la potencia 4 es demasiado sensible al ruido y la potencia 3 rompe la linealidad de la varianza.No es fácil aportar una perspectiva nueva.
Es interesante más como observación matemática que otra cosa.
El primero minimiza la suma de distancias verticales al cuadrado en Y, mientras que el segundo minimiza la suma de distancias ortogonales al cuadrado respecto a la recta.
Recuerdo haber descubierto eso en clase y quedarme desconcertado. Pensé si la normalización podría resolverlo.
Para verificar la pendiente correcta, conviene mirar si en un x dado los residuos (residuals) están equilibrados a ambos lados.
Por ejemplo, si generas datos con y = 1.5x + ruido, la recta de regresión recupera bien una pendiente de 1.5, aunque visualmente pueda verse rara.
La pregunta de StackExchange era por qué, incluso sin error en X, la recta de regresión no coincide con el eje de la elipse de 3σ.
Esta respuesta muestra un ejemplo donde el error en X es 0.