Por qué parece haber sesgo al aplicar un ajuste de mínimos cuadrados a datos simples

(stats.stackexchange.com)

1 puntos por GN⁺ 2026-01-06 | 1 comentarios | Compartir por WhatsApp

La razón por la que la recta de regresión lineal por mínimos cuadrados parece más inclinada de lo real en datos de prueba simples se debe a las características del proceso de generación de datos
El modelo de regresión sigue la forma ( Y = \beta_0 + \beta_1 X + \varepsilon ) bajo el supuesto de que el término de error es independiente de X
A medida que aumenta la varianza del error, la dispersión de los datos crece en dirección vertical, y la dirección del componente principal de PCA se vuelve cada vez más cercana a la vertical
En cambio, cuando la varianza de X es mucho mayor que el error, la recta de PCA y la de regresión OLS casi coinciden
Esta diferencia se debe a que PCA y OLS tienen objetivos distintos (maximizar la varianza vs. minimizar el error), por lo que muestran resultados visualmente diferentes según la forma de la distribución de los datos

Modelo de regresión y proceso de generación de datos

El OLS simple (método de mínimos cuadrados ordinarios) tiene la forma ( Y = \beta_0 + \beta_1 X + \varepsilon ), partiendo del supuesto de que X y el término de error (\varepsilon) son independientes
Cuando el término de error es 0, todos los puntos quedan sobre la recta de regresión, y la dirección del componente principal de PCA coincide con la recta de regresión
Al agregar error, la varianza aumenta en dirección vertical, y PCA refleja esa dispersión eligiendo como componente principal una dirección con una pendiente más pronunciada

Cuando domina la varianza del error

En la relación ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
si ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), la mayor parte de la variación se concentra en dirección vertical
En ese caso, la dirección del componente principal de PCA se vuelve casi vertical, es decir, se ve más inclinada que la recta de regresión
En cambio, si ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), PCA y OLS casi coinciden

Elipse de covarianza y forma de la distribución

La elipse de covarianza (covariance ellipse) representa bien la forma de los datos solo cuando ( (X, Y) ) sigue una distribución normal conjunta
Incluso cuando la distribución de X cambia a binomial, uniforme, bimodal, triangular, etc.,
si la varianza de X es grande, PCA y la recta de regresión coinciden, y si el error es grande, PCA se desplaza hacia la dirección vertical
La elipse muestra la direccionalidad de los datos, pero no representa con precisión la densidad ni la forma real de la distribución

Naturaleza de X y consideraciones de modelado

En el código, la función make_y_from_x genera Y como una función lineal de X con ruido gaussiano IID, de acuerdo con los supuestos de OLS
X no tiene por qué ser necesariamente una variable aleatoria; también puede ser un valor fijo según el diseño experimental
La elipse de covarianza trata X y Y de manera simétrica, pero el proceso real de generación de datos es asimétrico

Resumen clave

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA y OLS coinciden
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA se desplaza hacia la dirección vertical
X no tiene por qué ser una variable aleatoria ni seguir una distribución normal
PCA se enfoca en la dirección de la varianza, mientras que OLS se enfoca en minimizar el error de predicción, por eso los resultados pueden verse distintos

1 comentarios

GN⁺ 2026-01-06

Comentarios en Hacker News

La regresión lineal, es decir, Ordinary Least Squares (OLS), asume que solo hay ruido en Y y que X es exacta.
En cambio, el enfoque visual que considera ruido tanto en X como en Y se llama Total Least Squares (TLS).
- Al ver la figura de Total Least Squares en Wikipedia, se entiende de forma intuitiva.
- Si intercambias x e y y vuelves a calcular la pendiente, te haces una idea de lo que hace TLS.
Hace tiempo un profesor de QuantSci preguntó: “dime un escenario de recolección donde los datos de x no tengan ningún error”.
Por eso solía enseñar que en general se prefiere la regresión de Deming (Deming regression).
- En la mayoría de los datos de sensores, el ruido en el eje Y es mucho mayor que en el eje X.
  Por ejemplo, si es un sensor que muestrea a 1 kHz, el ruido propio del sensor suele ser mucho mayor que el jitter del reloj del MCU.
- En la regresión de Deming, delta (δ) es la razón entre la varianza de y y la varianza de x.
  Si la varianza de x es muy pequeña, delta crece y el modelo puede volverse mal condicionado.
- En mi campo, el jitter de medición de los datos X es menor a 10 ns, así que en la práctica está al nivel de no tener error.
- OLS es BLUE (Best Linear Unbiased Estimator), y eso es especial porque es el estimador lineal de mínima varianza.
- En la mayoría de las series temporales, el ruido al medir el tiempo es despreciable, pero con otras variables como coordenadas GPS pueden aparecer acoplamientos complejos.
La regresión lineal modela solo el ruido de Y, pero la elipse/autovectores de PCA consideran el ruido tanto de X como de Y.
- Es interesante que en muchos sistemas el ruido de Y sea mayor que el de X.
  Por ejemplo, en un convertidor analógico-digital el tiempo es estable gracias a un oscilador de cuarzo, pero la medición no.
- Al analizar datos para obtener una línea de tendencia, surge la duda de si no sería mejor usar la dirección del autovector de PCA.
- Sería interesante entrenar una red neuronal asumiendo que tanto la entrada como la salida tienen ruido.
- Si supieras que Y es n veces más ruidosa que X, da curiosidad si esa información serviría para hacer un ajuste mejor.
Hace mucho que no trato estadística, y no entiendo por qué necesariamente se usan cuadrados (squares).
Podrían existir otras potencias como 1, 3 o 4, así que surge la duda de por qué siempre aparecen cuadrados.
- Minimizar la suma de cuadrados da la estimación de máxima verosimilitud (MLE) cuando se asume que los errores tienen distribución normal iid.
  Si la distribución de los errores es distinta, otra función de pérdida puede ser más adecuada.
  Por ejemplo, Huber loss actúa como cuadrática para errores pequeños y lineal para errores grandes, así que es robusta ante outliers.
  Para las fórmulas, ver las páginas 352–353 de Convex Optimization de Boyd & Vandenberghe.
  Además, ANOVA se basa en el teorema de Pitágoras, por lo que los términos cuadrados son esenciales.
- Como la media minimiza la norma L2, si ves OLS desde la perspectiva de variables aleatorias, L2 aparece de manera natural al estimar el valor esperado condicional E[Y|X].
  El teorema de Gauss–Markov garantiza que este estimador es insesgado y de mínima varianza.
- La potencia 1 no da una solución única. Por ejemplo, con los tres puntos (0,0), (1,0), (1,1), cualquier a entre 0 y 1 tiene la misma suma de errores.
  Las potencias menores que 1 tienen la propiedad extraña de preferir un error grande a varios errores pequeños.
  En cambio, los cuadrados son fáciles de manejar matemáticamente y también tienen buenas propiedades numéricas en regresión lineal simple.
- El artículo de Least Squares en Wikipedia resume varios enfoques.
  Los términos de orden superior, como la potencia 4 o más, tienen muchos óptimos locales y derivadas complicadas, así que pierden simplicidad computacional.
- En resumen: abs no es diferenciable cerca de 0, la potencia 4 es demasiado sensible al ruido y la potencia 3 rompe la linealidad de la varianza.
Gran parte de lo que se dice en este hilo ya está bien resumido en discusiones de StackExchange.
No es fácil aportar una perspectiva nueva.
- Las respuestas de StackExchange ya están bastante completas.
  Es interesante más como observación matemática que otra cosa.
- Aun así, traer estos temas aquí tiene valor porque permite una conversación más libre que en StackExchange.
- Quizá sea una respuesta demasiado madura para este foro.
Least Squares y PCA minimizan funciones de pérdida distintas.
El primero minimiza la suma de distancias verticales al cuadrado en Y, mientras que el segundo minimiza la suma de distancias ortogonales al cuadrado respecto a la recta.
- Entonces, ¿por qué la recta de mínimos cuadrados parece inclinarse hacia abajo? La dirección se siente arbitraria.
- Si entiendes mínimos cuadrados como un proceso de ajuste a una distribución gaussiana, se vuelve más fácil de comprender.
Si haces la regresión de y respecto de x, y luego la de x respecto de y, salen rectas distintas.
Recuerdo haber descubierto eso en clase y quedarme desconcertado. Pensé si la normalización podría resolverlo.
- Pero la forma correcta de eliminar ese sesgo no es normalizar, sino usar una técnica de regresión independiente del sistema de coordenadas.
Como aclaración de términos, el modelo de mínimos cuadrados proporciona una predicción con error medio 0, es decir, estadísticamente insesgada, tenga x ruido o no.
Al ver el resultado de una regresión, aunque visualmente la recta parezca incorrecta, en realidad el modelo puede estar bien.
Para verificar la pendiente correcta, conviene mirar si en un x dado los residuos (residuals) están equilibrados a ambos lados.
Por ejemplo, si generas datos con y = 1.5x + ruido, la recta de regresión recupera bien una pendiente de 1.5, aunque visualmente pueda verse rara.
- La comparación con un gráfico de residuos es la forma más clara de comprobarlo.
A este problema a menudo se le llama Regression Dilution (enlace de Wikipedia).
- Pero Regression Dilution se refiere al caso en que la recta de regresión queda sesgada por errores en los datos de X.
  La pregunta de StackExchange era por qué, incluso sin error en X, la recta de regresión no coincide con el eje de la elipse de 3σ.
  Esta respuesta muestra un ejemplo donde el error en X es 0.

Por qué parece haber sesgo al aplicar un ajuste de mínimos cuadrados a datos simples

Modelo de regresión y proceso de generación de datos

Cuando domina la varianza del error

Elipse de covarianza y forma de la distribución

Naturaleza de X y consideraciones de modelado

Resumen clave

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News