1 puntos por GN⁺ 2024-08-01 | 1 comentarios | Compartir por WhatsApp

La verdad sobre la regresión lineal

  • Introducción

    • Este documento se basa en apuntes de clase escritos en el otoño de 2015 al impartir 36-401, un curso de regresión moderna
    • Puede ser útil para quienes aprenden o enseñan regresión lineal
    • Reduce la dependencia de la teoría existente en el ruido gaussiano y en un modelo lineal correctamente especificado, y pone énfasis en técnicas más intensivas en cómputo pero más robustas
  • Texto completo en PDF

    • Archivo de datos
    • Código R de cada capítulo
    • Esquema actual
  • Predicción óptima

    • Introducción al modelado estadístico
    • Pistas sobre el modelo de regresión lineal simple y su estimación
  • Método de mínimos cuadrados para la regresión lineal simple

    • Método de máxima verosimilitud para la regresión lineal simple
    • Diagnóstico y corrección de la regresión simple
    • Inferencia sobre los parámetros
    • Inferencia predictiva para el modelo lineal simple
    • Interpretación de parámetros después de la transformación
    • Prueba F, R^2 y otras advertencias
    • Regresión lineal simple en forma matricial
  • Regresión lineal múltiple

    • Diagnóstico e inferencia en regresión lineal múltiple
    • Regresión polinómica y categórica
    • Multicolinealidad
    • Pruebas e intervalos de confianza
    • Interacciones
    • Valores atípicos y puntos influyentes
    • Selección de modelos
    • Revisión
    • Mínimos cuadrados ponderados y generalizados
    • Selección de variables
    • Árboles
    • Bootstrap I
    • Bootstrap II

Resumen de GN⁺

  • Este documento ofrece un enfoque moderno de la regresión lineal y enfatiza métodos computacionales más robustos para superar las limitaciones de la teoría tradicional
  • Cubre de forma integral desde los fundamentos del modelado estadístico y el análisis de regresión hasta temas avanzados
  • En particular, incluye temas importantes en la práctica como multicolinealidad, selección de variables y bootstrap
  • Este documento puede ser útil para estudiantes o profesionales que estudian estadística y ciencia de datos
  • Otro proyecto con funciones similares es "Advanced Data Analysis from an Elementary Point of View"

1 comentarios

 
GN⁺ 2024-08-01
Comentarios de Hacker News
  • La mayoría de la gente no entiende bien la regresión lineal

    • Todas las pruebas estadísticas comunes son modelos lineales
    • Los modelos lineales son lineales respecto a los parámetros, no respecto a la respuesta
    • Si se elige una base de splines adecuada, muchas relaciones no lineales entre predictores y respuesta pueden modelarse con modelos lineales
    • Según el teorema de Taylor, una relación lineal puede ser una buena aproximación de una relación no lineal
  • Tomé una clase de estadística en CMU hace 10 años, y estuvo bien aprender R

    • La gran debilidad de la regresión lineal es que funciona con conjuntos de datos de entrenamiento pequeños, pero es difícil aplicarla a datos reales
  • Ridge Regression es útil para resolver problemas de multicolinealidad

    • Hoy en día se enseña como una técnica de regularización para evitar el sobreajuste, pero originalmente se usaba para equilibrar los pesos entre predictores altamente correlacionados
  • Me gustaría aprender cómo usan la regresión lineal los investigadores cuantitativos de Citadel

    • Tengo curiosidad por saber qué resultados teóricos consideran importantes
  • Aprendí regresión lineal varias veces durante la licenciatura

    • Su optimalidad puede demostrarse mediante estadística y teoría de la probabilidad
  • En el doctorado trato principalmente problemas de regresión con modelos de deep learning

    • Sería bueno que hubiera formas de aplicar las demostraciones rigurosas y teoremas de los modelos lineales clásicos a modelos de regresión de deep learning
  • "Data Analysis from an Elementary Point of View" de Shalizi es una buena introducción

    • Se enfoca en modelos lineales y aditivos, y en simulación
    • El 90% del libro no sirve sin una computadora, pero esa es la realidad moderna
  • La técnica más importante en regresión es reconocer el intercepto

    • Cuando se incluyen términos de interacción, es importante entender el significado del intercepto
    • Por ejemplo, hay que entender qué representa el intercepto en un modelo lineal simple que incluye la edad y una variable de diagnóstico de autismo
  • Como alguien que enseña regresión usando XGBoost, este texto me resultó muy útil y accesible

    • En particular, el capítulo 6, sobre diagnóstico visual, está muy bien escrito
  • Aunque no se menciona en este texto, la regresión lineal también muestra el fenómeno de Double Descent que se ve con frecuencia en deep learning

    • Para eso hay que introducir regularización
  • Me pregunto si alguien sabe cómo convertir este PDF a un formato optimizado para móvil