30 puntos por GN⁺ 2025-03-18 | 1 comentarios | Compartir por WhatsApp
  • Existe la percepción de que el fenómeno de generalización de los modelos de deep learning es distinto y misterioso en comparación con los modelos tradicionales
  • Overfitting, double descent y overparametrization suelen mencionarse con frecuencia como rasgos característicos del deep learning
  • Sin embargo, estos fenómenos no se limitan a las redes neuronales y pueden explicarse con marcos clásicos de generalización, como PAC-Bayes y los límites de hipótesis contables
  • El concepto de "sesgos inductivos suaves (soft inductive biases)" es el principio clave para explicar estos fenómenos de generalización

Sesgos inductivos suaves (Soft Inductive Biases)

  • Los sesgos inductivos tradicionales restringen el espacio de hipótesis para mejorar el desempeño de generalización
  • Los sesgos inductivos suaves mantienen la flexibilidad del espacio de hipótesis mientras asignan preferencia a ciertas soluciones
  • Igual que en las CNN, donde el uso compartido de parámetros preserva la localidad y la invariancia a traslaciones, se añaden regularizaciones suaves sobre propiedades específicas
  • La razón por la que los modelos sobreparametrizados también generalizan bien es que estos sesgos inductivos suaves están actuando

Marcos de generalización (Generalization Frameworks)

PAC-Bayes y límites de hipótesis contables

  • PAC-Bayes explica el riesgo de generalización a partir del riesgo empírico y la compresibilidad del modelo
  • Incluso un modelo grande puede tener buena generalización si es simple y compresible
  • Fórmula:
    • riesgo esperado ≤ riesgo empírico + término relacionado con la compresibilidad

Dimensionalidad efectiva (Effective Dimensionality)

  • Dimensionalidad efectiva = número de valores propios grandes en la Hessiana de la función de pérdida del modelo
  • Cuanto menor sea la dimensionalidad efectiva, más simple es el modelo y mejor es su capacidad de generalización

Otros marcos de generalización

  • La complejidad de Rademacher, la dimensión VC y otras métricas no explican bien los fenómenos del deep learning
  • PAC-Bayes y los límites de hipótesis contables sí pueden resolver este problema

Fenómenos principales

Benign Overfitting

  • Fenómeno en el que el modelo aprende perfectamente incluso el ruido y aun así mantiene buen desempeño de generalización
  • El benign overfitting también puede reproducirse con modelos lineales simples
  • Puede explicarse con PAC-Bayes y límites de hipótesis contables

Sobreparametrización (Overparametrization)

  • El modelo puede generalizar bien incluso si tiene más parámetros que datos
  • Los modelos grandes generalizan bien porque, después del entrenamiento, pueden comprimirse hacia una estructura más simple

Double Descent

  • Fenómeno en el que, al aumentar la complejidad del modelo, la pérdida primero baja, luego sube y después vuelve a bajar
  • También puede reproducirse en modelos lineales
  • Puede explicarse mediante la dimensionalidad efectiva y la compresibilidad del modelo

Perspectiva alternativa (Alternative Views)

  • La visión tradicional de que la generalización del deep learning es misteriosa depende de marcos de generalización limitados
  • Los fenómenos de generalización pueden explicarse con PAC-Bayes y límites de hipótesis contables
  • La idea de que la generalización del deep learning es misteriosa podría ser un prejuicio equivocado

Elementos distintivos del deep learning (Distinctive Features of Deep Learning)

Aprendizaje de representaciones (Representation Learning)

  • Las redes neuronales tienen la capacidad de aprender la similitud de los datos
  • Pueden medir la similitud mejor que la distancia euclidiana en datos de alta dimensión
  • Son ventajosas para la interpolación y la extrapolación en alta dimensión

Aprendizaje universal (Universal Learning)

  • Los modelos de deep learning muestran un buen desempeño de forma consistente en diversos dominios
  • Sobresalen en transferencia de aprendizaje e in-context learning

Conectividad de modos (Mode Connectivity)

  • Los modelos entrenados desde inicializaciones diferentes pueden conectarse siguiendo curvas simples
  • Esto se aprovecha en técnicas de entrenamiento como SWA (Stochastic Weight Averaging)

Conclusión y perspectivas

  • El benign overfitting, la sobreparametrización y el double descent no son fenómenos exclusivos de las redes neuronales
  • Pueden explicarse con PAC-Bayes y límites de hipótesis contables
  • El deep learning sí se diferencia por características como el aprendizaje de representaciones, el aprendizaje universal y la conectividad de modos
  • El desempeño de generalización no proviene de la complejidad del modelo, sino de su compresibilidad y simplicidad

1 comentarios

 
GN⁺ 2025-03-18
Comentarios de Hacker News
  • Si te interesa el machine learning, la clase de Stanford "Probability for computer scientists" es un recurso excelente

    • Esta clase cubre en profundidad la teoría de probabilidad y los fundamentos teóricos del machine learning
    • Las clases de Andrew Ng también son famosas, pero requieren una comprensión matemática de álgebra lineal
    • Para deep learning, la introducción visual de 3b1b es útil
  • La estabilidad algorítmica ofrece una explicación más convincente que los descendientes de PAC-Bayes o la teoría VC

    • El material relacionado se puede consultar en artículos de arXiv
  • Si quieres entender machine learning, recomiendo "The StatQuest Illustrated Guide to Machine Learning" de Josh Starmer

    • Es un excelente profesor que expresa ideas complejas de forma clara y concisa
    • Se puede leer y entender fácilmente porque tiene un formato parecido al de un libro infantil
    • También recomiendo su libro reciente sobre redes neuronales
  • Los DNN no tienen una capacidad de generalización especial

    • De hecho, su generalización puede ser más débil que la de técnicas matemáticamente más fundamentadas como SVM
    • Si entrenas un DNN con el dataset "Wine Quality" del repositorio de machine learning de UCI, obtienes malos resultados y overfitting
    • La "magia" de los LLM viene del paradigma de entrenamiento
    • Se pueden usar modelos enormes con datasets masivos sin overfitting
    • Hace 10 años, el principio de la "reutilización" no estaba claro
  • En lugar de restringir el espacio de hipótesis para evitar overfitting, es importante aceptar un espacio de hipótesis flexible y preferir soluciones simples que coincidan con los datos

    • Existe la pregunta de cómo deep learning logra esto
    • Antes se usaba un enfoque de verosimilitud con penalización
    • Daba la impresión de que, en deep learning, la forma de penalizar la complejidad era más compleja y menos intuitiva
  • Cuando empecé en deep learning, aprender la demostración del teorema de aproximación universal me ayudó muchísimo

    • Si entiendes por qué las redes neuronales pueden aproximar funciones, es más fácil entender todo lo que se construye encima de eso
  • Un ejemplo interesante donde se necesitan redes "profundas" se discute en un artículo reciente sobre RNN

    • Los modelos minGRU y minLSTM no modelan explícitamente la dependencia del estado, pero pueden aprenderla si tienen suficiente profundidad
  • Existe la idea de recolectar datos de texto y guardar las distancias entre palabras para crear un algoritmo de predicción

    • Me pregunto qué tan cerca está este método de GPT 2
  • Me pregunto dónde está la frontera de lo que se define y regula como 'IA'

  • Una neurona artificial consiste en tomar una regresión lineal y volverla no lineal añadiendo una función de activación

    • Al organizarlas en una red, aparecen resultados interesantes