El deep learning no es tan misterioso ni tan diferente

(arxiv.org)

30 puntos por GN⁺ 2025-03-18 | 1 comentarios | Compartir por WhatsApp

Existe la percepción de que el fenómeno de generalización de los modelos de deep learning es distinto y misterioso en comparación con los modelos tradicionales
Overfitting, double descent y overparametrization suelen mencionarse con frecuencia como rasgos característicos del deep learning
Sin embargo, estos fenómenos no se limitan a las redes neuronales y pueden explicarse con marcos clásicos de generalización, como PAC-Bayes y los límites de hipótesis contables
El concepto de "sesgos inductivos suaves (soft inductive biases)" es el principio clave para explicar estos fenómenos de generalización

Sesgos inductivos suaves (Soft Inductive Biases)

Los sesgos inductivos tradicionales restringen el espacio de hipótesis para mejorar el desempeño de generalización
Los sesgos inductivos suaves mantienen la flexibilidad del espacio de hipótesis mientras asignan preferencia a ciertas soluciones
Igual que en las CNN, donde el uso compartido de parámetros preserva la localidad y la invariancia a traslaciones, se añaden regularizaciones suaves sobre propiedades específicas
La razón por la que los modelos sobreparametrizados también generalizan bien es que estos sesgos inductivos suaves están actuando

Marcos de generalización (Generalization Frameworks)

PAC-Bayes y límites de hipótesis contables

PAC-Bayes explica el riesgo de generalización a partir del riesgo empírico y la compresibilidad del modelo
Incluso un modelo grande puede tener buena generalización si es simple y compresible
Fórmula:
- riesgo esperado ≤ riesgo empírico + término relacionado con la compresibilidad

Dimensionalidad efectiva (Effective Dimensionality)

Dimensionalidad efectiva = número de valores propios grandes en la Hessiana de la función de pérdida del modelo
Cuanto menor sea la dimensionalidad efectiva, más simple es el modelo y mejor es su capacidad de generalización

Otros marcos de generalización

La complejidad de Rademacher, la dimensión VC y otras métricas no explican bien los fenómenos del deep learning
PAC-Bayes y los límites de hipótesis contables sí pueden resolver este problema

Fenómenos principales

Benign Overfitting

Fenómeno en el que el modelo aprende perfectamente incluso el ruido y aun así mantiene buen desempeño de generalización
El benign overfitting también puede reproducirse con modelos lineales simples
Puede explicarse con PAC-Bayes y límites de hipótesis contables

Sobreparametrización (Overparametrization)

El modelo puede generalizar bien incluso si tiene más parámetros que datos
Los modelos grandes generalizan bien porque, después del entrenamiento, pueden comprimirse hacia una estructura más simple

Double Descent

Fenómeno en el que, al aumentar la complejidad del modelo, la pérdida primero baja, luego sube y después vuelve a bajar
También puede reproducirse en modelos lineales
Puede explicarse mediante la dimensionalidad efectiva y la compresibilidad del modelo

Perspectiva alternativa (Alternative Views)

La visión tradicional de que la generalización del deep learning es misteriosa depende de marcos de generalización limitados
Los fenómenos de generalización pueden explicarse con PAC-Bayes y límites de hipótesis contables
La idea de que la generalización del deep learning es misteriosa podría ser un prejuicio equivocado

Elementos distintivos del deep learning (Distinctive Features of Deep Learning)

Aprendizaje de representaciones (Representation Learning)

Las redes neuronales tienen la capacidad de aprender la similitud de los datos
Pueden medir la similitud mejor que la distancia euclidiana en datos de alta dimensión
Son ventajosas para la interpolación y la extrapolación en alta dimensión

Aprendizaje universal (Universal Learning)

Los modelos de deep learning muestran un buen desempeño de forma consistente en diversos dominios
Sobresalen en transferencia de aprendizaje e in-context learning

Conectividad de modos (Mode Connectivity)

Los modelos entrenados desde inicializaciones diferentes pueden conectarse siguiendo curvas simples
Esto se aprovecha en técnicas de entrenamiento como SWA (Stochastic Weight Averaging)

Conclusión y perspectivas

El benign overfitting, la sobreparametrización y el double descent no son fenómenos exclusivos de las redes neuronales
Pueden explicarse con PAC-Bayes y límites de hipótesis contables
El deep learning sí se diferencia por características como el aprendizaje de representaciones, el aprendizaje universal y la conectividad de modos
El desempeño de generalización no proviene de la complejidad del modelo, sino de su compresibilidad y simplicidad

1 comentarios

GN⁺ 2025-03-18

Comentarios de Hacker News

Si te interesa el machine learning, la clase de Stanford "Probability for computer scientists" es un recurso excelente
- Esta clase cubre en profundidad la teoría de probabilidad y los fundamentos teóricos del machine learning
- Las clases de Andrew Ng también son famosas, pero requieren una comprensión matemática de álgebra lineal
- Para deep learning, la introducción visual de 3b1b es útil
La estabilidad algorítmica ofrece una explicación más convincente que los descendientes de PAC-Bayes o la teoría VC
- El material relacionado se puede consultar en artículos de arXiv
Si quieres entender machine learning, recomiendo "The StatQuest Illustrated Guide to Machine Learning" de Josh Starmer
- Es un excelente profesor que expresa ideas complejas de forma clara y concisa
- Se puede leer y entender fácilmente porque tiene un formato parecido al de un libro infantil
- También recomiendo su libro reciente sobre redes neuronales
Los DNN no tienen una capacidad de generalización especial
- De hecho, su generalización puede ser más débil que la de técnicas matemáticamente más fundamentadas como SVM
- Si entrenas un DNN con el dataset "Wine Quality" del repositorio de machine learning de UCI, obtienes malos resultados y overfitting
- La "magia" de los LLM viene del paradigma de entrenamiento
- Se pueden usar modelos enormes con datasets masivos sin overfitting
- Hace 10 años, el principio de la "reutilización" no estaba claro
En lugar de restringir el espacio de hipótesis para evitar overfitting, es importante aceptar un espacio de hipótesis flexible y preferir soluciones simples que coincidan con los datos
- Existe la pregunta de cómo deep learning logra esto
- Antes se usaba un enfoque de verosimilitud con penalización
- Daba la impresión de que, en deep learning, la forma de penalizar la complejidad era más compleja y menos intuitiva
Cuando empecé en deep learning, aprender la demostración del teorema de aproximación universal me ayudó muchísimo
- Si entiendes por qué las redes neuronales pueden aproximar funciones, es más fácil entender todo lo que se construye encima de eso
Un ejemplo interesante donde se necesitan redes "profundas" se discute en un artículo reciente sobre RNN
- Los modelos minGRU y minLSTM no modelan explícitamente la dependencia del estado, pero pueden aprenderla si tienen suficiente profundidad
Existe la idea de recolectar datos de texto y guardar las distancias entre palabras para crear un algoritmo de predicción
- Me pregunto qué tan cerca está este método de GPT 2
Me pregunto dónde está la frontera de lo que se define y regula como 'IA'
Una neurona artificial consiste en tomar una regresión lineal y volverla no lineal añadiendo una función de activación
- Al organizarlas en una red, aparecen resultados interesantes

El deep learning no es tan misterioso ni tan diferente

Sesgos inductivos suaves (Soft Inductive Biases)

Marcos de generalización (Generalization Frameworks)

PAC-Bayes y límites de hipótesis contables

Dimensionalidad efectiva (Effective Dimensionality)

Otros marcos de generalización

Fenómenos principales

Benign Overfitting

Sobreparametrización (Overparametrization)

Double Descent

Perspectiva alternativa (Alternative Views)

Elementos distintivos del deep learning (Distinctive Features of Deep Learning)

Aprendizaje de representaciones (Representation Learning)

Aprendizaje universal (Universal Learning)

Conectividad de modos (Mode Connectivity)

Conclusión y perspectivas

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News