- Existe la percepción de que el fenómeno de generalización de los modelos de deep learning es distinto y misterioso en comparación con los modelos tradicionales
- Overfitting, double descent y overparametrization suelen mencionarse con frecuencia como rasgos característicos del deep learning
- Sin embargo, estos fenómenos no se limitan a las redes neuronales y pueden explicarse con marcos clásicos de generalización, como PAC-Bayes y los límites de hipótesis contables
- El concepto de "sesgos inductivos suaves (soft inductive biases)" es el principio clave para explicar estos fenómenos de generalización
Sesgos inductivos suaves (Soft Inductive Biases)
- Los sesgos inductivos tradicionales restringen el espacio de hipótesis para mejorar el desempeño de generalización
- Los sesgos inductivos suaves mantienen la flexibilidad del espacio de hipótesis mientras asignan preferencia a ciertas soluciones
- Igual que en las CNN, donde el uso compartido de parámetros preserva la localidad y la invariancia a traslaciones, se añaden regularizaciones suaves sobre propiedades específicas
- La razón por la que los modelos sobreparametrizados también generalizan bien es que estos sesgos inductivos suaves están actuando
Marcos de generalización (Generalization Frameworks)
PAC-Bayes y límites de hipótesis contables
- PAC-Bayes explica el riesgo de generalización a partir del riesgo empírico y la compresibilidad del modelo
- Incluso un modelo grande puede tener buena generalización si es simple y compresible
- Fórmula:
- riesgo esperado ≤ riesgo empírico + término relacionado con la compresibilidad
Dimensionalidad efectiva (Effective Dimensionality)
- Dimensionalidad efectiva = número de valores propios grandes en la Hessiana de la función de pérdida del modelo
- Cuanto menor sea la dimensionalidad efectiva, más simple es el modelo y mejor es su capacidad de generalización
Otros marcos de generalización
- La complejidad de Rademacher, la dimensión VC y otras métricas no explican bien los fenómenos del deep learning
- PAC-Bayes y los límites de hipótesis contables sí pueden resolver este problema
Fenómenos principales
Benign Overfitting
- Fenómeno en el que el modelo aprende perfectamente incluso el ruido y aun así mantiene buen desempeño de generalización
- El benign overfitting también puede reproducirse con modelos lineales simples
- Puede explicarse con PAC-Bayes y límites de hipótesis contables
Sobreparametrización (Overparametrization)
- El modelo puede generalizar bien incluso si tiene más parámetros que datos
- Los modelos grandes generalizan bien porque, después del entrenamiento, pueden comprimirse hacia una estructura más simple
Double Descent
- Fenómeno en el que, al aumentar la complejidad del modelo, la pérdida primero baja, luego sube y después vuelve a bajar
- También puede reproducirse en modelos lineales
- Puede explicarse mediante la dimensionalidad efectiva y la compresibilidad del modelo
Perspectiva alternativa (Alternative Views)
- La visión tradicional de que la generalización del deep learning es misteriosa depende de marcos de generalización limitados
- Los fenómenos de generalización pueden explicarse con PAC-Bayes y límites de hipótesis contables
- La idea de que la generalización del deep learning es misteriosa podría ser un prejuicio equivocado
Elementos distintivos del deep learning (Distinctive Features of Deep Learning)
Aprendizaje de representaciones (Representation Learning)
- Las redes neuronales tienen la capacidad de aprender la similitud de los datos
- Pueden medir la similitud mejor que la distancia euclidiana en datos de alta dimensión
- Son ventajosas para la interpolación y la extrapolación en alta dimensión
Aprendizaje universal (Universal Learning)
- Los modelos de deep learning muestran un buen desempeño de forma consistente en diversos dominios
- Sobresalen en transferencia de aprendizaje e in-context learning
Conectividad de modos (Mode Connectivity)
- Los modelos entrenados desde inicializaciones diferentes pueden conectarse siguiendo curvas simples
- Esto se aprovecha en técnicas de entrenamiento como SWA (Stochastic Weight Averaging)
Conclusión y perspectivas
- El benign overfitting, la sobreparametrización y el double descent no son fenómenos exclusivos de las redes neuronales
- Pueden explicarse con PAC-Bayes y límites de hipótesis contables
- El deep learning sí se diferencia por características como el aprendizaje de representaciones, el aprendizaje universal y la conectividad de modos
- El desempeño de generalización no proviene de la complejidad del modelo, sino de su compresibilidad y simplicidad
1 comentarios
Comentarios de Hacker News
Si te interesa el machine learning, la clase de Stanford "Probability for computer scientists" es un recurso excelente
La estabilidad algorítmica ofrece una explicación más convincente que los descendientes de PAC-Bayes o la teoría VC
Si quieres entender machine learning, recomiendo "The StatQuest Illustrated Guide to Machine Learning" de Josh Starmer
Los DNN no tienen una capacidad de generalización especial
En lugar de restringir el espacio de hipótesis para evitar overfitting, es importante aceptar un espacio de hipótesis flexible y preferir soluciones simples que coincidan con los datos
Cuando empecé en deep learning, aprender la demostración del teorema de aproximación universal me ayudó muchísimo
Un ejemplo interesante donde se necesitan redes "profundas" se discute en un artículo reciente sobre RNN
Existe la idea de recolectar datos de texto y guardar las distancias entre palabras para crear un algoritmo de predicción
Me pregunto dónde está la frontera de lo que se define y regula como 'IA'
Una neurona artificial consiste en tomar una regresión lineal y volverla no lineal añadiendo una función de activación