- Experimentos a gran escala confirmaron que, incluso cuando distintos modelos de aprendizaje profundo se entrenan con datos e inicializaciones diferentes, convergen hacia un subespacio común de parámetros de baja dimensión
- El análisis espectral de más de 1100 modelos (500 LoRA de Mistral-7B, 500 Vision Transformer, 50 LLaMA-8B, entre otros) mostró que la mayor parte de la varianza se concentra en unas pocas direcciones de componentes principales
- Este subespacio universal (Universal Subspace) se forma según la arquitectura del modelo y aparece de manera recurrente sin depender de los datos ni de la inicialización
- Esta estructura tiene un gran potencial en compresión de modelos, aprendizaje eficiente en parámetros, fusión de modelos e inferencia rápida
- La investigación ofrece nuevas pistas para comprender la estructura intrínseca y la capacidad de generalización de las redes neuronales, y podría convertirse en una base importante para diseñar algoritmos de aprendizaje eficientes en el futuro
Descubrimiento del subespacio universal
- Se observó que redes de aprendizaje profundo entrenadas con distintos conjuntos de datos, inicializaciones e hiperparámetros convergen hacia un subespacio común de baja dimensión
- Este fenómeno aparece como una estructura de bajo rango similar por arquitectura y por capa
- Incluso cuando cambian los datos de entrenamiento o la función de pérdida, se mantiene la misma tendencia estructural
- El análisis espectral mostró que, aunque los espacios de pesos de tareas individuales parecen distintos, en realidad existen como parte de un espacio compartido de baja dimensión
- Estos resultados se presentan como una base para explicar por qué generalizan los modelos sobreajustados, por qué distintas inicializaciones convergen a representaciones similares y por qué tiene éxito el ajuste fino eficiente en parámetros
Experimentos y análisis a gran escala
- El estudio analizó más de 1100 modelos, incluidos 500 adaptadores LoRA de Mistral-7B, 500 Vision Transformer y 50 modelos LLaMA3-8B
- Cada modelo fue entrenado con distintos conjuntos de datos y condiciones de inicialización
- Según el resultado del análisis de componentes principales (PCA), unas pocas componentes principales explican la mayor parte de la varianza, lo que sugiere la existencia de un subespacio compartido de bajo rango
- En particular, incluso 500 modelos ViT con inicialización aleatoria convergieron al mismo subespacio de baja dimensión, lo que se interpreta como una propiedad fundamental de las redes neuronales
Modelado teórico y formulación matemática
- La investigación modela los predictores como elementos en un espacio de Hilbert (Hilbert space) para analizar las condiciones de recuperación de un subespacio común entre varias tareas
- A partir del predictor de cada tarea ( f_t^* ), se define un operador común de segundo momento S, y se demuestra que el operador aproximado ( \tilde{S} ), obtenido a partir de los predictores aprendidos ( \hat{f_t} ), converge a S
- El Teorema 2.5 muestra que el subespacio aprendido converge al subespacio común real, y que la velocidad de convergencia está determinada por el número de tareas (T) y la precisión de estimación de cada tarea (η)
- Cuanto mayor sea la separación entre valores propios (γₖ), más estable será la recuperación del subespacio
Posibles aplicaciones e impacto
- Al aprovechar el subespacio compartido, se habilitan aplicaciones como las siguientes
- Compresión de modelos al guardar solo coeficientes del subespacio en lugar de los pesos completos
- Adaptación rápida a nuevas tareas dentro del subespacio aprendido
- Aportar ideas teóricas sobre los límites de generalización y el paisaje de optimización
- Posible reducción del costo computacional de entrenamiento e inferencia, con la consecuente disminución de emisiones de carbono
- Esta estructura también puede mejorar la eficiencia en reutilización de modelos, aprendizaje multitarea y fusión de modelos
Líneas de investigación futuras
- Las diferencias entre subespacios universales según la arquitectura y su posible optimización geométrica siguen siendo cuestiones abiertas
- Si todas las redes convergen al mismo subespacio, la falta de diversidad causada por el compartir sesgos y modos de fallo podría convertirse en un nuevo cuello de botella
- Las investigaciones futuras deberán desarrollar métodos para dispersar intencionalmente esta convergencia
Resumen de contribuciones principales
- Demostración empírica de la existencia de un subespacio universal de baja dimensión en el espacio de parámetros de redes de aprendizaje profundo
- Propuesta de un método para aprender un subespacio compartido aproximado a partir de conjuntos de tareas diversos
- Verificación de que el subespacio aprendido permite una adaptación eficiente a nuevas tareas con pocos parámetros
- Presentación de su potencial de uso en compresión de modelos, aprendizaje e inferencia rápidos y escalado eficiente
1 comentarios
Comentarios en Hacker News
La expresión “500 Vision Transformers” resultaba confusa.
En realidad se refiere a 500 versiones del mismo modelo base ajustadas con fine-tuning.
Estos modelos fueron descargados de cuentas anónimas de usuarios en Hugging Face, y la expresión “universal” en la práctica solo aplica a un único modelo preentrenado.
Que modelos ajustados con fine-tuning, como LoRA, se parezcan entre sí no es algo sorprendente.
Como referencia, uno de los modelos citados en el paper, CheXpert-ViT-U-MultiClass, muestra una advertencia de malware en Hugging Face.
Al principio pensé que habían encontrado un subespacio común entre arquitecturas de modelos distintas, lo que me confundió, pero al final se trata de estabilidad dentro de la misma clase de modelo.
Aun así, en la práctica esto no pasa de confirmar la obviedad de que “la función de pérdida tiene mínimos bien definidos”, así que el nombre “hipótesis del subespacio universal de pesos” suena algo exagerado.
No es tan práctico de inmediato como LoRA, pero sí podría abrir la puerta a trabajos futuros.
Si haces fine-tuning con 500 datasets, parecería que eso formaría un espacio de 500 dimensiones, pero en realidad converge a un subespacio de unas 40 dimensiones.
Es decir, los pesos ajustados podrían comprimirse en 40 números reales.
Tal vez algún día Hugging Face muestre el tamaño de los modelos en unidades de “160 bytes”.
Aun así, esos vectores base siguen teniendo el tamaño del modelo completo, y además hace falta asumir que la dimensionalidad no aumenta aunque crezca la cantidad de datasets.
Es una lástima que los autores hayan usado modelos aleatorios, pero ojalá este trabajo lleve a investigaciones posteriores que entrenen modelos grandes desde cero.
Además, creo que el paper también analizaba modelos entrenados desde cero.
Creo que la parte más importante del paper son estas dos oraciones.
Primero, proyectar los pesos de 5 nuevos modelos ViT a un subespacio universal de 16 dimensiones no produjo pérdida de exactitud.
Segundo, fue posible reemplazar 500 modelos ViT por un único modelo de subespacio universal, reduciendo el uso de memoria 100 veces.
En otras palabras, encontraron una estructura común en 50 LLaMA3-8B, 177 GPT-2 y 8 modelos Flan-T5, y el desempeño se mantuvo incluso al usar eso en lugar de los modelos originales.
Como analogía, sería como descubrir un diccionario de bzip2 capaz de comprimir todos los archivos al 99%.
La idea es que los modelos convergen al mismo espacio salvo por una transformación lineal.
Por ejemplo, codificadores siameses con pérdida MSE convergen al mismo espacio latente incluso sin decodificador.
Por eso, también es muy probable que Transformers entrenados con datos similares terminen llegando al mismo espacio a nivel de transformación lineal.
En ese sentido, este resultado no me parece sorprendente, y creo que lo más importante serían pruebas matemáticas como las de este paper.
Por ejemplo, si este subconjunto universal de pesos serviría para inicializar nuevos modelos, y si esto aplica solo a ciertas arquitecturas.
Quizá sea un bug en el código o un valor elegido arbitrariamente.
Sentí que el paper vende en exceso la idea de “universalidad”.
En CNN, que los filtros converjan a formas Laplacian/Gabor se explica por un fuerte sesgo inductivo.
Los Transformer no tienen ese tipo de restricción de localidad, así que aquí solo pudieron encontrar un subespacio mediante inicialización compartida (fine-tuning).
Al final, la “universalidad” no parece una propiedad intrínseca del aprendizaje, sino el resultado de restricciones estructurales + estabilidad del preentrenamiento.
Este enfoque parece mucho mejor que LoRA y también podría servir para mejorar la velocidad de inferencia.
Incluso es posible que los modelos grandes ya lo estén usando internamente.
Lo clave es que encontraron el subconjunto de parámetros implicado en la transferencia de capacidades hacia nuevas tareas.
No funciona para tareas completamente nuevas, pero dentro del mismo dominio sí parece efectivo.
Como en la analogía de GPT 5.1, se parece a una expresión base para ajustar “gestos” en el rigging de personajes 3D.
La postura es que las tareas posibles dentro de las leyes de la física son finitas, y que la mayoría ni siquiera tienen sentido.
El concepto de “subespacio universal” que describe el paper no me pareció claro.
Como solo compararon dentro de la misma familia de modelos, no existe un subespacio común entre modelos con arquitecturas distintas, como ViT y GPT2.
Que el análisis de componentes principales caiga de forma logarítmica es algo esperable.
Además, en la multiplicación de matrices puedes permutar filas y columnas y luego revertir el resultado, así que modelos entrenados de manera totalmente independiente no pueden compartir las mismas direcciones de subespacio.
Si los modelos convergen de manera natural a un espacio de baja dimensión, entonces podría iniciarse el entrenamiento dentro de ese espacio y aumentar mucho la velocidad de entrenamiento.
Es probable que los Transformer funcionen bajo un principio similar.
Teóricamente harían falta pruebas matemáticas como las de este paper.
Impresiona que hayan obtenido este resultado con muchos menos recursos que OpenAI o Google.
Me hace pensar en qué pasaría si esta estructura se desarrollara con algoritmos genéticos (GA).
La verdad es que cada vez que sale el tema de redes neuronales termino pensando en GA.
El crossover y la mutation me resultan intuitivos, pero la backpropagation todavía se me hace difícil.
La idea es descomponer matrices de pesos en patrones espectrales para buscar en un espacio comprimido.
También parecería posible codificar modelos grandes ya existentes en forma comprimida y usarlos como punto de partida para mutaciones.
Si este enfoque avanza, incluso podría descubrir nuevos mecanismos de forma evolutiva.
Enlace de EvoLisa
No tiene nada que ver con el entrenamiento de LLM, pero en cierto sentido me produce una sensación parecida.
Me pregunto cuál será la relación con la “Platonic Representation Hypothesis”.
Viendo que últimamente vuelven a ponerse de moda estos discursos platónicos, parece que se está convergiendo a alguna intuición más fundamental.
Una estructura de representación compartida podría ser una buena candidata a categorías platónicas.
Da la impresión de que debe existir un mapeo interesante entre ambos conceptos.
Básicamente presenta evidencia empírica que respalda la hipótesis anterior.
También hubo la especulación, medio en broma, de que “quizá todos los modelos sean en realidad versiones ajustadas de LLaMA”.
Los autores afirman haber analizado varios modelos de fine-tuning de bajo rango (low-rank fine-tune) y encontrado una estructura compartida de bajo rango.
Esto depende del modelo base, y se parece a cómo la variación genética humana puede expresarse con unos pocos componentes principales.
En última instancia, quizá este fenómeno aparece porque existe una ascendencia compartida.