Hipótesis del subespacio universal de pesos

(arxiv.org)

2 puntos por GN⁺ 2025-12-11 | 1 comentarios | Compartir por WhatsApp

Experimentos a gran escala confirmaron que, incluso cuando distintos modelos de aprendizaje profundo se entrenan con datos e inicializaciones diferentes, convergen hacia un subespacio común de parámetros de baja dimensión
El análisis espectral de más de 1100 modelos (500 LoRA de Mistral-7B, 500 Vision Transformer, 50 LLaMA-8B, entre otros) mostró que la mayor parte de la varianza se concentra en unas pocas direcciones de componentes principales
Este subespacio universal (Universal Subspace) se forma según la arquitectura del modelo y aparece de manera recurrente sin depender de los datos ni de la inicialización
Esta estructura tiene un gran potencial en compresión de modelos, aprendizaje eficiente en parámetros, fusión de modelos e inferencia rápida
La investigación ofrece nuevas pistas para comprender la estructura intrínseca y la capacidad de generalización de las redes neuronales, y podría convertirse en una base importante para diseñar algoritmos de aprendizaje eficientes en el futuro

Descubrimiento del subespacio universal

Se observó que redes de aprendizaje profundo entrenadas con distintos conjuntos de datos, inicializaciones e hiperparámetros convergen hacia un subespacio común de baja dimensión
- Este fenómeno aparece como una estructura de bajo rango similar por arquitectura y por capa
- Incluso cuando cambian los datos de entrenamiento o la función de pérdida, se mantiene la misma tendencia estructural
El análisis espectral mostró que, aunque los espacios de pesos de tareas individuales parecen distintos, en realidad existen como parte de un espacio compartido de baja dimensión
Estos resultados se presentan como una base para explicar por qué generalizan los modelos sobreajustados, por qué distintas inicializaciones convergen a representaciones similares y por qué tiene éxito el ajuste fino eficiente en parámetros

Experimentos y análisis a gran escala

El estudio analizó más de 1100 modelos, incluidos 500 adaptadores LoRA de Mistral-7B, 500 Vision Transformer y 50 modelos LLaMA3-8B
- Cada modelo fue entrenado con distintos conjuntos de datos y condiciones de inicialización
Según el resultado del análisis de componentes principales (PCA), unas pocas componentes principales explican la mayor parte de la varianza, lo que sugiere la existencia de un subespacio compartido de bajo rango
En particular, incluso 500 modelos ViT con inicialización aleatoria convergieron al mismo subespacio de baja dimensión, lo que se interpreta como una propiedad fundamental de las redes neuronales

Modelado teórico y formulación matemática

La investigación modela los predictores como elementos en un espacio de Hilbert (Hilbert space) para analizar las condiciones de recuperación de un subespacio común entre varias tareas
A partir del predictor de cada tarea ( f_t^* ), se define un operador común de segundo momento S, y se demuestra que el operador aproximado ( \tilde{S} ), obtenido a partir de los predictores aprendidos ( \hat{f_t} ), converge a S
El Teorema 2.5 muestra que el subespacio aprendido converge al subespacio común real, y que la velocidad de convergencia está determinada por el número de tareas (T) y la precisión de estimación de cada tarea (η)
Cuanto mayor sea la separación entre valores propios (γₖ), más estable será la recuperación del subespacio

Posibles aplicaciones e impacto

Al aprovechar el subespacio compartido, se habilitan aplicaciones como las siguientes
- Compresión de modelos al guardar solo coeficientes del subespacio en lugar de los pesos completos
- Adaptación rápida a nuevas tareas dentro del subespacio aprendido
- Aportar ideas teóricas sobre los límites de generalización y el paisaje de optimización
- Posible reducción del costo computacional de entrenamiento e inferencia, con la consecuente disminución de emisiones de carbono
Esta estructura también puede mejorar la eficiencia en reutilización de modelos, aprendizaje multitarea y fusión de modelos

Líneas de investigación futuras

Las diferencias entre subespacios universales según la arquitectura y su posible optimización geométrica siguen siendo cuestiones abiertas
Si todas las redes convergen al mismo subespacio, la falta de diversidad causada por el compartir sesgos y modos de fallo podría convertirse en un nuevo cuello de botella
Las investigaciones futuras deberán desarrollar métodos para dispersar intencionalmente esta convergencia

Resumen de contribuciones principales

Demostración empírica de la existencia de un subespacio universal de baja dimensión en el espacio de parámetros de redes de aprendizaje profundo
Propuesta de un método para aprender un subespacio compartido aproximado a partir de conjuntos de tareas diversos
Verificación de que el subespacio aprendido permite una adaptación eficiente a nuevas tareas con pocos parámetros
Presentación de su potencial de uso en compresión de modelos, aprendizaje e inferencia rápidos y escalado eficiente

1 comentarios

GN⁺ 2025-12-11

Comentarios en Hacker News

La expresión “500 Vision Transformers” resultaba confusa.
En realidad se refiere a 500 versiones del mismo modelo base ajustadas con fine-tuning.
Estos modelos fueron descargados de cuentas anónimas de usuarios en Hugging Face, y la expresión “universal” en la práctica solo aplica a un único modelo preentrenado.
Que modelos ajustados con fine-tuning, como LoRA, se parezcan entre sí no es algo sorprendente.
Como referencia, uno de los modelos citados en el paper, CheXpert-ViT-U-MultiClass, muestra una advertencia de malware en Hugging Face.
- Gracias a esta explicación, quedó más claro qué quiere decir el paper con “subespacio universal”.
  Al principio pensé que habían encontrado un subespacio común entre arquitecturas de modelos distintas, lo que me confundió, pero al final se trata de estabilidad dentro de la misma clase de modelo.
  Aun así, en la práctica esto no pasa de confirmar la obviedad de que “la función de pérdida tiene mínimos bien definidos”, así que el nombre “hipótesis del subespacio universal de pesos” suena algo exagerado.
- Los resultados de fine-tuning eran previsibles, pero el experimento con ResNet entrenado desde cero (Figure 2, Section 3.2.1) me pareció más interesante.
  No es tan práctico de inmediato como LoRA, pero sí podría abrir la puerta a trabajos futuros.
- Cada fine-tuning desplaza los pesos del modelo base en cierta dirección.
  Si haces fine-tuning con 500 datasets, parecería que eso formaría un espacio de 500 dimensiones, pero en realidad converge a un subespacio de unas 40 dimensiones.
  Es decir, los pesos ajustados podrían comprimirse en 40 números reales.
  Tal vez algún día Hugging Face muestre el tamaño de los modelos en unidades de “160 bytes”.
  Aun así, esos vectores base siguen teniendo el tamaño del modelo completo, y además hace falta asumir que la dimensionalidad no aumenta aunque crezca la cantidad de datasets.
  Es una lástima que los autores hayan usado modelos aleatorios, pero ojalá este trabajo lleve a investigaciones posteriores que entrenen modelos grandes desde cero.
- Me pregunto por qué consideran que son similares si fueron entrenados con datos distintos.
  Además, creo que el paper también analizaba modelos entrenados desde cero.
- Trabajaron con modelos Mistral y LLaMA, pero la palabra “universal” sigue siendo una exageración.
Creo que la parte más importante del paper son estas dos oraciones.
Primero, proyectar los pesos de 5 nuevos modelos ViT a un subespacio universal de 16 dimensiones no produjo pérdida de exactitud.
Segundo, fue posible reemplazar 500 modelos ViT por un único modelo de subespacio universal, reduciendo el uso de memoria 100 veces.
En otras palabras, encontraron una estructura común en 50 LLaMA3-8B, 177 GPT-2 y 8 modelos Flan-T5, y el desempeño se mantuvo incluso al usar eso en lugar de los modelos originales.
Como analogía, sería como descubrir un diccionario de bzip2 capaz de comprimir todos los archivos al 99%.
- Como antecedente teórico relacionado está el paper arXiv:2007.00810.
  La idea es que los modelos convergen al mismo espacio salvo por una transformación lineal.
  Por ejemplo, codificadores siameses con pérdida MSE convergen al mismo espacio latente incluso sin decodificador.
  Por eso, también es muy probable que Transformers entrenados con datos similares terminen llegando al mismo espacio a nivel de transformación lineal.
  En ese sentido, este resultado no me parece sorprendente, y creo que lo más importante serían pruebas matemáticas como las de este paper.
- Me da curiosidad cómo podría aprovecharse en la práctica esta “commonality”.
  Por ejemplo, si este subconjunto universal de pesos serviría para inicializar nuevos modelos, y si esto aplica solo a ciertas arquitecturas.
- Si los modelos ocupan de forma natural un subespacio espectral compartido, entonces podrían reducirse mucho tanto el costo de entrenamiento como el espacio de almacenamiento.
- Me llamó la atención eso de que “solo hacen falta 16 dimensiones”.
- Pero el número 16 es demasiado limpio, así que da desconfianza.
  Quizá sea un bug en el código o un valor elegido arbitrariamente.
Sentí que el paper vende en exceso la idea de “universalidad”.
En CNN, que los filtros converjan a formas Laplacian/Gabor se explica por un fuerte sesgo inductivo.
Los Transformer no tienen ese tipo de restricción de localidad, así que aquí solo pudieron encontrar un subespacio mediante inicialización compartida (fine-tuning).
Al final, la “universalidad” no parece una propiedad intrínseca del aprendizaje, sino el resultado de restricciones estructurales + estabilidad del preentrenamiento.
- Aun así, el solo hecho de que exista esta línea de investigación me parece sorprendente e interesante.
Este enfoque parece mucho mejor que LoRA y también podría servir para mejorar la velocidad de inferencia.
Incluso es posible que los modelos grandes ya lo estén usando internamente.
Lo clave es que encontraron el subconjunto de parámetros implicado en la transferencia de capacidades hacia nuevas tareas.
No funciona para tareas completamente nuevas, pero dentro del mismo dominio sí parece efectivo.
Como en la analogía de GPT 5.1, se parece a una expresión base para ajustar “gestos” en el rigging de personajes 3D.
- También está la pregunta filosófica: “¿existen tareas completamente nuevas?”.
  La postura es que las tareas posibles dentro de las leyes de la física son finitas, y que la mayoría ni siquiera tienen sentido.
- En la práctica, parece que sí funciona hasta cierto punto también en tareas nuevas.
El concepto de “subespacio universal” que describe el paper no me pareció claro.
Como solo compararon dentro de la misma familia de modelos, no existe un subespacio común entre modelos con arquitecturas distintas, como ViT y GPT2.
Que el análisis de componentes principales caiga de forma logarítmica es algo esperable.
Además, en la multiplicación de matrices puedes permutar filas y columnas y luego revertir el resultado, así que modelos entrenados de manera totalmente independiente no pueden compartir las mismas direcciones de subespacio.
- En el fondo, esto se parece más a una técnica de compresión de modelos que a “universalidad” en sentido filosófico.
Si los modelos convergen de manera natural a un espacio de baja dimensión, entonces podría iniciarse el entrenamiento dentro de ese espacio y aumentar mucho la velocidad de entrenamiento.
- Igual que con codificadores siameses, usar la misma función de pérdida lleva al mismo espacio latente a nivel de transformación lineal.
  Es probable que los Transformer funcionen bajo un principio similar.
  Teóricamente harían falta pruebas matemáticas como las de este paper.
- Me parece interesante que este trabajo haya salido de JHU.
  Impresiona que hayan obtenido este resultado con muchos menos recursos que OpenAI o Google.
- Pero si existe ese espacio común, también podría existir un límite en la capacidad de representación del modelo.
- O incluso podría diseñarse una arquitectura nueva que use directamente las propiedades de ese subespacio como sesgo inductivo.
Me hace pensar en qué pasaría si esta estructura se desarrollara con algoritmos genéticos (GA).
La verdad es que cada vez que sale el tema de redes neuronales termino pensando en GA.
- Le tengo cariño a los GA por haber leído de niño Artificial Life de Levy.
  El crossover y la mutation me resultan intuitivos, pero la backpropagation todavía se me hace difícil.
- Últimamente estoy experimentando con GA de codificación indirecta, y este paper parece respaldar esa dirección.
  La idea es descomponer matrices de pesos en patrones espectrales para buscar en un espacio comprimido.
  También parecería posible codificar modelos grandes ya existentes en forma comprimida y usarlos como punto de partida para mutaciones.
  Si este enfoque avanza, incluso podría descubrir nuevos mecanismos de forma evolutiva.
- Ahora que existe este objetivo, me parece un buen momento para volver a usar GA u otros métodos no basados en aprendizaje.
- En su momento me obsesioné con el proyecto EvoLisa.
  Enlace de EvoLisa
  No tiene nada que ver con el entrenamiento de LLM, pero en cierto sentido me produce una sensación parecida.
- A mí me atrae más la cuantización vectorial (vector quantization) que los GA.
Me pregunto cuál será la relación con la “Platonic Representation Hypothesis”.
- Ojalá responda alguien más inteligente que yo.
  Viendo que últimamente vuelven a ponerse de moda estos discursos platónicos, parece que se está convergiendo a alguna intuición más fundamental.
- Las dos hipótesis están estrechamente relacionadas.
  Una estructura de representación compartida podría ser una buena candidata a categorías platónicas.
  Da la impresión de que debe existir un mapeo interesante entre ambos conceptos.
- El paper arXiv:2405.07987 va en esa misma línea.
  Básicamente presenta evidencia empírica que respalda la hipótesis anterior.
También hubo la especulación, medio en broma, de que “quizá todos los modelos sean en realidad versiones ajustadas de LLaMA”.
Los autores afirman haber analizado varios modelos de fine-tuning de bajo rango (low-rank fine-tune) y encontrado una estructura compartida de bajo rango.
Esto depende del modelo base, y se parece a cómo la variación genética humana puede expresarse con unos pocos componentes principales.
En última instancia, quizá este fenómeno aparece porque existe una ascendencia compartida.

Hipótesis del subespacio universal de pesos

Descubrimiento del subespacio universal

Experimentos y análisis a gran escala

Modelado teórico y formulación matemática

Posibles aplicaciones e impacto

Líneas de investigación futuras

Resumen de contribuciones principales

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News