- La Hipótesis de la Representación Platónica (Platonic Representation Hypothesis) sostiene que, a medida que los modelos de IA se vuelven más grandes y más inteligentes, convergen internamente hacia espacios de representación similares
- A través del concepto de compresión (compression) en los modelos de lenguaje, explica la inteligencia como capacidad de compresión de datos y cómo, cuando los modelos generalizan, aumenta la similitud en sus métodos
- Analiza el problema de la inversión de embeddings (embedding inversion) y, según la PRH, los espacios de embeddings entre distintos modelos pueden alinearse con métodos como CycleGAN
- Experimentos con Sparse Autoencoder, entre otros, muestran que redes muy distintas descubren conceptos y circuitos idénticos o similares
- Estas ideas elevan el potencial de aplicaciones prácticas, como el descifrado de escrituras antiguas no interpretadas o de lenguajes animales
Introducción: el juego Mussolini o Bread y el significado compartido
- El autor usa como ejemplo un juego llamado "Mussolini o Bread", en el que se va acotando una pregunta repetidamente para inferir el objeto que la otra persona tiene en mente
- La razón por la que este juego funciona es que existe un espacio semántico compartido entre las personas
- Se enfatiza que distintas personas, incluso sin reglas explícitas, suelen entender de forma intuitiva la 'cercanía' semántica
Semántica universal: la compresión del mundo y de los modelos
- Igual que en ese juego, el cerebro humano construye de forma similar modelos complejos del mundo real
- Desde una perspectiva algorítmica de la IA, esta aprende comprimiendo al máximo los datos del mundo
- La generación de lenguaje natural puede verse como una tarea de compresión basada en distribuciones de probabilidad (teoría de la información de Shannon)
- Cuanto mejor comprime un modelo los datos, más sugiere que comprende en profundidad el mundo real
- De hecho, los modelos de lenguaje más grandes muestran mejor capacidad de compresión de datos y mayor inteligencia
- Cuando el conjunto de datos se vuelve tan grande que memorizar puntos individuales deja de ser posible, el modelo empieza a generalizar combinando los datos
Hipótesis de la Representación Platónica (Platonic Representation Hypothesis)
- Investigadores del MIT formalizaron la "Platonic Representation Hypothesis" en 2024
- Según esta hipótesis, cuanto mayor es la escala de los modelos de IA, más aumentan las características (features) compartidas y más alineados quedan sus espacios de representación
- Esto ya se ha observado experimentalmente en diversos dominios, como lenguaje y visión
- Se prevé que, a medida que los modelos crezcan cada año y se vuelvan más eficientes, la similitud entre espacios de representación seguirá aumentando
El problema de la inversión de embeddings (embedding inversion)
- El autor describe su experiencia investigando el problema de la inversión de embeddings, es decir, inferir en sentido inverso el texto de entrada real a partir de un vector de embedding
- Ya había casos, por ejemplo en ImageNet, donde se lograba reconstruir información cercana a la imagen original solo con valores de probabilidad
- Aunque los embeddings de lenguaje natural parecen contener mucha información, como textos similares tienen embeddings similares, la inferencia inversa exacta resulta muy difícil
- Frente a esto, confirmó la eficacia de técnicas de iterative refinement, que exploran y optimizan embeddings de forma repetida para acercarse gradualmente a textos cada vez más precisos
- Con este enfoque, demostró la posibilidad de inversión con más de 94% de precisión a nivel de oraciones largas
Generalizar la inversión de embeddings usando la hipótesis platónica
- Sin embargo, los métodos existentes solo podían aplicarse a un modelo de embeddings específico y tenían límites frente a modelos nuevos o privados
- Si la PRH es correcta, sería posible crear un inversor universal de embeddings incluso entre distintos modelos
- Durante varios años investigó cómo alinear espacios mediante CycleGAN cuando se dan dos conjuntos distintos de embeddings (A, B) sin conocer las correspondencias entre pares
- Como resultado, logró convertir entre dos espacios de embeddings mediante emparejamiento no supervisado (unsupervised matching) sin necesidad de fine-tuning adicional (
vec2vec)
- Con ello, demostró que es posible traducir embeddings de bases de datos arbitrarias o inferirlos en reversa incluso sin información individual sobre cada embedding
Posibilidad de interpretación mecánica: Universal Circuits
- También en la investigación de circuitos dentro del campo de la interpretabilidad mecanicista (Mechanistic Interpretability) se encuentran funciones internas comunes aunque la estructura de los modelos sea distinta
- Al aplicar Sparse Autoencoder (SAE), se confirmó una superposición considerable en features interpretables incluso cuando se entrenan de forma independiente sobre modelos distintos
- Comparando las features de dos SAE, es posible alinear conceptos entre modelos
- Si la PRH es aún más precisa de lo que parece, se espera que este fenómeno destaque más en modelos más potentes
Implicaciones prácticas y perspectivas
- La hipótesis de la representación platónica, además de sus profundas implicaciones filosóficas, tiene posibilidades prácticas en interpretación de modelos, inversión, descifrado de señales, restauración de lenguajes y más
- A medida que avancen las técnicas de interpretación, se prevé que en modelos más grandes será más común encontrar alineación de espacios de representación y rasgos internos compartidos
- También podría llegar a ser posible descifrar escrituras antiguas hasta ahora irresolubles, como Linear A, o interpretar lenguajes animales como vocalizaciones de ballenas
- Aunque métodos actuales como
vec2vec aún tienen debilidades, muestran bastante éxito en embeddings basados en internet y en embeddings imagen-texto
- Esto también sugiere la posibilidad futura de descifrar conversiones entre espacios lingüísticos o incluso traducciones de lenguaje de ballenas → lenguaje humano
1 comentarios
Comentarios de Hacker News