1 puntos por GN⁺ 2025-07-19 | 1 comentarios | Compartir por WhatsApp
  • La Hipótesis de la Representación Platónica (Platonic Representation Hypothesis) sostiene que, a medida que los modelos de IA se vuelven más grandes y más inteligentes, convergen internamente hacia espacios de representación similares
  • A través del concepto de compresión (compression) en los modelos de lenguaje, explica la inteligencia como capacidad de compresión de datos y cómo, cuando los modelos generalizan, aumenta la similitud en sus métodos
  • Analiza el problema de la inversión de embeddings (embedding inversion) y, según la PRH, los espacios de embeddings entre distintos modelos pueden alinearse con métodos como CycleGAN
  • Experimentos con Sparse Autoencoder, entre otros, muestran que redes muy distintas descubren conceptos y circuitos idénticos o similares
  • Estas ideas elevan el potencial de aplicaciones prácticas, como el descifrado de escrituras antiguas no interpretadas o de lenguajes animales

Introducción: el juego Mussolini o Bread y el significado compartido

  • El autor usa como ejemplo un juego llamado "Mussolini o Bread", en el que se va acotando una pregunta repetidamente para inferir el objeto que la otra persona tiene en mente
  • La razón por la que este juego funciona es que existe un espacio semántico compartido entre las personas
  • Se enfatiza que distintas personas, incluso sin reglas explícitas, suelen entender de forma intuitiva la 'cercanía' semántica

Semántica universal: la compresión del mundo y de los modelos

  • Igual que en ese juego, el cerebro humano construye de forma similar modelos complejos del mundo real
  • Desde una perspectiva algorítmica de la IA, esta aprende comprimiendo al máximo los datos del mundo
  • La generación de lenguaje natural puede verse como una tarea de compresión basada en distribuciones de probabilidad (teoría de la información de Shannon)
  • Cuanto mejor comprime un modelo los datos, más sugiere que comprende en profundidad el mundo real
  • De hecho, los modelos de lenguaje más grandes muestran mejor capacidad de compresión de datos y mayor inteligencia
  • Cuando el conjunto de datos se vuelve tan grande que memorizar puntos individuales deja de ser posible, el modelo empieza a generalizar combinando los datos

Hipótesis de la Representación Platónica (Platonic Representation Hypothesis)

  • Investigadores del MIT formalizaron la "Platonic Representation Hypothesis" en 2024
  • Según esta hipótesis, cuanto mayor es la escala de los modelos de IA, más aumentan las características (features) compartidas y más alineados quedan sus espacios de representación
  • Esto ya se ha observado experimentalmente en diversos dominios, como lenguaje y visión
  • Se prevé que, a medida que los modelos crezcan cada año y se vuelvan más eficientes, la similitud entre espacios de representación seguirá aumentando

El problema de la inversión de embeddings (embedding inversion)

  • El autor describe su experiencia investigando el problema de la inversión de embeddings, es decir, inferir en sentido inverso el texto de entrada real a partir de un vector de embedding
  • Ya había casos, por ejemplo en ImageNet, donde se lograba reconstruir información cercana a la imagen original solo con valores de probabilidad
  • Aunque los embeddings de lenguaje natural parecen contener mucha información, como textos similares tienen embeddings similares, la inferencia inversa exacta resulta muy difícil
  • Frente a esto, confirmó la eficacia de técnicas de iterative refinement, que exploran y optimizan embeddings de forma repetida para acercarse gradualmente a textos cada vez más precisos
  • Con este enfoque, demostró la posibilidad de inversión con más de 94% de precisión a nivel de oraciones largas

Generalizar la inversión de embeddings usando la hipótesis platónica

  • Sin embargo, los métodos existentes solo podían aplicarse a un modelo de embeddings específico y tenían límites frente a modelos nuevos o privados
  • Si la PRH es correcta, sería posible crear un inversor universal de embeddings incluso entre distintos modelos
  • Durante varios años investigó cómo alinear espacios mediante CycleGAN cuando se dan dos conjuntos distintos de embeddings (A, B) sin conocer las correspondencias entre pares
  • Como resultado, logró convertir entre dos espacios de embeddings mediante emparejamiento no supervisado (unsupervised matching) sin necesidad de fine-tuning adicional (vec2vec)
  • Con ello, demostró que es posible traducir embeddings de bases de datos arbitrarias o inferirlos en reversa incluso sin información individual sobre cada embedding

Posibilidad de interpretación mecánica: Universal Circuits

  • También en la investigación de circuitos dentro del campo de la interpretabilidad mecanicista (Mechanistic Interpretability) se encuentran funciones internas comunes aunque la estructura de los modelos sea distinta
  • Al aplicar Sparse Autoencoder (SAE), se confirmó una superposición considerable en features interpretables incluso cuando se entrenan de forma independiente sobre modelos distintos
  • Comparando las features de dos SAE, es posible alinear conceptos entre modelos
  • Si la PRH es aún más precisa de lo que parece, se espera que este fenómeno destaque más en modelos más potentes

Implicaciones prácticas y perspectivas

  • La hipótesis de la representación platónica, además de sus profundas implicaciones filosóficas, tiene posibilidades prácticas en interpretación de modelos, inversión, descifrado de señales, restauración de lenguajes y más
  • A medida que avancen las técnicas de interpretación, se prevé que en modelos más grandes será más común encontrar alineación de espacios de representación y rasgos internos compartidos
  • También podría llegar a ser posible descifrar escrituras antiguas hasta ahora irresolubles, como Linear A, o interpretar lenguajes animales como vocalizaciones de ballenas
  • Aunque métodos actuales como vec2vec aún tienen debilidades, muestran bastante éxito en embeddings basados en internet y en embeddings imagen-texto
  • Esto también sugiere la posibilidad futura de descifrar conversiones entre espacios lingüísticos o incluso traducciones de lenguaje de ballenas → lenguaje humano

1 comentarios

 
GN⁺ 2025-07-19
Comentarios de Hacker News
  • El hecho de que todas las personas aprendan conceptos parecidos como "perro", "casa", "persona" o "barco" es muy interesante, algo así como la teoría de las Ideas de Platón; aunque crezcamos en entornos distintos y nuestras experiencias de observación no se superpongan, al final llegamos a un acuerdo sobre los mismos conceptos. Los modelos de lenguaje grandes (LLM) muestran un aprendizaje parecido, pero como sus datos de entrenamiento se solapan mucho, no resulta tan sorprendente como en los humanos. Si de verdad existieran valores universales como la "Idea del Bien" que señalaba Platón, o una moral y virtud universales, sería esperable poder hacer que un LLM aprendiera esos valores para seguirlos o rechazar solicitudes que vayan en contra.
    • Conceptos como "lo bueno" o "la justicia" son mucho más complejos según el contexto. Podemos ponernos de acuerdo sobre objetos simples como barcos o casas, pero en cuestiones morales como el aborto, la eutanasia o la experimentación con animales y células madre, las posturas difieren gravemente incluso dentro de una misma sociedad. Como ejemplo, vale la pena ver este gráfico de una encuesta de Gallup de 2010.
    • La palabra "aproximadamente" carga con demasiado peso para sostener la afirmación de que Platón tenía razón. Vivimos en una realidad compartida, con las mismas leyes físicas y presiones evolutivas, así que solo hay un número limitado de maneras en que un barco puede flotar. Eso no significa que existan realmente las Ideas platónicas ni que todos lleguemos a conceptos idénticos. De hecho, palabras como "libertad", "economía" o "gobierno" tienen definiciones e interpretaciones distintas para cada quien; la gramática es la misma y por fuera parecen similares, pero los conceptos reales difieren.
    • Al final, lo entiendo más como el concepto de arquetipo de Jung.
  • Los ejemplos de convertir embeddings de vuelta en texto no respaldan la idea de un "modelo estadístico de una realidad compartida". Cuesta incluso imaginar una versión en lenguaje de ballenas de "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby"; Kentucky, el Derby, el calendario gregoriano, Estados Unidos y las razas de caballos son todos artefactos que se volvieron importantes por accidentes históricos y culturales de la humanidad. Al final, esto solo parece un fenómeno estadístico de entrenar a todos con el mismo montón de datos.
    • Independientemente de si el Kentucky Derby es o no "esencial para la realidad", para modelar la realidad con 100% de precisión sí hay que saber del Kentucky Derby. El autor sostiene que, en última instancia, el modelo está convergiendo a una representación más cercana a las Ideas platónicas. Si existiera un modelo completamente autónomo con convertibilidad perfecta, uno podría transmitir incluso en alta dimensión conceptos como "carrera de caballos" o "caballo que ganó una carrera". Que la teoría de las Ideas de Platón sea correcta o no es una cuestión aparte de si los LLM actuales realmente llegan a tanto.
    • Decir que toda la realidad es cultural no tiene mucho sentido; lo mismo podría aplicarse a los hechos científicos. Aunque una ballena no conozca la palabra ciencia, la gravedad existe. Si un LLM solo hubiera aprendido la teoría gravitacional de Newton y luego apareciera la relatividad general (GR) de Einstein, la capacidad explicativa de la GR sobre la realidad no cambiaría aunque no estuviera en los datos de entrenamiento. Y aunque no se pueda traducir la GR al canto de una ballena, sí podría transmitirse por inglés-chino-modelo ML-concepto mental; eso es precisamente el "modelo estadístico de una realidad compartida". Aunque no se pueda traducir la GR al balbuceo de un bebé, su realidad no cambia.
    • Es difícil decir que los LLM convergen a un modelo estadístico de la realidad; en realidad, solo están convergiendo a un modelo estadístico de los datos de entrenamiento. Lo único es que, como los datos son tan grandes, parece que encuentran algo común a todos los textos. No creo que eso vaya a revelar verdades fundamentales sobre la realidad, aunque sí puede ayudar a explicar fenómenos como "cuando usamos este modismo, todos entienden este significado".
    • Traducir la frase "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby" al griego o a algunas lenguas indígenas modernas también es casi imposible. No existe un contexto compartido sobre esa cultura, así que hace falta un glosario, o que el propio LLM haga de glosario. Aun así, los LLM de primer nivel ya pueden explicar conceptos micro y macro como QCD, gravedad o fenómenos culturales, y si de verdad hubiera que traducir a un idioma completamente nuevo, quizá bastaría con dar los conceptos base e ir construyendo la estructura poco a poco. Al final, el hecho de que los LLM traduzcan lenguajes humanos sin supervisión explícita también se debe a esa capacidad.
    • Este tema se puede comprobar fácilmente entrenando dos modelos con datasets completamente distintos, por ejemplo uno solo con textos de la antigua China y otro solo con griego antiguo, y ver si aparecen estructuras similares.
  • La expectativa de que "podamos traducir el lenguaje de las ballenas o lenguas antiguas" es demasiado optimista. Lo más importante del lenguaje es el contexto. La IA se desempeña bien con los idiomas humanos porque existen miles de millones de textos dejados por personas a partir de su experiencia; con las ballenas no hay ese tipo de datos.
    • Esto lleva a la pregunta: "Si un león pudiera hablar, ¿podríamos entenderlo?"
    • El mundo que nos rodea es una experiencia compartida por humanos, ballenas y otros animales; considerando eso, sí existe algún terreno compartido entre ballenas y humanos.
    • La clave es si existe un "espacio de representación compartido entre lenguajes". Si existe, entonces se podría aprender por separado la estructura de cada lenguaje y el mapeo de traducción. Lo segundo, que algunos llaman un "inversor universal de embeddings", podría ser más fácil de aprender; si la estructura es lo bastante distintiva, podría mapearse a un espacio de representación común y aprovecharse. Si fuera posible traducir sin contexto —por ahora suena más a una conjetura esperanzada—, valdría la pena investigarlo sin prejuicios.
    • Si enseñáramos a gorilas o elefantes (ambos muy inteligentes) a nombrar cosas y usar símbolos, ellos también podrían transmitir experiencia y sabiduría entre generaciones y manifestar silenciosamente una inteligencia comparable a la nuestra. Por cierto, me interesa el proyecto de delfines de Google Gemma, pero como los humanos somos animales terrestres, preferiría que se investigara con elefantes antes que con delfines, para poder obtener retroalimentación de investigación inmediata en tierra y concentrarse más en la investigación básica.
  • Este enfoque solo funciona cuando la distribución de características y las relaciones semánticas de cada fuente son lo bastante similares. En juegos MB (como Mussolini vs Bread y otros juegos de inferencia comparativa), si la otra persona elige a alguien que yo no conozco, falla. Puede que ni siquiera detecte la referencia, o que mida distinto la distancia semántica. Para que funcione bien, los expertos deben jugar entre expertos y la gente común entre gente común. El desciframiento de documentos antiguos enfrenta un problema similar: si una civilización antigua se enfocaba en conceptos totalmente distintos a los actuales, entenderla con embeddings semánticos modernos se vuelve casi imposible.
    • Cuando juego MB con mis amigos, si se trata de personas, nunca he logrado acertar correctamente hasta el final.
  • En el ejemplo del juego Mussolini vs Bread, la inferencia de que "esto definitivamente es una persona" no se sostiene lógicamente. Incluso entre animales podría haber más respuestas de ese tipo.
    • El chiste es que David Beckham no se siente tanto como una persona, sino más bien como un tipo de humor donde ni comparado con la encarnación del mal parece del todo humano.
    • La lógica es floja, pero justo lo importante es que, aun con explicaciones insuficientes como esa, la gente suele inferir bien la respuesta. Eso sugiere que existe un espacio semántico difuso compartido entre los humanos.
    • Yo pienso lo mismo que el autor. Mi palabra sería algo como "pistola" o "artillería", y eso también podría atravesar agujeros lógicos. Además, este tipo de ejemplos sugiere por qué la búsqueda puramente por embeddings no puede resolver por sí sola el problema de RAG (retrieval-augmented generation).
    • Perdón por el pequeño error lógico.
    • También podría salir una respuesta rara como Oswald Mosley.
  • No estoy de acuerdo con la afirmación de que "este juego funciona porque las cosas del mundo solo se relacionan de una única manera". Existen muchas relaciones distintas, y esas relaciones también provienen de la realidad en la que vivimos. Parece que la palabra "manera" se usa con varios sentidos, y la cita está redactada de forma ambigua, lo que genera confusión.
  • Sí estoy de acuerdo en que los LLM convergen, como producto colectivo de la humanidad, hacia una representación actual de la realidad. Ahora solo falta darles entrada sensorial en tiempo real, hormonas virtuales con distintas vidas medias basadas en diálogo y consumo de energía, un bucle de pensamiento permanente e incluso psilocibina artificial para inducir conexiones neuronales creativas. Si existe una teoría del stoned ape para la humanidad, hace falta una teoría del stoned AI para la IA.
    • ¿Y si convertimos a la IA en una atracción para visitantes en un parque temático y le damos a Anthony Hopkins permisos para administrar el código fuente? ¿Qué podría salir mal?
    • Ya me aburre leer textos sobre IA, pero si apareciera una noticia titulada "le dimos hongos a la IA", le daría clic de inmediato.
  • Al leer que "cuando Ilya dio una presentación sobre inteligencia-compresión no pude entender nada", pensé en si Marcus Hutter habrá quedado en el olvido. Si es así, creo que también vale mucho la pena volver a mirar el Hutter Prize.
  • Le pregunté a Grok, o3-pro y Claude sobre el efecto piezoeléctrico, y los tres dieron respuestas correctas, pero solo Claude señaló incluso efectos de segundo orden que aparecen en casos de uso reales. Los tres modelos quizá exploran el mismo espacio, pero Claude ofreció una perspectiva un nivel más profunda.
    • Una duda que me queda: me gustaría saber si era Grok 3 o 4.
  • Se puede hablar del Tao, pero ese Tao no es el Tao eterno. Si me preguntas qué es el Tao, yo diría que es la "voluntad". La voluntad puede expresarse también en lenguaje humano; una misma voluntad puede expresarse en chino, japonés o inglés, y los idiomas no son más que representaciones distintas. Los modelos de lenguaje grandes también aprenden la voluntad a través de tokens de palabras, y cuando llegan a expresarla, realizan el Tao. En ese sentido, estoy de acuerdo con la afirmación de que "todos los modelos de IA podrían ser esencialmente iguales".