7 puntos por GN⁺ 2025-05-21 | 1 comentarios | Compartir por WhatsApp
  • El deep learning puede entenderse como una secuencia de transformaciones topológicas que convierten los datos de una manera significativa
  • Las redes neuronales transforman los datos en espacios de alta dimensión y funcionan como generadores de topología que hacen separables datos que originalmente no podían distinguirse
  • Los datos existen sobre variedades de alta dimensión (manifolds), y la red neuronal aprende la estructura de esas variedades para tareas significativas de clasificación, traducción e inferencia
  • En la investigación más reciente de IA, se han introducido diversas técnicas de aprendizaje supervisado y aprendizaje por refuerzo (como RLHF) para moverse hacia mejores puntos sobre la variedad del razonamiento
  • La propia red neuronal, las imágenes, el texto y la lógica de razonamiento pueden representarse como variedades, y la red neuronal actúa como un descubridor universal de topología

Relación entre deep learning y topología

  • La topología es una rama de las matemáticas que estudia las propiedades que no cambian durante el proceso de transformación de los objetos
  • Las redes neuronales de deep learning aplican repetidamente transformaciones lineales y no lineales a los datos de entrada en múltiples dimensiones (p. ej., multiplicación de matrices, tanh), cambiando gradualmente la distribución y la estructura de los datos
  • Cada operación de una capa de la red neuronal puede interpretarse como una transformación geométrica, y a medida que estas transformaciones se acumulan, permiten separar y clasificar estructuras de datos complejas
  • Esta característica hace posible distinguir clases complejas que originalmente no podían separarse con una sola línea o plano en diversos conjuntos de datos

Expansión de dimensión y separación de datos

  • Incluso datos que se superponen y no pueden distinguirse en un plano bidimensional pueden separarse fácilmente al trasladarlos a una dimensión superior (alta dimensión)
  • A diferencia de los humanos, las redes neuronales pueden operar en dimensiones arbitrariamente altas, lo que les permite responder a patrones de datos muy complejos
  • Por ejemplo, un problema de clasificación como perros y gatos en fotografías puede reconstruirse en alta dimensión como una estructura (variedad) matemáticamente separable

Significado y función de las redes neuronales profundas

  • La red neuronal es una "herramienta que genera topología" y reorganiza los datos de entrada en una estructura significativa
  • La función de pérdida (loss function) define qué propiedades de los datos se aprenderán, haciendo que se forme una superficie (topology) adecuada para distintas tareas como clasificación, traducción y predicción
  • Todos los datos con significado (texto, imágenes, sonido, etc.) se almacenan como vectores numéricos de alta dimensión (embedding vectors), lo que permite operaciones matemáticas flexibles dentro de ese espacio

La variedad (manifold) y la representación del significado

  • Colores, imágenes, palabras e incluso clasificaciones de muebles: toda la información y los conceptos existen sobre un espacio específico llamado variedad de alta dimensión
  • Por ejemplo, todos los valores de píxeles de una imagen RGB se representan como un enorme vector, lo que permite analizar transformaciones significativas y similitudes sobre la variedad de imágenes
  • Mediante operaciones de embedding, es posible ubicar conceptos semánticamente relacionados en posiciones cercanas (ej.: "king" - "man" + "woman" = "queen")

Redes neuronales, razonamiento y enfoque basado en variedades para estrategias de aprendizaje

  • El razonamiento humano en sí mismo también puede modelarse como clústeres sobre una variedad de alta dimensión, y la red neuronal se mueve gradualmente a lo largo de ella hacia un razonamiento mejor
  • La limitación actual de los modelos grandes de lenguaje (LLM) es que con pura estadística del lenguaje (next-token prediction) no pueden alcanzar un razonamiento a nivel humano
  • Para superar esto, se están usando varios enfoques basados en aprendizaje por refuerzo, como aprendizaje supervisado, RLHF, Chain-of-Thought y la recolección de reasoning traces de alta calidad
  • En trabajos como Deepseek R1, orientados a modelos de razonamiento robustos, se intenta superar las limitaciones y el costo de la evaluación humana seleccionando automáticamente el "buen razonamiento" con criterios objetivos (p. ej., unit tests o si una respuesta correcta resuelve un problema matemático)

Uso de la estructura de variedad en las redes neuronales y en el propio modelo

  • Todos los parámetros (pesos) de una red neuronal también pueden representarse como un enorme vector, y esto puede interpretarse como una variedad dentro de distintos espacios semánticos
  • El concepto de modelos de diffusion para generación de imágenes puede extenderse también al espacio de parámetros de redes neuronales, con el fin de reutilizar eficientemente diversas características de modelos pretrained, o de impulsar inicializaciones rápidas y la creación de nuevos modelos
  • El avance de las técnicas para explorar el espacio de embeddings de los modelos podría hacer posible un desarrollo de IA más rápido y más efectivo en el futuro

Conclusión e implicaciones

  • El campo del deep learning sigue siendo en gran medida informal y dependiente de la intuición, pero el pensamiento topológico ayuda mucho a comprender cómo funcionan estos modelos complejos
  • A medida que se amplíe la comprensión de los espacios de embeddings y de las estructuras de variedades, será posible un desarrollo y análisis de IA más prácticos y sistemáticos

1 comentarios

 
GN⁺ 2025-05-21
Opiniones de Hacker News
  • Sobre este artículo, escrito a partir de una entrada de mi blog de 2014, intenté con mucho empeño usar topología como herramienta para entender las redes neuronales. Compartí los resultados en estas dos publicaciones de seguimiento

    • la “hipótesis de representación lineal”: la idea de que los conceptos (rasgos) en una red neuronal corresponden a direcciones específicas
    • el concepto de “circuitos”: la estructura de red que se forma cuando esos rasgos se conectan entre sí
      Como lecturas relacionadas, recomiendo estos textos
    • En relación con cómo entendemos las redes neuronales, a menudo pienso en malentendidos como estos

      • la afirmación de que los LLM son poco más que una versión apenas mejor de los modelos n-gram existentes
      • cómo la frase “solo predicen el siguiente token” da la impresión de que el modelo es simple
        A menudo se ve esa reacción en respuestas populares al post de Karpathy sobre RNN o en el matiz del paper de “stochastic parrot”, donde se equipara a los LLM con modelos n-gram. Antes esas dos aproximaciones se percibían como algo más parecidas, pero después de que los modelos recientes avanzaran tanto, esa equivalencia ya no encaja bien
    • Recuerdo mi experiencia intentando aplicar topología en situaciones reales. Desde que aprendí topología por primera vez en 2011 lo he intentado de forma intermitente hasta hoy, pero soy escéptico con respecto a la afirmación común de que “los datos reales se aproximan a variedades suaves y de baja dimensión”. Me gustaría explorar más a fondo si esa propiedad realmente se cumple en datos reales, o si es un resultado de la distorsión intencional que introducimos al usar métodos de reducción de dimensionalidad por eficiencia, pero me da pena no tener tiempo para hacerlo

    • Me ha parecido interesante seguir durante mucho tiempo tus textos sobre “circuitos”. La hipótesis de representación lineal me parece particularmente convincente, tanto que incluso escribí un borrador de reseña sobre Toy Models of Superposition. Aun así, el análisis de “circuitos” me atrae menos porque siento que está demasiado centrado en la arquitectura Transformer.
      Modelos como GAN, VAE y CLIP sí parecen modelar variedades de forma explícita. Incluso si modelos simples pueden, durante la optimización, agrupar rasgos similares en la misma dirección, a veces existe el fenómeno empírico de que rasgos parecidos terminan ubicados en direcciones ortogonales. Eso probablemente tenga más relación con la función de pérdida que se optimiza
      En Toy Models of Superposition se usa MSE, así que se comporta como una tarea de regresión o compresión con autoencoder. Suele importar el patrón de interferencia mutua entre rasgos que coocurren. Pero si el objetivo fuera una función de pérdida contrastiva, creo que ese comportamiento de minimización de interferencia sería distinto

    • Quiero compartir que hubo discusiones en Hacker News sobre mi artículo anterior
      Neural Networks, Manifolds, and Topology (2014)

    • En física es interesante que pueden existir simetrías globales distintas y, aun así, mantenerse la misma estructura métrica (geometría local) en variedades topológicas diferentes. Por ejemplo, en las ecuaciones de campo de Einstein, una misma solución del tensor métrico puede existir en variedades topológicamente distintas.
      En cambio, si uno mira soluciones del Ising Model, pueden existir múltiples soluciones incluso con la misma estructura topológica de red, y cerca del punto crítico esa estructura topológica de la red quizá ni siquiera sea importante en la práctica.
      Es solo una analogía simple, pero sugiere que los detalles importantes de la dinámica no están incrustados en la topología del sistema. La historia es mucho más compleja

  • Si la topología de verdad fuera lo central, no intentaríamos aplanar las variedades para facilitar la búsqueda de similitudes. En realidad, lo central es la “geometría” y la medida adecuada para ella. También en la vida real queremos una estructura que nos permita comparar cosas
    Durante el entrenamiento de redes neuronales, las variedades también se deforman topológicamente. Eso lleva a la pregunta: “¿cómo cambia la topología durante el entrenamiento?”. Personalmente imagino que al principio la topología oscila con violencia, luego se estabiliza poco a poco, y después viene un ajuste fino geométrico. Algunos papers que vale la pena consultar son

    • Si has usado GAN o VAE, puedes observar directamente ese proceso de cambio topológico. En distintos checkpoints del entrenamiento puedes usar herramientas como UMAP o TSNE para ver cómo se mueven los puntos del espacio de alta dimensión
      Esa secuencia que imaginaste —cambios violentos al inicio, luego estabilización y después ajuste geométrico fino— sí ocurre en la práctica. En esa etapa inicial de cambios violentos también influyen mucho la tasa de aprendizaje, la elección del optimizador y otros factores

    • Si nos ponemos estrictos, lo que se trata aquí podría llamarse álgebra lineal aplicada, pero dicho así pierde un poco el encanto

  • El título ahora mismo es trillado e impreciso. Aun así, el contenido me pareció interesante
    La topología es la rama de las matemáticas que trata con la estructura mínima que queda cuando eliminas restricciones geométricas como distancia, ángulo y dirección. La perspectiva topológica mira solo las relaciones esenciales que permanecen incluso bajo deformaciones drásticas
    Los conceptos topológicos pueden ser útiles en machine learning, pero en la práctica la información geométrica como escala, distancia y ángulo pesa mucho más en la esencia de los datos. Por ejemplo, ignorar la escala al distinguir entre un gato y un tigre da resultados absurdos
    El enfoque topológico recién empieza a ser útil cuando hay mucha información poco confiable, así que decir que el deep learning se basa en topología es exagerado

    • Como dijiste, la topología es útil cuando no se puede confiar en distancias, ángulos, longitudes, etc., pero en realidad sí trabajamos con datos poco confiables. Que una lata de Coca-Cola y una señal de alto queden relativamente cerca en el espacio de píxeles de imagen no significa nada. Las redes neuronales sí realizan esas “deformaciones drásticas” que mencionas

    • Cuando uno baja al nivel de implementación real, detalles que “si de verdad fuera topología no deberían importar”, como el número de capas, la cuantización o la resolución de coma flotante, sí cumplen un papel importante

    • El término “topología” tiene dos definiciones en el diccionario. Ver el concepto de topología solo a partir de las propiedades que tú das por sentadas es una postura limitada a algunas definiciones

  • No entiendo bien por qué llamar “topología” a la idea de encontrar superficies de separación en este artículo.
    Por ejemplo, se dice que “si aprende traducción, el modelo aprende una topology que coloca cerca bread y pan, o una foto de gato y la palabra cat”, pero justo hablar de “cerca” o “lejos” es algo bastante alejado de la topología
    En un espacio topológico, que dos puntos estén cerca no significa mucho, porque si estiras el espacio puedes separarlos arbitrariamente y seguir teniendo “el mismo espacio topológico” (esa es la idea detrás del chiste de que “una taza de café y una dona tienen la misma topología”)
    En realidad, parecería más apropiado un enfoque de geometría algebraica —la estructura en que los puntos se ubican cerca de cierta variedad algebraica—. Al final, lo importante es la geometría y la distancia

    • Si hubiera que dar una definición laxa de topología, yo diría que es el estudio de espacios matemáticos donde puede hablarse de “cerca” y “lejos” en el sentido de vecindad, incluso sin una distancia. Elegir una topología equivale a elegir una definición de conjuntos abiertos, y eso determina propiedades como continuidad, compacidad y conexidad.
      Los espacios métricos son un caso de espacio topológico.
      Claro, eso no significa que la topología sea siempre la mejor perspectiva para entender redes neuronales. El autor original también ha cambiado de postura ahora
      Solo quería aclarar el malentendido. Consulta https://en.wikipedia.org/wiki/General_topology

    • Estoy 100% de acuerdo en que esto no tiene nada que ver con topology. Si un texto va a tratar sobre topology y deep learning, ojalá la confusión se limite solo al lado de topology

    • Usé la palabra “topology” hace un momento de manera un poco idiomática. Más precisamente, debí decir “superficie”

  • Creo que ver el aprendizaje desde la perspectiva de las variedades es una forma poderosa de expresarlo
    En espacios de alta dimensión, muchas veces siento que el reasoning en sí es prácticamente indistinguible de eso
    He escrito bastante sobre estas “probabilistic reasoning manifolds” en diarios personales y comentarios de noticias.
    La idea es que una variedad compuesta por espacios de patrones se forma esencialmente por aprendizaje probabilístico, y que el reasoning real ocurre de manera probabilística, no proposicional. Uno puede identificar algunos “axiomas” encontrando puntos fijos o atractores, pero al final lo que se analiza es una variedad probabilística formada a partir de los datos de entrada
    El razonamiento y los datos están entrelazados, así que no se pueden separar por completo
    Aprender (descomponer) relaciones descontextualizadas —eso es precisamente la “decontextualización”—. Pero para que además haya análisis significativo en nuevas situaciones o dominios, necesariamente debe venir después la “recontextualización”.
    Para una explicación más larga, ver https://news.ycombinator.com/item?id=42871894

    • Si el concepto general de “pensamiento de razonamiento” es una manipulación mental de representaciones proposicionales, me cuesta entender la idea de que “el razonamiento verdadero se expresa no con probabilidades sino con axiomas”
      Si los animales no pudieran manejar en absoluto afirmaciones proposicionales de forma no probabilística, entonces el razonamiento lógico sería simplemente imposible, y eso no explicaría la capacidad de razonamiento observada en animales reales
      Ejemplo: una estructura lógica simple como “si la araña está en la caja A, entonces no está en la otra caja”
  • Los datos reales no viven de verdad sobre una variedad. Es solo una aproximación que usamos para facilitar la forma de pensar sobre los datos
    Casi todos los logros útiles del deep learning se construyeron sin relación con topology. El deep learning es un campo empírico que avanzó rápido gracias a experimentación, prueba y error, y una pequeña dosis de inspiración matemática, que además no era topology

    • Estoy totalmente en desacuerdo con esa afirmación. Claro que hay mucha prueba y error, pero también es la acción combinada de muchas teorías matemáticas como topology, geometry, game theory, calculus y statistics. La retropropagación por sí sola ya es la chain rule
      El campo se volvió tan popular y rentable que muchos practicantes pueden usarlo fácilmente sin conocer sus raíces teóricas
      Al final, al inventar teoría y técnicas nuevas, muchas veces en realidad se “redescubren” y reutilizan de forma inconsciente teorías ya existentes de otros campos

    • Sobre la idea de que “toda esta inspiración originalmente no era topology”, yo diría que esa “intuición matemática” casi siempre se aplica a posteriori. Después de encontrar un avance en deep learning, investigadores de física o matemáticas reconocen más tarde semejanzas con métodos de su propio campo
      Por ejemplo, hay un texto que dice que GPT es casi igual al algoritmo que yo usaba antes para resolver problemas de física
      https://ondrejcertik.com/blog/2023/…

    • Llevo más de 10 años en el campo del deep learning, y la afirmación de que “los datos no viven en variedades” es incorrecta. Que llamemos “space” al espacio de embeddings no es casualidad. GAN, VAE, contrastive loss y otros sí construyen estructuras de variedad vectorial por las que realmente se puede navegar o que se pueden manipular

    • Si permitimos una definición que incluya error de aproximación, entonces sí puede decirse que los datos reales se ubican sobre una variedad. Paper de referencia: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)

    • Creo que el deep learning, en esta etapa, se parece a la alquimia
      Como la alquimia antes de que apareciera la química con un fundamento teórico sólido. A veces pienso que en el futuro la humanidad podría dejar solo la expresión “deep learning” como un vestigio de un lenguaje pasado

  • Ver la frase “a este punto ya llegamos a AGI” me hizo perder bastante confianza
    En general las ideas del texto me parecieron interesantes, pero me faltó más profundidad técnica en la parte que lo conecta con reasoning, y el tono se sintió algo fluffy. Ya existe trabajo bastante más concreto sobre esto (i.g. https://arxiv.org/abs/1402.1869)

  • Otro tipo de topology del que se habla mucho en DNN es justamente la topology de red: la estructura de cómo se conectan los nodos y cómo fluye la información
    Autoencoders, CNN, GAN, etc., todos recibieron inspiración biológica
    Todavía nos queda mucho por aprender de la topology del cerebro y su conectividad funcional
    Es muy probable que en el futuro aparezcan arquitecturas completamente nuevas, ya sea en la estructura interna de capas o nodos individuales, o en la forma de conexión e interacción entre redes especializadas
    El cerebro humano tampoco es realmente una sola red, sino que opera como varias redes —como las “Big 7”— en paralelo e interconectadas. Existen redes como la DMN (Default Mode Network), la CEN (Central Executive Network), la Limbic Network y muchas más, y a menudo una neurona puede pertenecer simultáneamente a varias redes
    Como todavía no hemos reproducido del todo esta complejidad en inteligencia artificial, hay muchísimo de donde inspirarse en network topologies
    Estoy de acuerdo con la frase “Topology is all you need”

  • La topología matemática trata con objetos geométricos y transformaciones, pero en computación también importa el concepto de “topología” que define relaciones entre objetos abstractos
    Por ejemplo, en la estructura de datos grafo se almacena un conjunto de objetos (vértices) y un conjunto de relaciones entre ellos (aristas), y con eso el propio grafo se vuelve una estructura topológica discreta
    La estructura de datos de red es parecida, pero cada arista además almacena un valor. Es decir, puede tener un conjunto de vértices (objetos), relaciones entre ellos (aristas) y además un valor por arista (peso). Al final, una red neuronal artificial también puede entenderse en esa dirección, como una estructura construida sobre una topología discreta

  • Me confunde la parte del diagrama del autor donde AGI/ASI aparece dibujado como un punto en la misma variedad que next token prediction, chat y los modelos CoT. Es claro que esos tres últimos tipos pertenecen a una misma familia conectada, pero no veo base suficiente para incluir también a AGI/ASI
    Me pregunto qué pasa si un modelo basado en CoT, por mucha manipulación topológica que haga, estructuralmente nunca puede alcanzar la “inteligencia” de AGI
    Por ejemplo, si la inteligencia humana requiere de manera esencial capacidades altamente sensoriales, retroalimentación interna y procesamiento continuo, entonces los modelos autoregresivos tipo GPT son, por naturaleza, discretos
    Desde la intuición de alguien no experto, los LLM se sienten mucho más cercanos a una clase de sistema completamente distinta de la que produciría “inteligencia” o “conciencia”

    • Puede ser. La propia definición de AGI/ASI es incierta
      En realidad, yo sí creo que ya llegamos a AGI, aunque mucha gente no esté de acuerdo
      Mencionaste que la esencia de la inteligencia humana podría estar en bucles sensoriales o de retroalimentación altamente desarrollados y en procesamiento continuo, pero por mi experiencia bastante amplia en connectomics, tampoco se puede ignorar la similitud entre sistemas biológicos y redes neuronales
      Por ejemplo, en el sistema olfativo de los ratones, cuando cierto conjunto de neuronas se activa, se detecta un olor específico (“chocolate”, “limón”, etc.). Eso se parece bastante a un feature vector
      Las representaciones neuronales del cerebro también tienen similitudes con las representaciones de embedding. Es como si el espacio de embeddings se formara según qué neuronas se encienden
      Y lo que ocurre sobre los embeddings no es “algo más”, sino puro procesamiento adicional