- El deep learning puede entenderse como una secuencia de transformaciones topológicas que convierten los datos de una manera significativa
- Las redes neuronales transforman los datos en espacios de alta dimensión y funcionan como generadores de topología que hacen separables datos que originalmente no podían distinguirse
- Los datos existen sobre variedades de alta dimensión (manifolds), y la red neuronal aprende la estructura de esas variedades para tareas significativas de clasificación, traducción e inferencia
- En la investigación más reciente de IA, se han introducido diversas técnicas de aprendizaje supervisado y aprendizaje por refuerzo (como RLHF) para moverse hacia mejores puntos sobre la variedad del razonamiento
- La propia red neuronal, las imágenes, el texto y la lógica de razonamiento pueden representarse como variedades, y la red neuronal actúa como un descubridor universal de topología
Relación entre deep learning y topología
- La topología es una rama de las matemáticas que estudia las propiedades que no cambian durante el proceso de transformación de los objetos
- Las redes neuronales de deep learning aplican repetidamente transformaciones lineales y no lineales a los datos de entrada en múltiples dimensiones (p. ej., multiplicación de matrices, tanh), cambiando gradualmente la distribución y la estructura de los datos
- Cada operación de una capa de la red neuronal puede interpretarse como una transformación geométrica, y a medida que estas transformaciones se acumulan, permiten separar y clasificar estructuras de datos complejas
- Esta característica hace posible distinguir clases complejas que originalmente no podían separarse con una sola línea o plano en diversos conjuntos de datos
Expansión de dimensión y separación de datos
- Incluso datos que se superponen y no pueden distinguirse en un plano bidimensional pueden separarse fácilmente al trasladarlos a una dimensión superior (alta dimensión)
- A diferencia de los humanos, las redes neuronales pueden operar en dimensiones arbitrariamente altas, lo que les permite responder a patrones de datos muy complejos
- Por ejemplo, un problema de clasificación como perros y gatos en fotografías puede reconstruirse en alta dimensión como una estructura (variedad) matemáticamente separable
Significado y función de las redes neuronales profundas
- La red neuronal es una "herramienta que genera topología" y reorganiza los datos de entrada en una estructura significativa
- La función de pérdida (loss function) define qué propiedades de los datos se aprenderán, haciendo que se forme una superficie (topology) adecuada para distintas tareas como clasificación, traducción y predicción
- Todos los datos con significado (texto, imágenes, sonido, etc.) se almacenan como vectores numéricos de alta dimensión (embedding vectors), lo que permite operaciones matemáticas flexibles dentro de ese espacio
La variedad (manifold) y la representación del significado
- Colores, imágenes, palabras e incluso clasificaciones de muebles: toda la información y los conceptos existen sobre un espacio específico llamado variedad de alta dimensión
- Por ejemplo, todos los valores de píxeles de una imagen RGB se representan como un enorme vector, lo que permite analizar transformaciones significativas y similitudes sobre la variedad de imágenes
- Mediante operaciones de embedding, es posible ubicar conceptos semánticamente relacionados en posiciones cercanas (ej.: "king" - "man" + "woman" = "queen")
Redes neuronales, razonamiento y enfoque basado en variedades para estrategias de aprendizaje
- El razonamiento humano en sí mismo también puede modelarse como clústeres sobre una variedad de alta dimensión, y la red neuronal se mueve gradualmente a lo largo de ella hacia un razonamiento mejor
- La limitación actual de los modelos grandes de lenguaje (LLM) es que con pura estadística del lenguaje (next-token prediction) no pueden alcanzar un razonamiento a nivel humano
- Para superar esto, se están usando varios enfoques basados en aprendizaje por refuerzo, como aprendizaje supervisado, RLHF, Chain-of-Thought y la recolección de reasoning traces de alta calidad
- En trabajos como Deepseek R1, orientados a modelos de razonamiento robustos, se intenta superar las limitaciones y el costo de la evaluación humana seleccionando automáticamente el "buen razonamiento" con criterios objetivos (p. ej., unit tests o si una respuesta correcta resuelve un problema matemático)
Uso de la estructura de variedad en las redes neuronales y en el propio modelo
- Todos los parámetros (pesos) de una red neuronal también pueden representarse como un enorme vector, y esto puede interpretarse como una variedad dentro de distintos espacios semánticos
- El concepto de modelos de diffusion para generación de imágenes puede extenderse también al espacio de parámetros de redes neuronales, con el fin de reutilizar eficientemente diversas características de modelos pretrained, o de impulsar inicializaciones rápidas y la creación de nuevos modelos
- El avance de las técnicas para explorar el espacio de embeddings de los modelos podría hacer posible un desarrollo de IA más rápido y más efectivo en el futuro
Conclusión e implicaciones
- El campo del deep learning sigue siendo en gran medida informal y dependiente de la intuición, pero el pensamiento topológico ayuda mucho a comprender cómo funcionan estos modelos complejos
- A medida que se amplíe la comprensión de los espacios de embeddings y de las estructuras de variedades, será posible un desarrollo y análisis de IA más prácticos y sistemáticos
1 comentarios
Opiniones de Hacker News
Sobre este artículo, escrito a partir de una entrada de mi blog de 2014, intenté con mucho empeño usar topología como herramienta para entender las redes neuronales. Compartí los resultados en estas dos publicaciones de seguimiento
Aunque hubo partes del proceso de entender el interior de las redes neuronales donde la perspectiva topológica fue útil, después de casi 10 años de exploración siento que el enfoque topológico no terminó ayudando tanto
Lo que sí me resultó más útil fue aprender lo siguiente
Como lecturas relacionadas, recomiendo estos textos
En relación con cómo entendemos las redes neuronales, a menudo pienso en malentendidos como estos
A menudo se ve esa reacción en respuestas populares al post de Karpathy sobre RNN o en el matiz del paper de “stochastic parrot”, donde se equipara a los LLM con modelos n-gram. Antes esas dos aproximaciones se percibían como algo más parecidas, pero después de que los modelos recientes avanzaran tanto, esa equivalencia ya no encaja bien
Recuerdo mi experiencia intentando aplicar topología en situaciones reales. Desde que aprendí topología por primera vez en 2011 lo he intentado de forma intermitente hasta hoy, pero soy escéptico con respecto a la afirmación común de que “los datos reales se aproximan a variedades suaves y de baja dimensión”. Me gustaría explorar más a fondo si esa propiedad realmente se cumple en datos reales, o si es un resultado de la distorsión intencional que introducimos al usar métodos de reducción de dimensionalidad por eficiencia, pero me da pena no tener tiempo para hacerlo
Me ha parecido interesante seguir durante mucho tiempo tus textos sobre “circuitos”. La hipótesis de representación lineal me parece particularmente convincente, tanto que incluso escribí un borrador de reseña sobre Toy Models of Superposition. Aun así, el análisis de “circuitos” me atrae menos porque siento que está demasiado centrado en la arquitectura Transformer.
Modelos como GAN, VAE y CLIP sí parecen modelar variedades de forma explícita. Incluso si modelos simples pueden, durante la optimización, agrupar rasgos similares en la misma dirección, a veces existe el fenómeno empírico de que rasgos parecidos terminan ubicados en direcciones ortogonales. Eso probablemente tenga más relación con la función de pérdida que se optimiza
En Toy Models of Superposition se usa MSE, así que se comporta como una tarea de regresión o compresión con autoencoder. Suele importar el patrón de interferencia mutua entre rasgos que coocurren. Pero si el objetivo fuera una función de pérdida contrastiva, creo que ese comportamiento de minimización de interferencia sería distinto
Quiero compartir que hubo discusiones en Hacker News sobre mi artículo anterior
Neural Networks, Manifolds, and Topology (2014)
En física es interesante que pueden existir simetrías globales distintas y, aun así, mantenerse la misma estructura métrica (geometría local) en variedades topológicas diferentes. Por ejemplo, en las ecuaciones de campo de Einstein, una misma solución del tensor métrico puede existir en variedades topológicamente distintas.
En cambio, si uno mira soluciones del Ising Model, pueden existir múltiples soluciones incluso con la misma estructura topológica de red, y cerca del punto crítico esa estructura topológica de la red quizá ni siquiera sea importante en la práctica.
Es solo una analogía simple, pero sugiere que los detalles importantes de la dinámica no están incrustados en la topología del sistema. La historia es mucho más compleja
Si la topología de verdad fuera lo central, no intentaríamos aplanar las variedades para facilitar la búsqueda de similitudes. En realidad, lo central es la “geometría” y la medida adecuada para ella. También en la vida real queremos una estructura que nos permita comparar cosas
Durante el entrenamiento de redes neuronales, las variedades también se deforman topológicamente. Eso lleva a la pregunta: “¿cómo cambia la topología durante el entrenamiento?”. Personalmente imagino que al principio la topología oscila con violencia, luego se estabiliza poco a poco, y después viene un ajuste fino geométrico. Algunos papers que vale la pena consultar son
Si has usado GAN o VAE, puedes observar directamente ese proceso de cambio topológico. En distintos checkpoints del entrenamiento puedes usar herramientas como UMAP o TSNE para ver cómo se mueven los puntos del espacio de alta dimensión
Esa secuencia que imaginaste —cambios violentos al inicio, luego estabilización y después ajuste geométrico fino— sí ocurre en la práctica. En esa etapa inicial de cambios violentos también influyen mucho la tasa de aprendizaje, la elección del optimizador y otros factores
Si nos ponemos estrictos, lo que se trata aquí podría llamarse álgebra lineal aplicada, pero dicho así pierde un poco el encanto
El título ahora mismo es trillado e impreciso. Aun así, el contenido me pareció interesante
La topología es la rama de las matemáticas que trata con la estructura mínima que queda cuando eliminas restricciones geométricas como distancia, ángulo y dirección. La perspectiva topológica mira solo las relaciones esenciales que permanecen incluso bajo deformaciones drásticas
Los conceptos topológicos pueden ser útiles en machine learning, pero en la práctica la información geométrica como escala, distancia y ángulo pesa mucho más en la esencia de los datos. Por ejemplo, ignorar la escala al distinguir entre un gato y un tigre da resultados absurdos
El enfoque topológico recién empieza a ser útil cuando hay mucha información poco confiable, así que decir que el deep learning se basa en topología es exagerado
Como dijiste, la topología es útil cuando no se puede confiar en distancias, ángulos, longitudes, etc., pero en realidad sí trabajamos con datos poco confiables. Que una lata de Coca-Cola y una señal de alto queden relativamente cerca en el espacio de píxeles de imagen no significa nada. Las redes neuronales sí realizan esas “deformaciones drásticas” que mencionas
Cuando uno baja al nivel de implementación real, detalles que “si de verdad fuera topología no deberían importar”, como el número de capas, la cuantización o la resolución de coma flotante, sí cumplen un papel importante
El término “topología” tiene dos definiciones en el diccionario. Ver el concepto de topología solo a partir de las propiedades que tú das por sentadas es una postura limitada a algunas definiciones
No entiendo bien por qué llamar “topología” a la idea de encontrar superficies de separación en este artículo.
Por ejemplo, se dice que “si aprende traducción, el modelo aprende una topology que coloca cerca bread y pan, o una foto de gato y la palabra cat”, pero justo hablar de “cerca” o “lejos” es algo bastante alejado de la topología
En un espacio topológico, que dos puntos estén cerca no significa mucho, porque si estiras el espacio puedes separarlos arbitrariamente y seguir teniendo “el mismo espacio topológico” (esa es la idea detrás del chiste de que “una taza de café y una dona tienen la misma topología”)
En realidad, parecería más apropiado un enfoque de geometría algebraica —la estructura en que los puntos se ubican cerca de cierta variedad algebraica—. Al final, lo importante es la geometría y la distancia
Si hubiera que dar una definición laxa de topología, yo diría que es el estudio de espacios matemáticos donde puede hablarse de “cerca” y “lejos” en el sentido de vecindad, incluso sin una distancia. Elegir una topología equivale a elegir una definición de conjuntos abiertos, y eso determina propiedades como continuidad, compacidad y conexidad.
Los espacios métricos son un caso de espacio topológico.
Claro, eso no significa que la topología sea siempre la mejor perspectiva para entender redes neuronales. El autor original también ha cambiado de postura ahora
Solo quería aclarar el malentendido. Consulta https://en.wikipedia.org/wiki/General_topology
Estoy 100% de acuerdo en que esto no tiene nada que ver con topology. Si un texto va a tratar sobre topology y deep learning, ojalá la confusión se limite solo al lado de topology
Usé la palabra “topology” hace un momento de manera un poco idiomática. Más precisamente, debí decir “superficie”
Creo que ver el aprendizaje desde la perspectiva de las variedades es una forma poderosa de expresarlo
En espacios de alta dimensión, muchas veces siento que el reasoning en sí es prácticamente indistinguible de eso
He escrito bastante sobre estas “probabilistic reasoning manifolds” en diarios personales y comentarios de noticias.
La idea es que una variedad compuesta por espacios de patrones se forma esencialmente por aprendizaje probabilístico, y que el reasoning real ocurre de manera probabilística, no proposicional. Uno puede identificar algunos “axiomas” encontrando puntos fijos o atractores, pero al final lo que se analiza es una variedad probabilística formada a partir de los datos de entrada
El razonamiento y los datos están entrelazados, así que no se pueden separar por completo
Aprender (descomponer) relaciones descontextualizadas —eso es precisamente la “decontextualización”—. Pero para que además haya análisis significativo en nuevas situaciones o dominios, necesariamente debe venir después la “recontextualización”.
Para una explicación más larga, ver https://news.ycombinator.com/item?id=42871894
Si los animales no pudieran manejar en absoluto afirmaciones proposicionales de forma no probabilística, entonces el razonamiento lógico sería simplemente imposible, y eso no explicaría la capacidad de razonamiento observada en animales reales
Ejemplo: una estructura lógica simple como “si la araña está en la caja A, entonces no está en la otra caja”
Los datos reales no viven de verdad sobre una variedad. Es solo una aproximación que usamos para facilitar la forma de pensar sobre los datos
Casi todos los logros útiles del deep learning se construyeron sin relación con topology. El deep learning es un campo empírico que avanzó rápido gracias a experimentación, prueba y error, y una pequeña dosis de inspiración matemática, que además no era topology
Estoy totalmente en desacuerdo con esa afirmación. Claro que hay mucha prueba y error, pero también es la acción combinada de muchas teorías matemáticas como topology, geometry, game theory, calculus y statistics. La retropropagación por sí sola ya es la chain rule
El campo se volvió tan popular y rentable que muchos practicantes pueden usarlo fácilmente sin conocer sus raíces teóricas
Al final, al inventar teoría y técnicas nuevas, muchas veces en realidad se “redescubren” y reutilizan de forma inconsciente teorías ya existentes de otros campos
Sobre la idea de que “toda esta inspiración originalmente no era topology”, yo diría que esa “intuición matemática” casi siempre se aplica a posteriori. Después de encontrar un avance en deep learning, investigadores de física o matemáticas reconocen más tarde semejanzas con métodos de su propio campo
Por ejemplo, hay un texto que dice que GPT es casi igual al algoritmo que yo usaba antes para resolver problemas de física
https://ondrejcertik.com/blog/2023/…
Llevo más de 10 años en el campo del deep learning, y la afirmación de que “los datos no viven en variedades” es incorrecta. Que llamemos “space” al espacio de embeddings no es casualidad. GAN, VAE, contrastive loss y otros sí construyen estructuras de variedad vectorial por las que realmente se puede navegar o que se pueden manipular
Si permitimos una definición que incluya error de aproximación, entonces sí puede decirse que los datos reales se ubican sobre una variedad. Paper de referencia: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)
Creo que el deep learning, en esta etapa, se parece a la alquimia
Como la alquimia antes de que apareciera la química con un fundamento teórico sólido. A veces pienso que en el futuro la humanidad podría dejar solo la expresión “deep learning” como un vestigio de un lenguaje pasado
Ver la frase “a este punto ya llegamos a AGI” me hizo perder bastante confianza
En general las ideas del texto me parecieron interesantes, pero me faltó más profundidad técnica en la parte que lo conecta con reasoning, y el tono se sintió algo fluffy. Ya existe trabajo bastante más concreto sobre esto (i.g. https://arxiv.org/abs/1402.1869)
Otro tipo de topology del que se habla mucho en DNN es justamente la topology de red: la estructura de cómo se conectan los nodos y cómo fluye la información
Autoencoders, CNN, GAN, etc., todos recibieron inspiración biológica
Todavía nos queda mucho por aprender de la topology del cerebro y su conectividad funcional
Es muy probable que en el futuro aparezcan arquitecturas completamente nuevas, ya sea en la estructura interna de capas o nodos individuales, o en la forma de conexión e interacción entre redes especializadas
El cerebro humano tampoco es realmente una sola red, sino que opera como varias redes —como las “Big 7”— en paralelo e interconectadas. Existen redes como la DMN (Default Mode Network), la CEN (Central Executive Network), la Limbic Network y muchas más, y a menudo una neurona puede pertenecer simultáneamente a varias redes
Como todavía no hemos reproducido del todo esta complejidad en inteligencia artificial, hay muchísimo de donde inspirarse en network topologies
Estoy de acuerdo con la frase “Topology is all you need”
La topología matemática trata con objetos geométricos y transformaciones, pero en computación también importa el concepto de “topología” que define relaciones entre objetos abstractos
Por ejemplo, en la estructura de datos grafo se almacena un conjunto de objetos (vértices) y un conjunto de relaciones entre ellos (aristas), y con eso el propio grafo se vuelve una estructura topológica discreta
La estructura de datos de red es parecida, pero cada arista además almacena un valor. Es decir, puede tener un conjunto de vértices (objetos), relaciones entre ellos (aristas) y además un valor por arista (peso). Al final, una red neuronal artificial también puede entenderse en esa dirección, como una estructura construida sobre una topología discreta
Me confunde la parte del diagrama del autor donde AGI/ASI aparece dibujado como un punto en la misma variedad que next token prediction, chat y los modelos CoT. Es claro que esos tres últimos tipos pertenecen a una misma familia conectada, pero no veo base suficiente para incluir también a AGI/ASI
Me pregunto qué pasa si un modelo basado en CoT, por mucha manipulación topológica que haga, estructuralmente nunca puede alcanzar la “inteligencia” de AGI
Por ejemplo, si la inteligencia humana requiere de manera esencial capacidades altamente sensoriales, retroalimentación interna y procesamiento continuo, entonces los modelos autoregresivos tipo GPT son, por naturaleza, discretos
Desde la intuición de alguien no experto, los LLM se sienten mucho más cercanos a una clase de sistema completamente distinta de la que produciría “inteligencia” o “conciencia”
En realidad, yo sí creo que ya llegamos a AGI, aunque mucha gente no esté de acuerdo
Mencionaste que la esencia de la inteligencia humana podría estar en bucles sensoriales o de retroalimentación altamente desarrollados y en procesamiento continuo, pero por mi experiencia bastante amplia en connectomics, tampoco se puede ignorar la similitud entre sistemas biológicos y redes neuronales
Por ejemplo, en el sistema olfativo de los ratones, cuando cierto conjunto de neuronas se activa, se detecta un olor específico (“chocolate”, “limón”, etc.). Eso se parece bastante a un feature vector
Las representaciones neuronales del cerebro también tienen similitudes con las representaciones de embedding. Es como si el espacio de embeddings se formara según qué neuronas se encienden
Y lo que ocurre sobre los embeddings no es “algo más”, sino puro procesamiento adicional