El deep learning es topología aplicada

(theahura.substack.com)

7 puntos por GN⁺ 2025-05-21 | 1 comentarios | Compartir por WhatsApp

El deep learning puede verse como un proceso que coloca los datos sobre un manifold en un espacio de alta dimensión y, mediante las transformaciones de las capas de la red neuronal, dobla o estira esa superficie para encontrar una estructura separable
Una capa como tanh(Wx+b) es una transformación continua que encadena una transformación matricial, un desplazamiento de vector y una función no lineal; al apilar varias capas, incluso conjuntos de datos complejos pueden convertirse en otra forma
Incluso datos circulares que no pueden separarse con una sola línea en baja dimensión pueden volverse separables al llevarlos a una dimensión más alta, y una red neuronal puede aprender ese espacio de representación
Los vectores de embedding representan texto, imágenes y conceptos como puntos en un espacio numérico, y en una superficie bien formada se vuelven posibles operaciones conceptuales como king - man + woman = queen
El entrenamiento actual de modelos de razonamiento puede interpretarse como un proceso de desplazamiento sobre un manifold de razonamiento mediante la selección de buenos reasoning traces, y el aprendizaje por refuerzo al estilo DeepSeek R1 se trata como una forma de reducir el costo de esa selección manual

Redes neuronales vistas desde la topología

La topología es la rama de las matemáticas que estudia las propiedades que se conservan bajo deformaciones como doblar, torcer o estirar una superficie, siempre que no se rompa ni se le hagan agujeros
Un círculo dibujado sobre una superficie de arcilla no se convierte de repente en una línea, ni en dos círculos, ni se cruza consigo mismo solo por girarlo o deformarlo
Un problema de clasificación de datos también puede verse de forma similar
- Aunque los datos en un plano 2D no puedan separarse limpiamente con una sola línea, al deformar adecuadamente la superficie puede aparecer una estructura separable
- La idea es que esta manipulación del espacio está en el núcleo del deep learning

Las capas de la red neuronal son transformaciones continuas que deforman superficies

La explicación que ve una red neuronal como una pila de álgebra lineal es, en general, correcta, y las matrices pueden interpretarse como operaciones que transforman superficies geométricas
El artículo de Chris Olah de 2014 también aborda los manifolds del deep learning de esta manera
La capa tanh(Wx+b) se compone de tres etapas
- una transformación lineal por W
- un desplazamiento por el vector b
- una distorsión no lineal producida por la aplicación puntual de tanh
Al apilar estas transformaciones en múltiples capas, incluso un conjunto de datos complejo puede transformarse en una forma separable
Aun así, hay casos topológicamente difíciles de separar con una sola línea, como los puntos dentro de un círculo y los puntos que lo rodean por fuera
- En ese caso, al pasar de 2 dimensiones a 3 dimensiones, los datos pueden separarse de manera limpia
- Una separación imposible en baja dimensión puede volverse fácil en una dimensión más alta

Embeddings y manifolds semánticos

Una red neuronal grande puede verse como un generador de topología (topology generator)
- toma datos de entrada y encuentra una superficie que satisface las propiedades exigidas por la función de pérdida
- en tareas de clasificación, aprende a colocar perros y gatos en regiones distintas del espacio
- en tareas de traducción, aprende a ubicar cerca elementos como bread y pan, o una foto de un gato y cat
- en predicción del siguiente token, aprende una superficie en la que los tokens se agrupan según su uso
Los datos están sobre manifolds de alta dimensión y relacionados semánticamente, y construir un manifold está estrechamente ligado a representar un conjunto de datos de forma semántica
El ejemplo de los colores muestra que esta estructura puede estar incorporada en los propios datos
- [128, 0, 0] representa rojo y [0, 0, 128] representa azul
- al sumar ambos vectores se puede obtener púrpura
- la dimensionalidad del color, la similitud entre colores y la forma de mezclarlos pueden verse como una estructura inherente a los datos
Las imágenes también pueden tratarse como puntos sobre un manifold
- una imagen se representa con valores de píxeles RGB de tamaño Height x Width x 3
- si se despliega como un solo vector, todas las imágenes de cierto tamaño pueden verse como puntos en un espacio de alta dimensión
- una región del espacio correspondiente a imágenes de Brad Pitt comiendo un sándwich y una imagen de la Mona Lisa pueden ser puntos distintos dentro del mismo espacio de imágenes
La mayor parte del espacio de imágenes es ruido, y agrupar solo por similitud de píxeles no resulta útil
- los modelos de deep learning pueden doblar y estirar la superficie de imágenes para acercar las imágenes relevantes y alejar el ruido
Dentro del modelo, la información como texto e imágenes se representa con listas de números llamadas vectores de embedding
- cada embedding está conectado a un concepto y al mismo tiempo es un punto en el espacio
- en una superficie bien formada se vuelven posibles operaciones matemáticas sobre conceptos como king - man + woman = queen

Ver el aprendizaje de razonamiento como movimiento sobre un manifold

Desde la perspectiva de que todo está situado sobre manifolds, el razonamiento también puede pensarse como un manifold
- puede imaginarse que el buen razonamiento se agrupa en una zona del espacio y el mal razonamiento en otra
- aunque no podamos definir bueno y malo como términos matemáticos rigurosos, si podemos distinguirlos, podemos entrenar una red neuronal
Puede interpretarse que grandes empresas de IA como Google, Anthropic, OAI y DeepSeek también se están moviendo en esta dirección
En la industria de la IA parece haber consenso en que ya se extrajo casi todo lo que podía obtenerse solo con estadísticas puras del lenguaje
- la mayoría de los LLM se entrenan con billones de tokens
- incluso aumentar a miles de billones de tokens podría no aportar una ganancia adicional grande
- la predicción del siguiente token se parece al razonamiento, pero por sí sola tiende más a mejorar esa predicción que a llegar al razonamiento en sí
El instruction tuning y RLHF pueden interpretarse como formas de moverse desde la región de predicción del siguiente token hacia la región de razonamiento de preguntas y respuestas
Chain of Thought es una forma de moverse de manera más explícita hacia la región de razonamiento del manifold de razonamiento
- en modelos como o3 o Gemini 2.5, el proceso visible como Thinking… se llama reasoning trace
- al ejecutar muchas consultas, se puede distinguir entre buenos y malos reasoning traces
- por ejemplo, si de 1 millón de consultas se obtienen 10 mil traces muy buenos, esos pueden usarse para entrenar un nuevo modelo que genere solo traces mejores
Si este proceso se repite, puede usarse el modelo anterior para bootstrapear el siguiente
- si existe una forma de decidir cuál de dos reasoning traces es mejor, se puede seguir avanzando sobre el manifold de razonamiento
- también puede verse como tomar 10 mil buenas muestras como si hubieran salido de un modelo hipotético más avanzado y hacer distill-train del modelo actual con ellas
Aparece la expresión de que este enfoque habría sido suficiente para alcanzar la AGI, aunque se añade una nota al pie indicando que afirmar que ya existe AGI es discutible
Se considera que no es suficiente para la ASI
- la capacidad de seleccionar el mejor razonamiento se vuelve el límite
- reunir buenos reasoning traces cuesta mucho dinero y tiempo
- incluso si muchas personas inteligentes se dedicaran a seleccionar todo el día, el resultado podría ser subjetivo y ruidoso

DeepSeek R1, aprendizaje por refuerzo y modelos que generan modelos

DeepSeek R1 y otros métodos de aprendizaje por refuerzo surgieron como una vía para no depender de que humanos elijan directamente el buen razonamiento
El enfoque de DeepSeek se centra en crear heurísticas cuantitativas sobre qué cuenta como buen razonamiento
- pueden crearse pruebas unitarias o problemas matemáticos que la IA deba resolver
- si el código pasa las pruebas o la solución matemática es correcta, entonces el reasoning trace que produjo esa salida puede considerarse mejor que uno que produjo una salida incorrecta
- no hace falta un análisis subjetivo del reasoning trace en sí
Se considera que se logró entrenar, solo con RL, un modelo que rinde bastante bien en un conjunto de tareas de razonamiento
Aun así, un enfoque basado solo en RL no alcanza para llegar a la ASI
- incluso un modelo RL termina chocando con un límite asintótico
- después de eso, se curan reasoning traces generados por el modelo RL y se usan para afinar un segundo modelo completamente distinto
- al final, DeepSeek se parece menos a RL en sí y más a una forma de generar muchos reasoning traces de alta calidad a menor costo que hacerlo manualmente
La idea es que construir un sistema que distinga entre mal y buen razonamiento es más fácil que construir desde el inicio uno que razone bien
La propia red neuronal también puede representarse como un manifold
- una red neuronal es una lista de números de pesos organizada de cierta manera
- si se despliegan todos los parámetros en un vector, puede mapearse a un punto sobre una superficie
- algunas regiones pueden corresponder a semantic segmentation, otras a text translation y otras al autoencoding
- como los pesos de salida pueden expresarse fácilmente como tensores, es posible aplicar backprop directamente sobre la salida
Se propone que el enfoque de diffusion usado en generación de imágenes también puede aplicarse a la generación de modelos
- diffusion añade ruido a una imagen de forma gradual y luego entrena un modelo para revertir ese proceso de adición de ruido
- se pueden tomar varios checkpoints de capas transformer pretrained de Hugging Face, añadirles ruido y formar con ello un conjunto de entrenamiento para diffusion
- si se introduce la descripción de un modelo pretrained como condición de texto, puede imaginarse un modelo que genere por diffusion otros modelos pretrained a partir de una descripción textual
- se plantea la posibilidad de que, con un prompt como "Spanish to English", devuelva un modelo completamente entrenado sin entrenamiento adicional
Hoy la mayoría de los modelos empiezan con inicialización aleatoria, pero un modelo de diffusion que genere otros modelos podría ser mejor que eso y reducir mucho el tiempo de entrenamiento
El deep learning sigue siendo un campo informal porque carece de una buena teoría operativa sobre qué hacen los modelos y por qué funcionan, y entender topológicamente el espacio de embeddings ayuda a conectar varios conceptos

1 comentarios

GN⁺ 2025-05-21

Opiniones de Hacker News

Como este texto se basa en una publicación de mi blog de 2014 (https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/), dejo unas palabras.
Intenté con mucho empeño usar topología como una forma de entender las redes neuronales, e incluso escribí publicaciones posteriores: https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
Hubo puntos en los que la perspectiva topológica fue útil, pero después de más de 10 años intentando entender qué ocurre dentro de las redes neuronales, no obtuve grandes resultados por ese lado.
Lo que dio muchos más frutos fue la hipótesis de representación lineal, según la cual “los conceptos/características corresponden a direcciones en una red neuronal”, y el concepto de circuitos, redes de esos conceptos conectados.
Algunos textos relacionados son https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio...
- Hay un malentendido frecuente sobre cómo entender las redes neuronales: la idea de que los LLM son, en la práctica, apenas modelos n-gram un poco mejores, y que, como solo predicen el siguiente token, deberían ser tontos.
  Me pregunto si la famosa reacción[1] al artículo de Karpathy sobre RNN[2] tiene parte de la responsabilidad de que se equipararan las redes neuronales de lenguaje con los modelos n-gram.
  El paper Stochastic Parrots[3] también equipara en cierta medida los LLM con los modelos n-gram, en el sentido de “teníamos principalmente en mente modelos n-gram, pero las conclusiones siguen siendo adecuadas y relevantes”.
  Creo que hubo una época, antes de que las redes neuronales se volvieran realmente buenas, en la que ambas cosas eran más parecidas.
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- Llevo años siguiendo la corriente de circuits, y la hipótesis de representación lineal me parece muy convincente.
  También tengo guardado en mis notas un borrador de reseña de Toy Models of Superposition.
  Sin embargo, circuits me resulta menos convincente porque el análisis parece estar demasiado atado en particular a la arquitectura Transformer.
  Me pregunto si la hipótesis de representación lineal no dependerá de la arquitectura. GAN, VAE, CLIP y otros parecen modelar explícitamente variedades.
  Incluso un modelo simple, por presión de optimización, terminaría plegando características lo bastante parecidas en la misma dirección lineal.
  Aunque es difícil conciliar la evidencia empírica de que los modelos simples colocan características similares en direcciones ortogonales con la hipótesis de las variedades, eso parece tener más que ver, en última instancia, con la función de pérdida que se optimiza.
  En Toy Models of Superposition se usa MSE, lo que hace que el modelo aprenda básicamente una tarea de regresión/compresión tipo autoencoder, y por eso es natural que importen los patrones de interferencia entre características que aparecen juntas.
  En cambio, con otros objetivos como una pérdida contrastiva, no creo que aparezca el mismo comportamiento de minimización de interferencia.
- Después de estudiar topología por primera vez en 2011, intenté varias veces “aplicarla” a problemas del mundo real, y mi experiencia fue similar.
  Ahora incluso dudo ante la expresión común de que “los datos reales son suaves y cercanos a una variedad de baja dimensión”.
  Me gustaría investigar bien hasta qué punto esta afirmación se ajusta a los datos reales, y cuánto se distorsiona por los métodos de reducción de dimensionalidad que usamos para manejar de forma eficiente conjuntos de datos naturales, pero me falta tiempo.
- En física es interesante que distintas simetrías globales o variedades topológicas puedan satisfacer la misma estructura métrica, es decir, la misma geometría local.
  Por ejemplo, la misma solución de tensor métrico de las ecuaciones de campo de Einstein puede existir sobre variedades topológicamente distintas.
  A la inversa, si se observan las soluciones del Ising Model, una misma topología de red puede tener varias soluciones distintas, y si el sistema está cerca del punto crítico, la topología de la red en sí puede dejar de importar.
  Es solo una analogía, pero sugiere que los detalles interesantes de la dinámica no están incrustados en la topología del sistema. Es un problema más complejo.
- Hubo algunas pequeñas discusiones en HN sobre el texto antiguo.
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - febrero de 2019, 25 comentarios
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - julio de 2015, 7 comentarios
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - abril de 2014, 29 comentarios
Si realmente fuera topología, no habría necesidad de curvar una variedad para hacer búsqueda por similitud. Esto se acerca más a la geometría con métrica.
Como en la realidad, necesitamos poder comparar las cosas.
Durante el aprendizaje también ocurren transformaciones topológicas de la variedad, así que me da curiosidad cómo evoluciona la topología durante el entrenamiento.
Me imagino que al principio cambia de forma intensa, luego se estabiliza, y después siguen ajustes geométricos finos.
Como trabajos relacionados están Topology and geometry of data manifold in deep learning(https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks(https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models(https://arxiv.org/abs/2410.11042) y Deep learning as Ricci flow(https://www.nature.com/articles/s41598-024-74045-9).
- Si has trabajado con GAN o VAE, en realidad puedes responder esta pregunta. La respuesta, en general, se acerca a “sí”.
  Puedes mirar GAN en distintos checkpoints durante el entrenamiento y usar herramientas como UMAP o t-SNE para ver cómo se mueven distintos puntos del espacio de alta dimensión.
  También es cierto que, tras cambios intensos al inicio, se estabiliza y ocurren ajustes geométricos finos, pero esos cambios iniciales también se ven afectados por la tasa de aprendizaje y la elección del optimizador.
- Si hubiera que decirlo, creo que se parece más a álgebra lineal aplicada. Solo que llamarlo así suena menos exótico.
El artículo en sí estuvo bueno, pero no entiendo por qué llaman “topología” a la idea de encontrar una superficie de separación entre dos conjuntos de puntos.
Aparece una frase del estilo: “si se aprende traducción inglés-español o conversión imagen-texto, se aprende una topología donde bread está cerca de pan y una foto de un gato está cerca de la palabra cat”, pero eso se acerca más a algo que la topología no trata.
La idea de que los puntos estén “cerca” o “lejos” pertenece al ámbito de la métrica, no de la topología.
Si dos puntos están cerca en algún espacio topológico, puedes estirar el espacio y mantener el mismo espacio topológico, pero hacer que esos dos puntos queden lejos.
Ese es precisamente el punto del chiste de que una taza de café y una dona son lo mismo.
En conjunto, parece más bien una aplicación real de geometría algebraica, como encontrar una variedad algebraica donde los puntos quedan cerca. Al final parece un problema de geometría y distancia entre puntos.
- Decir “esto no es lo que trata la topología” es 100% correcto.
  Solo que, como el artículo trata tanto de topología como de deep learning, espero que la confusión clara se limite a una de las dos cosas, es decir, solo a la topología.
- En esa frase usaron “topology” de una forma más coloquial. Lo correcto habría sido decir “surface”.
- Con una definición laxa, la topología sí puede verse como el estudio de espacios que tienen alguna noción de cercanía y lejanía. Lo mismo aunque no haya una métrica.
  El concepto central de entorno en la topología de conjuntos de puntos captura la idea de estar cerca de un punto, y permite definir cosas que requieren una noción de cercanía, como la continuidad o la convergencia de sucesiones.
  Wikipedia [0] también explica que, mediante el concepto de conjuntos abiertos, se pueden precisar ideas como “cerca”, “arbitrariamente pequeño” y “separado”.
  Si cambias la definición de conjuntos abiertos, también cambian las funciones continuas, los conjuntos compactos y los conjuntos conexos, y cada elección de definición de conjuntos abiertos se llama una topología.
  Un espacio métrico es una clase importante de espacio topológico en la que se puede definir una distancia real no negativa, es decir, una métrica, entre pares de puntos.
  No quiero decir que la topología sea el mejor lente para entender las redes neuronales, y el autor también dijo en los comentarios que cambió de opinión. Aquí solo quería corregir el malentendido.
  [0] https://en.wikipedia.org/wiki/General_topology
El título, tal como está ahora, es trillado e incorrecto, aunque el artículo en sí fue agradable de leer.
La topología es la estructura mínima que queda después de eliminar de la geometría la distancia, los ángulos, la dirección y todo tipo de estiramientos que no desgarren.
Es lo mínimo que sigue siendo válido incluso después de deformaciones tan extremas.
Es cierto que los conceptos topológicos son útiles en machine learning, pero cosas como la escala, la distancia y los ángulos suelen aportar mucha información esencial sobre los datos.
Si estás tratando de distinguir un gato atigrado de un tigre y decides ignorar el tamaño, sería una tontería.
La topología es especialmente útil cuando no puedes confiar en longitudes, distancias, ángulos o deformaciones arbitrarias.
Hay casos así, pero afirmar que el deep learning es topología aplicada es disparatado y casi una estupidez.
- Los datos de entrada están sobre una variedad poco confiable. El hecho de que, en el espacio de píxeles, una imagen de una lata de Coca-Cola y una imagen de una señal de alto estén cerca no significa nada a priori.
  Las redes neuronales aplican precisamente todas esas transformaciones extremas.
- Si entramos en detalle, muchas cosas que no habrían importado si fuera topología pura sí se vuelven importantes. Desde la cantidad de capas hasta la resolución de cuantización/fp influyen.
- La palabra “topology” también tiene una definición legítima de diccionario que no incluye en absoluto las condiciones que estás exigiendo ahora. Parece que se te pasó que hay dos definiciones.
Gracias por compartirlo; yo también tiendo a ver el aprendizaje desde la perspectiva de las variedades. Es una forma de representación poderosa.
Sobre la parte de “en un espacio de dimensión suficientemente alta, esto se vuelve indistinguible del razonamiento”, he escrito bastante en mi diario y también publiqué en HN con el nombre de “variedad de razonamiento probabilístico”.
Esta variedad se construye aprendiendo un espacio de patrones descontextualizados a partir de un conjunto de entradas dado.
Debido a la naturaleza inherentemente probabilística del muestreo, el razonamiento real se expresa como probabilidades, no como axiomas.
Se podrían descubrir axiomas buscando puntos fijos o atractores sobre la variedad, pero en última instancia lo que estamos viendo es una variedad probabilística construida a partir del conjunto de entradas.
Sin embargo, no creo que este “razonamiento” pueda separarse de los datos de entrada.
Una variedad de razonamiento lo suficientemente avanzada podría encontrar estructuras de “metarrazonamiento” que aparecen en todas partes, pero estas estructuras altamente descontextualizadas pueden ser completamente inútiles si no se recontextualizan adecuadamente.
En última instancia, para que una variedad sea útil para procesar algún tipo de entrada, los patrones de esa entrada tienen que seguir una underlying rule que pueda aprenderse.

Si la descontextualización es aprendizaje, es decir, descomponer aspectos de la entrada en relaciones independientes del contexto, entonces la recontextualización es la otra mitad: la capacidad de convertir relaciones independientes del contexto muy abstractas y a veces imposibles de representar en análisis útiles en un nuevo dominio.
Comentario completo: https://news.ycombinator.com/item?id=42871894

Me pregunto si se refieren al razonamiento en general, es decir, al razonamiento como proceso mental que opera sobre representaciones de proposiciones.
Si es así, me cuesta entender la frase “el razonamiento real se expresa con probabilidades, no con axiomas”.
Una de las características del razonamiento es que no funciona de esa manera.
Es muy poco probable que los animales no tengan ninguna capacidad para operar de forma no probabilística sobre proposiciones que ellos mismos representan. Eso es esencial para el razonamiento correcto y, además, es una capacidad relativamente trivial de proporcionar.
Por ejemplo, algo como “si la araña está dentro de boxA, entonces no está en ningún otro lugar”.
Los datos en realidad no están sobre una variedad. Es solo una aproximación para pensar los datos.
Casi todo lo que resultó útil en deep learning, quizá el 100%, surgió sin pensar en absoluto en topología.
Más que ser una aplicación de algo, el deep learning es en gran medida un campo empírico que avanzó por ensayo y error y experimentación.
Hubo algo de intuición proveniente de la teoría, pero esa teoría no era topología.
- No estoy de acuerdo en absoluto. Es cierto que hay mucho ensayo y error, pero el deep learning se parece más a una mezcla de teorías de varias áreas de las matemáticas, incluidas la topología, la geometría, la teoría de juegos, el cálculo, la estadística, etc.
  Incluso lo más básico, la retropropagación, no es más que aplicar la regla de la cadena a los pesos.
  La diferencia está en que el deep learning se volvió un campo tan accesible —y, más precisamente, rentable— que muchos profesionales pueden aprender el tema sin aprender los orígenes del formalismo.
  Al final terminan usando o “reinventando” teorías y técnicas que existían desde hace mucho en otros campos, sin conocer su origen.
- La “intuición” proveniente de la teoría me parece retrospectiva. Primero el deep learning crea un método, y solo después investigadores de otras áreas científicas notan similitudes entre el enfoque de deep learning y sus métodos antiguos.
  Por ejemplo, hay un artículo de alguien que descubrió que GPT en realidad era el mismo problema computacional que ya había resuelto en física: https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- Desde mi perspectiva, después de más de 10 años trabajando en deep learning, esto está bastante equivocado. Que los datos viven sobre una variedad es evidente, y también aplica a las aplicaciones de deep learning.
  Como ejemplo está el blog de Chris Olah de 2014 enlazado en mi texto: https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  Hay una razón por la que al espacio de embeddings se le llama “espacio”.
  GAN, VAE y la pérdida contrastiva tratan todos de construir variedades vectoriales por las que se puede caminar para generar distintos tipos de datos.
- Esto es alquimia.
  El deep learning en su forma actual se relaciona con una teoría subyacente hipotética más o menos como la alquimia se relaciona con la química.
  Dentro de unos cientos de años, estudiantes de secundaria hablantes de inuktitut de alguna civilización posterior a la nuestra aprenderán que la extraña expresión “deep learning” era un vestigio de una antigua lengua franca.
- Si se relaja la definición para permitir error de aproximación, puede considerarse que los datos están sobre una variedad. Por ejemplo, se puede consultar Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf).
En cuanto leí la frase “esto fue suficiente para llegar hasta AGI”, mi confianza se desplomó.
En general las ideas están bien, pero el texto es bastante vago, especialmente en la parte donde lo conecta con el razonamiento.
En esta área hay trabajos técnicos serios que extienden y concretan más esta idea, como https://arxiv.org/abs/1402.1869.
Otra topología que se encuentra en las redes neuronales profundas es la topología de red. Esto se refiere a la estructura de la red: cómo se conectan los nodos y cómo fluye la información.
Ya existen ejemplos conocidos inspirados en la biología, como los autoencoders, las redes neuronales convolucionales (CNN) y las redes generativas antagónicas (GAN).
Pero aún queda mucho por aprender sobre la topología del cerebro y su conectividad funcional.
En el futuro es muy probable que descubramos nuevas estructuras, tanto en la organización interna de capas/nodos individuales como en la forma en que redes especializadas se conectan e interactúan entre sí.
El cerebro no depende de una sola red; opera varias redes en paralelo, profundamente interconectadas, a menudo llamadas las “Big 7”.
Entre ellas están la Default Mode Network (DMN), la Central Executive Network (CEN), la Limbic Network, etc.
De hecho, una sola neurona puede pertenecer a varias redes y cumplir funciones distintas en cada una.
En los sistemas artificiales todavía no hemos replicado suficientemente esta complejidad, y aún hay mucho que aprender e inspirarse de esta “topología de red”.
Así que “Topology is all you need” :-)
El problema es la premisa de que “si tan solo puedes distinguir lo bueno de lo malo, puedes entrenar una red neuronal para que organice su topología por sí sola”.
Hace unos 10 años vi un proyecto que entrenaba una red para inferir el sexo biológico a partir de fotos de rostros.
Para reducir sesgos, eliminaban cuidadosamente maquillaje, bigotes, cabello, etc., pero la precisión era de alrededor de 70–80%.
En ese momento parecía un resultado excelente y apuntaban al 99%.
Después de leer el paper, lo primero que hice fue buscar estudios sobre humanos intentando adivinar el sexo biológico en fotos similares.
Los humanos tampoco eran mucho mejores, y la diferencia entre humanos y máquinas era de apenas 1–2%.
Les pregunté a quienes llevaban el proyecto cómo habían demostrado que era posible hacer esa distinción solo con la foto, pero no entendieron la pregunta y simplemente asumieron que sí se podía.
Al final no lograron mejorar los resultados. Puede que hayan enseñado mal a la red neuronal, pero si se eliminan los marcadores de sexo, muchas caras quizá simplemente sean andróginas.
Cuento esta anécdota porque sus supuestos me parecían bastante razonables a simple vista.

En la mayoría de las situaciones, al ver una cara se puede inferir qué tiene alguien dentro de los pantalones, así que se asumió que esa información está en la cara.
Pero en un contexto en el que reescribimos los libros de texto cada año, intentamos calcular la “vida media del conocimiento”, la disciplina de la filosofía sigue sin cerrarse y todos los días hay debates políticos e ideológicos sobre qué es lo mejor, la suposición de que de algún modo podemos separar lo bueno y lo malo es muy, muy irracional.

Al final, tampoco es racional asumir que existe esa distinción entre “bueno” y “malo”.
El diagrama que sostiene que AGI/ASI son puntos sobre una variedad, al igual que la predicción del siguiente token, los modelos de chat y los modelos CoT, resulta confuso.
Probablemente se pueda demostrar que las tres últimas cosas forman parte de la misma variedad, pero no veo qué fundamento hay para ubicar ahí también a AGI/ASI.
¿No podría ser que los modelos capaces de CoT, por más manipulaciones topológicas que se les hagan, nunca lleguen a un proceso que pueda considerarse AGI?
Por ejemplo, la inteligencia humana, que es lo más cercano a AGI que conocemos, requiere bucles de retroalimentación sensorial e interna extremadamente complejos y procesamiento continuo, a diferencia del procesamiento discreto de los modelos autorregresivos.
Como intuición de alguien no experto, me parece que los LLM no pertenecen en absoluto a la misma familia que los sistemas capaces de generar inteligencia o conciencia.
- Es posible. AGI/ASI están mal definidas. Personalmente tiendo a pensar que ya llegamos a AGI y, por supuesto, mucha gente no está de acuerdo.
  Creo que la explicación de que la inteligencia humana requiere bucles complejos de retroalimentación sensorial e interna y procesamiento continuo oculta las formas en que las redes neuronales y las redes biológicas en realidad se parecen bastante.
  He investigado bastante sobre conectómica y, por ejemplo, en el sistema olfativo de los ratones aparece algo parecido a un vector de características según qué neuronas se activen.
  Cuando se activa un conjunto específico de neuronas, significa algo como “chocolate” o “limón”.
  De forma más general, las representaciones neuronales parecen hasta cierto punto similares a las representaciones de embeddings, y también es posible imaginar la construcción de un espacio de embeddings a partir de dónde y qué neuronas se activan.
  Todo lo que está sobre los embeddings es “solo” procesamiento.