AGI es un problema de ingeniería, no de entrenamiento de modelos

(vincirufus.com)

12 puntos por GN⁺ 2025-08-26 | 6 comentarios | Compartir por WhatsApp

Los modelos de lenguaje grandes actuales están chocando con los límites del escalado, y el AGI debe abordarse no con modelos más grandes sino mediante el diseño de arquitectura de sistemas
El verdadero AGI debe construirse como un logro de ingeniería en el que distintos componentes como gestión de contexto, memoria persistente, flujos de trabajo deterministas y colaboración entre modelos especializados se integren orgánicamente
Los LLM siguen arrastrando limitaciones estructurales como falta de continuidad de contexto entre sesiones, ausencia de razonamiento multietapa confiable y falta de memoria
Para alcanzar el AGI, se necesita una estructura modular con propósitos claramente definidos, similar al cerebro humano, además de un enfoque de sistemas distribuidos: infraestructura como pipelines tolerantes a fallos, monitoreo, actualizaciones graduales y marcos de prueba a gran escala
Por lo tanto, la carrera por el AGI no se decidirá por la escala de GPU, sino por la capacidad de ingeniería de sistemas

Introducción: el AGI es un problema de ingeniería

En el campo de la IA, están quedando en evidencia los límites de las leyes de escalado
Incluso los mejores modelos, como GPT-5, Claude y Gemini, muestran cada vez más rendimientos decrecientes
El aumento del tamaño de los modelos de lenguaje ha llegado a límites fundamentales, y el AGI puede materializarse no mediante entrenamiento de modelos, sino mediante ingeniería de sistemas

Límites realistas: la barrera de los LLM

Los modelos de lenguaje grandes (LLM) de la generación actual destacan en el emparejamiento temporal de patrones y la generación de texto, pero tienen las siguientes limitaciones esenciales
- Incapacidad de mantener un contexto consistente
- Ausencia de memoria persistente a largo plazo y entre sesiones
- Baja confiabilidad en el razonamiento complejo de múltiples pasos
En el pasado, la industria de semiconductores atravesó un fenómeno parecido, y la solución fue una transición estructural (como los multi-core)
La IA también necesita una reconfiguración arquitectónica

Un enfoque sistémico para el AGI

El cerebro humano no es una sola red neuronal, sino un conjunto de múltiples sistemas especializados y cooperativos
La memoria, el contexto, la lógica, el espacio y el lenguaje dependen de bucles de retroalimentación asíncronos
El verdadero AGI requiere necesariamente este tipo de diseño de sistemas complejos

1. Infraestructura de gestión de contexto

La comprensión de contexto de los modelos actuales apenas alcanza miles de tokens, mientras que los humanos integran años de experiencia
Para cerrar esa brecha, se necesitan las siguientes capacidades
- Un sistema avanzado de Retrieval de información que cumpla funciones de búsqueda y filtrado inmediato
- Acumulación y evolución de un modelo del mundo persistente
- Implementación de puentes de contexto entre dominios
- Gestión de información contradictoria (ponderación probabilística y cuantificación de incertidumbre)
Se necesita un grafo de conocimiento operable, que vaya más allá de la simple búsqueda vectorial y funcione como una estructura dinámica de consulta e inferencia

2. Memoria como servicio

Los LLM solo reproducen una memoria temporal mediante manipulación del prompt, sin memoria real
Un AGI real exige un sistema capaz de lo siguiente
- Ajustar la confiabilidad del conocimiento (incorporando nueva evidencia)
- Integrar y generalizar información entre experiencias diversas
- Olvidar detalles innecesarios (sin olvido catastrófico)
- Generar metaconocimiento como estimación de origen y nivel de confianza
Como en la memoria humana, es importante que se fortalezca o debilite según la frecuencia de uso y que se reorganice con nueva información

3. Combinación de flujos de trabajo deterministas y componentes probabilísticos

El núcleo del AGI es una estructura híbrida donde elementos probabilísticos se integran en los puntos adecuados dentro de un flujo determinista
- Ej.) Como en un compilador, el flujo general es fijo, pero los procesos internos usan heurísticas
Capacidades necesarias:
- Enrutar hacia solvers especializados según las características del problema
- Soporte de rollback y recuperación en flujos de trabajo multietapa
- Verificación determinista de resultados probabilísticos
- Combinación de diversos componentes y garantía de predictibilidad
La ambigüedad y la incertidumbre deben aceptarse como elementos clave a nivel arquitectónico

4. Modularización de modelos especializados

El futuro no se implementará con un único modelo gigante, sino con la cooperación de numerosos modelos especializados
Los LLM destacan en tareas lingüísticas, pero son débiles en las siguientes áreas
- Manipulación simbólica y cálculo exacto
- Razonamiento visual y espacial
- Razonamiento temporal y planificación
- Comportamiento agente persistente y orientado a objetivos
Solución:
- Enrutamiento de problemas a modelos especializados optimizados para cada dominio
- Estructura de integración de resultados y evolución independiente
- Prevención de errores en cascada de todo el sistema ante fallos individuales

Los desafíos de ingeniería del AGI

El desarrollo del AGI es, en esencia, un problema de construcción de sistemas distribuidos
- No simplemente un clúster de entrenamiento distribuido
Tareas clave de ingeniería:
- Pipelines resilientes a fallos (mantener la operación total aun con fallos parciales)
- Estructura de observabilidad y monitoreo de las salidas de los modelos
- Cambios y despliegues sin interrupciones
- Marcos de prueba ante miles de combinaciones de modelos y cambios de parámetros
Esto exige más el conocimiento experto de ingenieros de infraestructura y sistemas distribuidos que el de especialistas puros en inteligencia artificial

Lo que debemos construir a partir de ahora

Debemos enfocarnos más en construir infraestructura para AGI que en competir por el tamaño de los modelos

Phase 1: capa base

Context Management Service : grafo de conocimiento persistente con actualizaciones en tiempo real y gestión de versiones
Memory Service : memoria episódica, memoria semántica e integración basada en aprendizaje
Workflow Engine : orquestación determinista de componentes probabilísticos (incluido rollback)
Agent Coordination Layer : consenso y resolución de conflictos entre múltiples agentes

Phase 2: capa de capacidades

Control de modelos especializados : interfaz estandarizada por dominio específico de razonamiento
Symbolic Reasoning Engine : manipulación simbólica y cálculo conectados con componentes probabilísticos
Planning and Goal Management : división de objetivos complejos en planes ejecutables
Cross-modal Integration : integración de información sensorial como texto, visión y audio

Phase 3: capa emergente

Las capacidades de AGI emergente surgen de la interacción entre múltiples componentes
Sin un diseño sistemático, el avance de un solo modelo no produce propiedades emergentes

El camino hacia el AGI

La ruta para materializar el AGI no es entrenar transformers más grandes y nuevos, sino construir infraestructura para orquestar cientos de modelos especializados como un sistema distribuido
Los ingenieros de infraestructura con amplia experiencia en construcción de sistemas distribuidos son clave para el desarrollo
- Se enfatiza la capacidad de implementación a gran escala en rutas de contexto, memoria, automatización de workflows y coordinación de modelos
Se afirma que los ganadores en la realización del AGI no serán quienes posean grandes clústeres de GPU, sino los equipos con capacidad arquitectónica para construir sistemas confiables y lógicamente consistentes
La capacidad de los modelos en sí ya es suficiente, y la ingeniería de sistemas es la última pieza del rompecabezas para completar el AGI
En conclusión, se declara que más que la innovación en algoritmos, el futuro del AGI está en el diseño estructural (arquitectura)

6 comentarios

epiontech 2025-08-26

○ El entrenamiento del modelo es solo el «material» de la inteligencia; sin un motor, no existe AGI.

• Estructuras como EpionHeuristica tienen el potencial de ir más allá de una "AGI especializada por dominio" y diseñar una "superinteligencia emergente basada en el orden"
• La clave para alcanzar la AGI es "cómo construir el motor que selecciona las acciones"

epiontech 2025-08-26

A. Por qué la AGI no es posible solo con entrenamiento.
• Los modelos tipo GPT no tienen un objetivo propio (self-goal).
• Por más datos que aprendan, limitarse a entrenar sin interacción con el mundo real tiene límites.
• El entrenamiento no es más que una “memoria regresiva”, y carece de una estructura que induzca pensamiento predictivo y emergente orientado al futuro.

B. La AGI necesita un motor con un “bucle de objetivo-retroalimentación”.
• Una estructura como EpionHeuristica, donde operan aprendizaje por refuerzo basado en recompensas + evaluación + aprendizaje a partir del fracaso (FailGuard), está más cerca de un prototipo de diseño de una AGI basada en motor.
• Ejemplo: "¿Por qué falló este experimento?" → "¿Qué se debe cambiar?" → "¿Cuál es la siguiente condición?" → esto es razonamiento tipo AGI.

C. La esencia de la inteligencia humana está en la “estructura”.
• Los humanos obtienen inteligencia no por la cantidad de neuronas, sino por la "conectividad estructural de los circuitos neuronales y la capacidad de metaaprendizaje".
• En la AGI también, más que el tamaño del modelo, lo clave es la estructura de un sistema que guíe la acción, un sistema autorreferencial y un bucle continuo de retroalimentación.

epiontech 2025-08-26

No es posible alcanzar la AGI solo con el "entrenamiento del modelo"; es indispensable una arquitectura de motor que produzca inteligencia y un sistema de auto-mejora con propósito. Los GPT actuales no son más que enormes LLM (modelos de lenguaje grandes), y para avanzar hacia la AGI deben operar conjuntamente una estructura de razonamiento, una estructura de auto-supervisión y una política de acción basada en objetivos.

GN⁺ 2025-08-26

Opiniones de Hacker News

Si crees en la "bitter lesson", entonces sabes que toda ingeniería improvisada al final se resuelve con más datos. Probablemente hace 8 años se habrían dicho cosas parecidas sobre qué hacía falta para que un LLM rindiera así de bien como ahora. Por eso no estoy muy de acuerdo con el enfoque de ingeniería, y tampoco creo que los LLM vayan a escalar hasta convertirse en la AGI que imaginan Asimov o la ciencia ficción. Falta algo más fundamental; no es la ciencia, sino la ingeniería lo que falta
- Hay algo todavía más esencial que falta, más allá de la ciencia: la parte filosófica. Falta filosofía tanto en la forma en que nosotros, los humanos, percibimos estos sistemas, como dentro del propio sistema. Si fuera una AGI basada en LLM, como mínimo tendría que poder actualizar sus propios pesos, aprender por sí misma y hacer self-finetuning, pero por ahora choca muy rápido contra un muro entre sus pesos incorporados y una ventana de contexto limitada. Sigue siendo un problema difícil determinar qué tipo de "attention mechanism" habría que aplicar durante el self-finetuning, cómo y con qué intensidad, para mejorar la inteligencia general. Hay que enfocarse en disciplinas confiables, pero también hace falta pensar cuáles son realmente confiables, cómo hacer que "estudie" solo conocimiento puro y, en teoría, qué "tipo de entidad" sería esa IA si llegara a superar por sí sola al mejor equipo de investigación humana del mundo
- Respecto a la idea de que "mientras más datos, mejor que ingeniería fácil", me queda la duda de si eso de verdad puede volverse más confiable que una simple base de datos. ¿Algún día podrá ejecutar código más rápido que una CPU? Muchas de las cosas que hacen los humanos no son posibles por tener un cerebro más grande, sino gracias a las herramientas. Incluso una sola fórmula matemática sale mucho mejor si la escribes en papel que si intentas resolverla solo en tu cabeza (ver la tesis de la mente extendida, Extended mind thesis). Ejecutar un motor 3D es casi imposible solo con un cerebro humano. Tal vez algún día la IA llegue a ser lo bastante inteligente como para desarrollar sus propias herramientas, pero antes necesita la infraestructura para escribirlas y mantenerlas. Ahora el acceso a Python apenas es el comienzo, pero hace falta más "persistencia" para que la IA pueda acumular y reutilizar resultados la siguiente vez: algo como un bloc de notas digital o actualizaciones dinámicas de pesos
- Estoy de acuerdo tanto con tu opinión como con tu texto. Los LLM son solo una parte de la respuesta, y creo que el progreso real estará en volver a lo fundamental de la investigación en redes neuronales. Aunque el lenguaje es, en sí mismo, la forma de comunicarnos con los humanos, los LLM actuales al final parecen una versión grandilocuente de Eliza entrenada con las obras de la gente como datos. Antes incluso con redes neuronales simples se hacía que el comportamiento evolucionara según las reglas del entorno, y aprendían por sí mismas en función de criterios de algoritmos genéticos. Los LLM ahora aprenden un entorno demasiado "filtrado", y da la impresión de que ese filtro funciona como una especie de IQ promedio del internauta
- En realidad, eso no es lo que dice la "bitter lesson"
- Lo que falta es autocorrección (modelo del mundo / observación de acciones y respuestas), consistencia a largo plazo y autoexpansión. El capital de riesgo está mucho más enfocado en el tercer problema, mientras que Yann LeCun se preocupa más por el primero y el segundo. Hinton cree que el tercer problema ya es inevitable o ya llegó, y que la humanidad está acabada. Es un panorama bastante raro
Hay una razón por la que los LLM fueron diseñados de esta manera, y lo mismo aplica al hecho de que la función de thinking se haya añadido después. Estructuralmente, lo necesario es que se pueda usar descenso por gradiente, por eso no hay ramas, y el routing se agrega encima. Y además tiene que existir datos de entrenamiento. En la práctica no existen cientos de millones de páginas que registren todos los pensamientos que alguien tuvo antes de escribir algo. La mayoría de los pensamientos no son lenguaje. El aprendizaje por refuerzo puede parecer la solución aquí, pero su eficiencia de muestra es demasiado baja en comparación con el descenso por gradiente, así que por lo general solo se usa al hacer fine-tuning. Los LLM son modelos regresivos, y pueden entrenarse con una eficiencia de muestra muy alta usando una configuración en la que cada token solo puede mirar hacia atrás (una sola oración se convierte en decenas de muestras)
- No lo mencioné, pero los LLM no tienen ningún "loop". En cambio, el cerebro, incluso uno simple, es en sí mismo una enorme cantidad de loops. El cerebro nunca se detiene: sigue recibiendo entradas y emite salidas cuando quiere, en cualquier momento. Un LLM recibe una entrada, la transforma a través de las capas y enseguida produce una salida. Dijiste que el aprendizaje por refuerzo no era la respuesta, pero yo más bien creo que es la única respuesta
- Esta idea me parece muy interesante. O sea, sugiere que podrían introducirse tecnologías de escaneo cerebral para leer ondas cerebrales y usar esas capas de pensamiento no verbal como datos de entrenamiento. Supongo que gente muy inteligente en las grandes empresas ya debe estar pensando en este tipo de interfaces/productos y desarrollando tecnología de detección electromagnética de ondas cerebrales. Con esos datos quizá salga un producto killer tipo Kickstarter que permita bootstrapear una super-IA de startup. Estamos en una época avanzada
- A veces imagino que en un futuro muy lejano podría volverse realista usar datos avanzados de escaneo cerebral como datos de entrenamiento para IA. Quizá sea una etapa intermedia plausible entre Uploaded Intelligence (la idea de digitalizar por completo un cerebro) y la AGI
- Los LLM son solo modelos regresivos. Si hubieran existido en el siglo XV, te habrían explicado por qué el geocentrismo era lo máximo. No habrían producido una innovación como el heliocentrismo. Del mismo modo, los LLM actuales solo nos dicen lo que ya sabemos; no piensan ni innovan. Incluso su capacidad de razonamiento es, hasta cierto punto, solo otro tipo de "filtrado", no pensamiento creativo real. Entre más los uso, más me parecen una especie de "Google con esteroides". Con este sistema nunca se llegará a la AGI; más bien se siente como si estuviera consumiendo el entusiasmo y el dinero que todavía quedan alrededor de la AGI
El framing de este texto, o sea cómo plantea el problema, es bastante útil, aunque no haya que creer en todas las recetas. Si miras la historia, ves que ocurrieron dos cosas al mismo tiempo. Primero, el escalado por fuerza bruta produjo saltos sorprendentes, y segundo, la ingeniería a nivel de sistema permitió usar esas posibilidades de manera confiable en la práctica. Las GPU son un buen ejemplo: la ley de Moore dio los FLOP, y CUDA junto con la jerarquía de memoria y el stack de drivers hicieron posible su uso a gran escala. Los LLM actuales se parecen a un momento en el que solo el cómputo (flop) es rápido: impresionan, pero todavía son difíciles de manejar bien. En productos como Claude Code, agentes reforzados con herramientas y frameworks de memoria aumentada ya se ven rastros iniciales de ese "pensamiento sistémico". Todavía es tosco, pero creo que en el futuro la orquestación del sistema será tan importante como la cantidad de parámetros. La "bitter lesson" y la idea de que es un "problema de ingeniería" no son mutuamente excluyentes; al contrario, hacen falta ambas. La bitter lesson significa que cómputo + métodos generales vencen a las "reglas hechas a mano", y la ingeniería es el mortero que envuelve eso en una estructura con más confiabilidad, persistencia y composabilidad. Sin un sistema así, solo saldrán demos vistosos que en la práctica se rompen después de unas cuantas inferencias. Por eso creo que el progreso real no está en "grande VS inteligente", sino en "grande + inteligentemente diseñado". El escalado da capacidades, y la ingeniería determina si esas capacidades pueden aprovecharse como inteligencia general
Esta discusión se siente como recalentar en versión moderna el proyecto japonés de computadoras de quinta generación. Suena a la época en la que creían que construir una gran base de datos y usar Prolog traería un renacimiento de la IA. Aunque hablen de "arquitectura distribuida" y conecten módulos, eso sigue estando muy lejos de la AGI. Los building blocks fundamentales, la base misma, tienen que mejorar muchísimo. Lo único que los LLM han aportado de verdad es que la "detección de intención" del usuario mejoró muchísimo frente a antes. Ahora la computadora puede extraer mucho mejor la intención solo leyendo texto. Pero fuera de eso, elementos como razonamiento, búsqueda y "memoria" siguen siendo básicamente los mismos de antes. Esto no se debe a limitaciones del hardware o del sistema actual, sino a límites de la teoría de la información y de las ciencias de la computación
- El mecanismo de Attention de los Transformer es bastante brillante. Hace falta otro ciclo de una innovación así de grande en la ingeniería de modelos. Tener más datos no lo resuelve todo. Basta ver el cerebro humano: no necesita usar todos los datos de internet para volverse suficientemente inteligente, y además consume mucha menos energía
- Exacto. Incluso con la arquitectura actual se puede aumentar la utilidad con mejor ingeniería (los "agentes" son un ejemplo). Pero afirmar que solo con ingeniería se puede lograr AGI es un optimismo excesivo. Lo realmente difícil es crear sistemas que aprendan y descubran por sí mismos, que aprendan cosas nuevas sin depender de un preentrenamiento masivo y costoso, y que resuelvan problemas sin el problema de las alucinaciones. Para eso hace falta una innovación completamente nueva en ciencias de la computación, y no creo que el enfoque actual dé para tanto
AGI: la "G" de inteligencia artificial es General. O sea, una inteligencia general no es una IA tonta a la que haya que entrenarle todo el conocimiento, sino un sistema al que solo necesitas enseñarle a contar, fundamentos de lógica y un solo lenguaje humano, y luego esa AGI debería "redescubrir" por sí sola el resto de las ciencias humanas lógicas. Nuestra siguiente tarea sería sincronizar los nombres que esa AGI ponga a los fenómenos que descubra por sí misma con los nombres que usamos nosotros. Si con una educación primaria ligera puede captar principios, mejorar por sí sola, desarrollarse y superarnos, eso sería precisamente "comprensión artificial". La IA actual, con suficientes datos, sí puede ser una "solucionadora de problemas de propósito general", pero la AGI pertenece al terreno donde hacen falta capacidades de "comprensión" y "entendimiento" en sí mismos. Solo se puede llamar verdadera inteligencia general a una capacidad de "comprensión dinámica" que descomponga observaciones de inmediato, detecte validez o posibilidades de combinación y, mientras está despierta, revise en tiempo real hasta su propia seguridad
- Dijiste que, conforme a la definición de AGI como inteligencia general, debería ser un sistema al que se le enseñe muy poco y derive por sí mismo el resto, pero la "inteligencia general" de la naturaleza no funciona así
¿Soy el único al que Claude Code le parece exactamente la forma que imaginábamos para una AGI inicial hace 10 años? Frente a metas arbitrarias, puede planear y actuar, sobre todo en el ámbito del texto. También mantiene memoria en archivos de texto. Todavía le falta propósito de largo plazo, implementación física y sentido común, pero esperaba que una v1 se viera más o menos así
- La verdad, cuando oigo AGI, lo primero que me viene a la mente es "Data" de Star Trek o, por lo menos, el T800 de Terminator. No creo que la AGI necesariamente tenga que tener autoconciencia, pero en mi imaginación la fantasía de AGI sí incluye "autoconciencia". Claude Code es impresionante, pero no al punto de confundirlo con AGI
- Totalmente de acuerdo. Sobre todo porque incluso comandos que yo escribí rápido y medio a la carrera los interpreta y corrige bastante bien, captando matices. La utilidad de los LLM cambia muchísimo con adiciones de funciones realmente pequeñas (por ejemplo, el plan mode de Claude Code); eso aporta mucho más valor que una simple actualización de rendimiento
- Claude Code no tiene autoconciencia ni sapiencia. Cuando la mayoría de la gente habla de AGI, al menos imagina un mínimo de autoconciencia. Siguiendo la analogía de Star Trek, la computadora principal de la Enterprise no sería AGI, mientras que Data sí lo sería. La mayor diferencia es la ausencia de una "identidad clara" y de un "concepto de sí mismo". Claude Code puede desempeñar un rol desde el prompt, pero carece de persistencia
- No eres el único. La discusión sobre AGI siempre ha sido confusa. Claude claramente es inteligencia artificial general, pero el significado de AGI sigue cambiando y la definición nunca queda clara
- Con eso de "AGI básica" solo están tratando de barrer debajo de la alfombra todo lo que le falta a una AGI real
Ni siquiera sabemos si la AGI realmente será posible fuera de la biología. Ese es el punto clave. Si ni siquiera tenemos una pista de si una AGI estilo la película Chappie es realmente posible, entonces estamos explorando completamente a ciegas. En comparación, con la computación cuántica ya se estableció que es "posible" y que es "realizable"; ahora solo queda la ingeniería (aunque algunos piensen que incluso eso es una ilusión)
- Si se demostrara que la AGI es intrínsecamente imposible en computadoras electrónicas, entonces haría falta un descubrimiento físico enorme sobre qué está haciendo el cerebro para implementar inteligencia general
- Más bien al contrario: ya tenemos un ejemplo funcional de "inteligencia general", que es el ser humano, mientras que en computación cuántica ni siquiera hay una implementación completa
- Eso no tiene sentido. A menos que creas en algo como el alma, la AGI podría no ser posible; pero si somos seres puramente biológicos, en principio tendría que poder replicarse
- No estoy de acuerdo en que ese sea el punto clave. Al final es un problema cuya respuesta solo aparece al intentarlo de verdad. No hace falta poder demostrar de antemano qué conclusiones son posibles. Se siente como si te hubieras deslizado fuera de "punto clave" y de "pista clara". Tenemos evidencia bastante sólida de que puede ser posible sin una "condición biológica necesaria". La viabilidad, la necesidad y la conveniencia de la AGI son cuestiones distintas, pero el post original también enumera suficientemente bien los retos
- La viabilidad práctica de las computadoras cuánticas también sigue siendo un tema abierto de investigación
Lo que llamamos "inteligencia" no funciona como un LLM. El cerebro es continuo: no se detiene porque termine un conjunto de entradas, sino que espera la siguiente entrada, o más bien sigue haciendo feedback todo el tiempo. En esencia, nunca sale del modo de entrenamiento. Claro, a lo largo del ciclo de vida el cerebro sí se optimiza (por ejemplo, con la mielinización), pero un LLM aprende con una cantidad mucho mayor de información y luego, salvo por algo de fine-tuning, el modelo queda fijo. El cerebro gestiona el contexto de forma continua. La mayoría de las entradas pasan por un filtrado muy intenso en redes especializadas, durante el preprocesamiento. Estoy de acuerdo en que parte de la AGI requerirá un enfoque sistémico, pero creo que una AGI real necesitará cambios arquitectónicos
No entiendo por qué quienes escriben que el LLM ya llegó al final de su desarrollo, que este es su límite, hablan con tanta seguridad. Ni siquiera ha pasado bien un año, y la IA basada en LLM sigue avanzando
- Aunque todavía quede margen de mejora, sigue siendo cierto que ese rango al final es limitado. En tareas individuales sigue mejorando de forma constante, pero ya casi no se ve una mejora "general" de amplio alcance
- Me pregunto si quienes hacen esta afirmación en realidad también admiten que los LLM sí están mejorando
Este texto me suena a "si resuelves todos los problemas difíciles, entonces todo funciona". O sea... sí, claro, ¿y luego?
- Como los avances recientes en LLM han sido demasiado conservadores y la tendencia ha sido escalar tamaño sin innovación arquitectónica, este tipo de discusión sí tiene sentido
- El texto ni siquiera aborda de verdad los problemas difíciles. En la industria high-tech hay cierta mentalidad de que con suficiente ingeniería se puede resolver cualquier cosa
- El post original sí señala con claridad qué problemas existen y cómo los LLM no logran resolverlos

2025-08-27

[Este comentario fue ocultado.]

kongchu2 2025-08-27

Espero que hayan leído las pautas y que dejen comentarios acordes al tema.

AGI es un problema de ingeniería, no de entrenamiento de modelos

Introducción: el AGI es un problema de ingeniería

Límites realistas: la barrera de los LLM

Un enfoque sistémico para el AGI

1. Infraestructura de gestión de contexto

2. Memoria como servicio

3. Combinación de flujos de trabajo deterministas y componentes probabilísticos

4. Modularización de modelos especializados

Los desafíos de ingeniería del AGI

Lo que debemos construir a partir de ahora

Phase 1: capa base

Phase 2: capa de capacidades

Phase 3: capa emergente

El camino hacia el AGI

Lecturas relacionadas

6 comentarios

Opiniones de Hacker News