El coautor del artículo "Attention Is All You Need" dice que ya está "harto" de los transformers

(venturebeat.com)

11 puntos por GN⁺ 2025-10-25 | 1 comentarios | Compartir por WhatsApp

Llion Jones, co-desarrollador de la arquitectura Transformers y quien le dio su nombre, afirmó que dejará atrás el paradigma centrado en los transformers porque “la investigación en IA se ha vuelto demasiado estrecha”
Presentó una autocrítica: los transformers, tecnología base de los principales sistemas de IA como ChatGPT y Claude, en realidad podrían estar frenando la próxima gran innovación
Advirtió que se están eligiendo solo temas seguros y la creatividad está desapareciendo, y que el sector está “más inclinado a la explotación (Exploitation) que a la exploración (Exploration)”, por lo que la industria de la IA podría estar perdiéndose innovaciones mayores
Criticó que, cuando nació el artículo sobre transformers, existía un entorno de experimentación libre, pero hoy ni siquiera los salarios millonarios garantizan libertad para investigar
En Sakana AI busca recrear una cultura de investigación centrada en la exploración libre, y subrayó que “la próxima innovación del nivel de los transformers podría estar justo al lado”

La autocrítica del creador de los transformers y una nueva declaración

Llion Jones, coautor del artículo de 2017 "Attention Is All You Need" y la persona que ideó directamente el nombre "transformer", criticó duramente en la conferencia TED AI de San Francisco la homogeneización de la investigación en IA
Fue una declaración inusual: el autor de un artículo histórico con más de 100 mil citas dijo públicamente que su propia creación “ya le da hartazgo”
Actualmente es CTO y cofundador de Sakana AI, con sede en Tokio
- Señaló que “la investigación en IA está atrapada en una sola estructura” y dijo que está dedicando menos tiempo a investigar transformers y más a explorar nuevas arquitecturas
- Subrayó que “hay más talento y más dinero que nunca en el campo de la IA, pero la investigación se está volviendo más estrecha”
- Explicó que esto se debe a la presión de los inversionistas por obtener retornos y a la competencia feroz, lo que ha llevado a los investigadores a perder creatividad y a vivir en un entorno donde se apresuran a publicar artículos

La paradoja: más recursos, pero menos creatividad

Hoy los investigadores en IA deben asumir que 3 o 4 grupos están trabajando al mismo tiempo en los mismos temas, y viven revisando si otro equipo “ya se les adelantó”
En el ámbito académico se ha reforzado la tendencia a elegir temas seguros que se puedan publicar en vez de proyectos arriesgados pero innovadores
- La presión competitiva hace que los artículos se envíen con prisa, lo que daña el rigor científico y reduce la creatividad
- Los investigadores están sesgados hacia "exploitation" (explotación/aprovechamiento) y descuidan la "exploration" (exploración)
Si se aplica el concepto algorítmico de trade-off entre exploración y explotación, es posible que la industria de la IA esté atrapada en un óptimo local mediocre por explotar demasiado y, por eso, dejando pasar alternativas mejores
Así como antes de la llegada de los transformers muchos investigadores estaban enfocados en mejoras graduales de las redes neuronales recurrentes (RNN), hoy también existe el riesgo de perder una innovación inminente por concentrarse solo en variaciones de una única arquitectura

“Si los investigadores de la era previa a los transformers hubieran sabido que la siguiente innovación iba a llegar pronto, no habrían desperdiciado tanto tiempo”

El origen de los transformers: innovación nacida de la libertad

Jones recordó que, cuando surgió la investigación que dio origen a los transformers, todo comenzó en un ambiente libre, sin ninguna presión desde arriba
- Dijo que “fue una idea que empezó en conversaciones a la hora del almuerzo o en garabatos en un pizarrón”
El equipo no tenía una idea claramente definida, pero sí contaba con tiempo suficiente y libertad, y no había ninguna presión de la dirección ligada a un proyecto específico ni a métricas de rendimiento
- No existía exigencia de publicar cierto número de artículos ni presión por mejorar indicadores
- Era posible explorar de forma autónoma mediante experimentación y prueba y error
Incluso hoy, investigadores contratados con salarios de más de 1 millón de dólares al año podrían sentir presión por demostrar su valor en lugar de intentar ideas audaces

“Eligen investigaciones seguras para demostrar que son talento valioso”

El experimento de Sakana AI: la libertad vence a la alta compensación

Jones está intentando recrear en Sakana AI el entorno libre de investigación de antes de los transformers
- Persiguen investigación inspirada en la naturaleza
- Mantienen la mínima presión posible en torno a la publicación de artículos o a competir directamente con otras empresas
Compartió un consejo del ingeniero Brian Cheung: "Solo deberías hacer investigación que no ocurriría si tú no la hicieras"
Como ejemplo concreto, presentó el proyecto de la "continuous thought machine"
- Una investigación para integrar mecanismos de sincronización cerebral en redes neuronales
- Mencionó que, en su trabajo anterior o en la academia, quien propuso la idea probablemente habría recibido escepticismo y presión para no “perder el tiempo”
- En Sakana le dieron una semana para explorarla, y finalmente se convirtió en un caso exitoso que llamó la atención en la conferencia principal de NeurIPS
Sostuvo que un entorno exploratorio en sí mismo puede ser una herramienta poderosa para atraer talento
- Las personas talentosas y ambiciosas naturalmente buscarán este tipo de ambiente

La paradoja del éxito de los transformers: una madurez que bloquea la innovación

Dijo que el éxito de los transformers es “tan poderoso que, paradójicamente, está bloqueando nuevas innovaciones”
Analizó que “cuanto más perfecta parece la tecnología actual, menos motivación hay para buscar algo mejor”
Aun así, no niega el valor de investigar transformers y agregó que “todavía pueden generar valor real”
Sin embargo, enfatizó que “si pensamos en la enorme cantidad de recursos y talento actuales, podríamos explorar mucho más ampliamente”
Su conclusión fue la importancia de la colaboración y de la exploración abierta
- “Hay que subir el dial de la exploración con colaboración, no con competencia. Solo así puede haber verdadero progreso”

Lo que implica el ‘problema de exploración’ en la industria de la IA

La advertencia de Jones resuena con fuerza en el momento actual, cuando se discuten los límites del escalamiento en IA y la necesidad de explorar nuevas estructuras
En la industria ya se está extendiendo la percepción de que solo escalar transformers está llegando a su límite
Investigadores destacados han comenzado a discutir públicamente las limitaciones fundamentales del paradigma actual
- Se está expandiendo la idea de que, además del scale, hace falta innovación arquitectónica para construir sistemas de IA más avanzados
Mientras decenas de miles de millones de dólares al año se invierten en el desarrollo de IA y la competencia feroz entre laboratorios fortalece el secretismo y los ciclos rápidos de publicación, la investigación libre y orientada a la exploración que describe Jones se vuelve cada vez más escasa
La razón por la que la visión interna de Jones tiene un peso especial
- Como alguien que ayudó a crear directamente la tecnología que hoy domina el campo, entiende bien las condiciones necesarias para lograr descubrimientos innovadores
- Su decisión de apartarse por voluntad propia de los transformers, la base de su reputación, da credibilidad a su mensaje
Este es un momento decisivo: la próxima innovación del nivel de los transformers podría ser descubierta por investigadores con libertad para explorar, o podría quedar sin descubrir mientras miles de investigadores compiten por mejoras incrementales
En conclusión, Jones, como una de las personas que más tiempo ha investigado transformers, probablemente entiende mejor que casi nadie que ya es hora de pasar al siguiente paso

“Un avance del nivel de los transformers quizá ya está a nuestro lado, pero queda oculto por la competencia”

1 comentarios

GN⁺ 2025-10-25

Opiniones de Hacker News

A mí me parece que el transformer ha sido uno de los inventos más productivos de la historia reciente
En apenas 8 años desde su aparición en 2017, transformó por completo varios campos e incluso contribuyó en parte a premios Nobel
Creo que la idea esencialmente importante es la del modelo gráfico probabilístico (probabilistic graphical model). El enfoque de combinar probabilidad con secuencias, árboles y grafos seguirá teniendo mucho valor de investigación en el futuro
- Si soy sincero, no creo que vaya a surgir un gran avance decisivo desde la arquitectura en sí
  El transformer ya es un aproximador universal (universal approximator) muy potente. Puede haber mejoras menores, pero en la práctica es difícil encontrar algo todavía más “universal”
  Más bien, creo que habría que replantear el propio auto-regressive task, la cross entropy loss y el gradient descent
- Me pregunto qué campos fueron los que cambiaron por completo
  También tuvo impacto en mi área, pero si soy honesto, ese impacto fue casi totalmente negativo
- Como alguien que antes usaba mucho los modelos gráficos probabilísticos, espero que mi experiencia vuelva a ser valiosa en la era del transformer
  Pero todavía no veo señales de eso. Aun así, hay esperanza
- Yo también, en lo personal, tengo pensada una idea de modelo probabilístico de hipergrafos
  Todavía no la he organizado en un paper, pero veo movimientos en varios lugares que convergen hacia esta idea
  Ojalá el día tuviera más horas
- De acuerdo. Creo que la inferencia causal (causal inference) y el razonamiento simbólico (symbolic reasoning) son justamente la verdadera tarea después del transformer
Jones, cofundador y CTO de Sakana AI, dijo que está dejando de lado el transformer para buscar “la próxima gran cosa”, pero sinceramente suena a promoción para levantar inversión
- Le queda perfecta la frase “Attention is all he needs”
- Aun así, si quiere hacer algo nuevo, necesita financiamiento, así que ambas cosas pueden ser ciertas
- Los científicos, por naturaleza, siempre andan buscando cosas nuevas y creativas
- De todos modos, sí logró que le prestáramos attention
- Pero me pregunto, ¿qué es exactamente lo que están tratando de vender ahora?
Hablando medio en broma, pensé que la singularidad (singularity) llegaría en 2024, pero da la impresión de que se detuvo por el desfase entre “monetización” y “auto-mejora”
Parece que seguiremos otros 20 años exprimiendo todo el dinero posible de los modelos transformer
- En este momento la infraestructura de hardware y energía se está expandiendo muchísimo
  Como no es exclusiva para transformers, más bien eso podría generar incentivos para encontrar una nueva arquitectura que aproveche al máximo esa infraestructura
- Tal vez la auto-mejora recursiva (recursive self-improvement) ya esté ocurriendo
  Solo que no es lo bastante rápida como para que los humanos la perciban
Para la mayoría de la gente, “AI” al final no es más que un producto de software visible
Pero el modelo central es solo una parte, y el resto es el proceso de refinamiento con feedback humano realizado por miles de trabajadores mal pagados
En la práctica, es 90% desarrollo de producto y apenas 10% investigación en ML
La mayoría de los papers son investigación de carrera para conseguir un doctorado, y la investigación realmente experimental es minoritaria
El transformer está tan bien diseñado para encajar con la GPU que, para crear un modelo nuevo, hay que convencer incluso a los fabricantes de hardware
Al final, hace falta una evolución simultánea de hardware y software
Los cambios fundamentales ocurrirán en escalas de varias décadas
- Pero eso es pensar al revés
  Los algoritmos paralelizables son intrínsecamente superiores, por eso la GPU evolucionó para adaptarse a ellos
  Los RNN son secuenciales y difíciles de paralelizar, pero el transformer eliminó ese cuello de botella
Siento que la investigación no basada en transformers sigue bastante activa
Solo que se ve menos porque el dinero se está yendo a los CRM tipo chatbot
No creo que una arquitectura nueva sea la respuesta. Más bien, lo importante es cómo mejorar la eficiencia de datos
Ilya Sutskever también enfatizó “métodos de aprendizaje que funcionen aunque no exista todo internet”
- Lo que decía el artículo no era “la respuesta es una arquitectura nueva”, sino que se rompió el equilibrio entre exploración y explotación
- En realidad, la discusión sobre nuevas arquitecturas apunta al AGI
  Si queremos aprender como los humanos, tiene que ser distinto de simplemente alimentarse de datos de internet
- La mayoría de los investigadores previos a 2017 ahora están concentrados en transformers
  El número de investigadores aumentó, pero probablemente la proporción de investigación no-transformer cayó todavía más
Bromean con que hay demasiados em dash (—) al final, así que parece un texto escrito por un transformer
- La próxima moda de IA quizá sean los “disrupters”
El transformer absorbió toda la atención y el financiamiento
Los investigadores también fueron absorbidos por la industria del transformer
Parece que esto seguirá así hasta que se topen con una gran limitación
Ojalá el consumo de energía se vuelva el verdadero límite y cambie la dirección de la investigación
- De hecho, la energía podría convertirse pronto en el cuello de botella
  xAI resolvió el suministro eléctrico instalando turbinas de gas cerca del centro de datos, pero eso causó problemas de salud a los residentes de la zona
  Creo que ese tipo de solución pronto será regulada
La gente tiende a obsesionarse demasiado con las nuevas innovaciones en arquitecturas de modelos
Al final, los modelos no son más que herramientas para crear representaciones comprimidas de datos
Aunque se logre una compresión más eficiente, eso no cambia tanto las capacidades
Más bien, lo importante es mejorar la eficiencia del entrenamiento. El aprendizaje por refuerzo (RL) de hoy es un ejemplo de eso
- Pero la eficiencia del entrenamiento al final está conectada con la arquitectura
  Explorar nuevas estructuras no es una obsesión excesiva, sino una forma de equilibrar exploración y explotación
Creo que la estructura industrial centrada en transformers quizá se formó por la conveniencia computacional de GPU/NPU
Puede que exista una tecnología de IA mejor, pero con el hardware actual el costo computacional podría ser demasiado alto
Nuestro cerebro no consume 500 watts, y quizá ahí haya una pista

El coautor del artículo "Attention Is All You Need" dice que ya está "harto" de los transformers

La autocrítica del creador de los transformers y una nueva declaración

La paradoja: más recursos, pero menos creatividad

El origen de los transformers: innovación nacida de la libertad

El experimento de Sakana AI: la libertad vence a la alta compensación

La paradoja del éxito de los transformers: una madurez que bloquea la innovación

Lo que implica el ‘problema de exploración’ en la industria de la IA

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News