11 puntos por GN⁺ 2025-10-25 | 1 comentarios | Compartir por WhatsApp
  • Llion Jones, co-desarrollador de la arquitectura Transformers y quien le dio su nombre, afirmó que dejará atrás el paradigma centrado en los transformers porque “la investigación en IA se ha vuelto demasiado estrecha”
  • Presentó una autocrítica: los transformers, tecnología base de los principales sistemas de IA como ChatGPT y Claude, en realidad podrían estar frenando la próxima gran innovación
  • Advirtió que se están eligiendo solo temas seguros y la creatividad está desapareciendo, y que el sector está “más inclinado a la explotación (Exploitation) que a la exploración (Exploration)”, por lo que la industria de la IA podría estar perdiéndose innovaciones mayores
  • Criticó que, cuando nació el artículo sobre transformers, existía un entorno de experimentación libre, pero hoy ni siquiera los salarios millonarios garantizan libertad para investigar
  • En Sakana AI busca recrear una cultura de investigación centrada en la exploración libre, y subrayó que “la próxima innovación del nivel de los transformers podría estar justo al lado”

La autocrítica del creador de los transformers y una nueva declaración

  • Llion Jones, coautor del artículo de 2017 "Attention Is All You Need" y la persona que ideó directamente el nombre "transformer", criticó duramente en la conferencia TED AI de San Francisco la homogeneización de la investigación en IA
  • Fue una declaración inusual: el autor de un artículo histórico con más de 100 mil citas dijo públicamente que su propia creación “ya le da hartazgo”
  • Actualmente es CTO y cofundador de Sakana AI, con sede en Tokio
    • Señaló que “la investigación en IA está atrapada en una sola estructura” y dijo que está dedicando menos tiempo a investigar transformers y más a explorar nuevas arquitecturas
    • Subrayó que “hay más talento y más dinero que nunca en el campo de la IA, pero la investigación se está volviendo más estrecha”
    • Explicó que esto se debe a la presión de los inversionistas por obtener retornos y a la competencia feroz, lo que ha llevado a los investigadores a perder creatividad y a vivir en un entorno donde se apresuran a publicar artículos

La paradoja: más recursos, pero menos creatividad

  • Hoy los investigadores en IA deben asumir que 3 o 4 grupos están trabajando al mismo tiempo en los mismos temas, y viven revisando si otro equipo “ya se les adelantó”
  • En el ámbito académico se ha reforzado la tendencia a elegir temas seguros que se puedan publicar en vez de proyectos arriesgados pero innovadores
    • La presión competitiva hace que los artículos se envíen con prisa, lo que daña el rigor científico y reduce la creatividad
    • Los investigadores están sesgados hacia "exploitation" (explotación/aprovechamiento) y descuidan la "exploration" (exploración)
  • Si se aplica el concepto algorítmico de trade-off entre exploración y explotación, es posible que la industria de la IA esté atrapada en un óptimo local mediocre por explotar demasiado y, por eso, dejando pasar alternativas mejores
  • Así como antes de la llegada de los transformers muchos investigadores estaban enfocados en mejoras graduales de las redes neuronales recurrentes (RNN), hoy también existe el riesgo de perder una innovación inminente por concentrarse solo en variaciones de una única arquitectura

“Si los investigadores de la era previa a los transformers hubieran sabido que la siguiente innovación iba a llegar pronto, no habrían desperdiciado tanto tiempo”

El origen de los transformers: innovación nacida de la libertad

  • Jones recordó que, cuando surgió la investigación que dio origen a los transformers, todo comenzó en un ambiente libre, sin ninguna presión desde arriba
    • Dijo que “fue una idea que empezó en conversaciones a la hora del almuerzo o en garabatos en un pizarrón”
  • El equipo no tenía una idea claramente definida, pero sí contaba con tiempo suficiente y libertad, y no había ninguna presión de la dirección ligada a un proyecto específico ni a métricas de rendimiento
    • No existía exigencia de publicar cierto número de artículos ni presión por mejorar indicadores
    • Era posible explorar de forma autónoma mediante experimentación y prueba y error
  • Incluso hoy, investigadores contratados con salarios de más de 1 millón de dólares al año podrían sentir presión por demostrar su valor en lugar de intentar ideas audaces

“Eligen investigaciones seguras para demostrar que son talento valioso”

El experimento de Sakana AI: la libertad vence a la alta compensación

  • Jones está intentando recrear en Sakana AI el entorno libre de investigación de antes de los transformers
    • Persiguen investigación inspirada en la naturaleza
    • Mantienen la mínima presión posible en torno a la publicación de artículos o a competir directamente con otras empresas
  • Compartió un consejo del ingeniero Brian Cheung: "Solo deberías hacer investigación que no ocurriría si tú no la hicieras"
  • Como ejemplo concreto, presentó el proyecto de la "continuous thought machine"
    • Una investigación para integrar mecanismos de sincronización cerebral en redes neuronales
    • Mencionó que, en su trabajo anterior o en la academia, quien propuso la idea probablemente habría recibido escepticismo y presión para no “perder el tiempo”
    • En Sakana le dieron una semana para explorarla, y finalmente se convirtió en un caso exitoso que llamó la atención en la conferencia principal de NeurIPS
  • Sostuvo que un entorno exploratorio en sí mismo puede ser una herramienta poderosa para atraer talento
    • Las personas talentosas y ambiciosas naturalmente buscarán este tipo de ambiente

La paradoja del éxito de los transformers: una madurez que bloquea la innovación

  • Dijo que el éxito de los transformers es “tan poderoso que, paradójicamente, está bloqueando nuevas innovaciones
  • Analizó que “cuanto más perfecta parece la tecnología actual, menos motivación hay para buscar algo mejor”
  • Aun así, no niega el valor de investigar transformers y agregó que “todavía pueden generar valor real”
  • Sin embargo, enfatizó que “si pensamos en la enorme cantidad de recursos y talento actuales, podríamos explorar mucho más ampliamente”
  • Su conclusión fue la importancia de la colaboración y de la exploración abierta
    • “Hay que subir el dial de la exploración con colaboración, no con competencia. Solo así puede haber verdadero progreso”

Lo que implica el ‘problema de exploración’ en la industria de la IA

  • La advertencia de Jones resuena con fuerza en el momento actual, cuando se discuten los límites del escalamiento en IA y la necesidad de explorar nuevas estructuras
  • En la industria ya se está extendiendo la percepción de que solo escalar transformers está llegando a su límite
  • Investigadores destacados han comenzado a discutir públicamente las limitaciones fundamentales del paradigma actual
    • Se está expandiendo la idea de que, además del scale, hace falta innovación arquitectónica para construir sistemas de IA más avanzados
  • Mientras decenas de miles de millones de dólares al año se invierten en el desarrollo de IA y la competencia feroz entre laboratorios fortalece el secretismo y los ciclos rápidos de publicación, la investigación libre y orientada a la exploración que describe Jones se vuelve cada vez más escasa
  • La razón por la que la visión interna de Jones tiene un peso especial
    • Como alguien que ayudó a crear directamente la tecnología que hoy domina el campo, entiende bien las condiciones necesarias para lograr descubrimientos innovadores
    • Su decisión de apartarse por voluntad propia de los transformers, la base de su reputación, da credibilidad a su mensaje
  • Este es un momento decisivo: la próxima innovación del nivel de los transformers podría ser descubierta por investigadores con libertad para explorar, o podría quedar sin descubrir mientras miles de investigadores compiten por mejoras incrementales
  • En conclusión, Jones, como una de las personas que más tiempo ha investigado transformers, probablemente entiende mejor que casi nadie que ya es hora de pasar al siguiente paso

“Un avance del nivel de los transformers quizá ya está a nuestro lado, pero queda oculto por la competencia”

1 comentarios

 
GN⁺ 2025-10-25
Opiniones de Hacker News
  • A mí me parece que el transformer ha sido uno de los inventos más productivos de la historia reciente
    En apenas 8 años desde su aparición en 2017, transformó por completo varios campos e incluso contribuyó en parte a premios Nobel
    Creo que la idea esencialmente importante es la del modelo gráfico probabilístico (probabilistic graphical model). El enfoque de combinar probabilidad con secuencias, árboles y grafos seguirá teniendo mucho valor de investigación en el futuro

    • Si soy sincero, no creo que vaya a surgir un gran avance decisivo desde la arquitectura en sí
      El transformer ya es un aproximador universal (universal approximator) muy potente. Puede haber mejoras menores, pero en la práctica es difícil encontrar algo todavía más “universal”
      Más bien, creo que habría que replantear el propio auto-regressive task, la cross entropy loss y el gradient descent
    • Me pregunto qué campos fueron los que cambiaron por completo
      También tuvo impacto en mi área, pero si soy honesto, ese impacto fue casi totalmente negativo
    • Como alguien que antes usaba mucho los modelos gráficos probabilísticos, espero que mi experiencia vuelva a ser valiosa en la era del transformer
      Pero todavía no veo señales de eso. Aun así, hay esperanza
    • Yo también, en lo personal, tengo pensada una idea de modelo probabilístico de hipergrafos
      Todavía no la he organizado en un paper, pero veo movimientos en varios lugares que convergen hacia esta idea
      Ojalá el día tuviera más horas
    • De acuerdo. Creo que la inferencia causal (causal inference) y el razonamiento simbólico (symbolic reasoning) son justamente la verdadera tarea después del transformer
  • Jones, cofundador y CTO de Sakana AI, dijo que está dejando de lado el transformer para buscar “la próxima gran cosa”, pero sinceramente suena a promoción para levantar inversión

    • Le queda perfecta la frase “Attention is all he needs”
    • Aun así, si quiere hacer algo nuevo, necesita financiamiento, así que ambas cosas pueden ser ciertas
    • Los científicos, por naturaleza, siempre andan buscando cosas nuevas y creativas
    • De todos modos, sí logró que le prestáramos attention
    • Pero me pregunto, ¿qué es exactamente lo que están tratando de vender ahora?
  • Hablando medio en broma, pensé que la singularidad (singularity) llegaría en 2024, pero da la impresión de que se detuvo por el desfase entre “monetización” y “auto-mejora”
    Parece que seguiremos otros 20 años exprimiendo todo el dinero posible de los modelos transformer

    • En este momento la infraestructura de hardware y energía se está expandiendo muchísimo
      Como no es exclusiva para transformers, más bien eso podría generar incentivos para encontrar una nueva arquitectura que aproveche al máximo esa infraestructura
    • Tal vez la auto-mejora recursiva (recursive self-improvement) ya esté ocurriendo
      Solo que no es lo bastante rápida como para que los humanos la perciban
  • Para la mayoría de la gente, “AI” al final no es más que un producto de software visible
    Pero el modelo central es solo una parte, y el resto es el proceso de refinamiento con feedback humano realizado por miles de trabajadores mal pagados
    En la práctica, es 90% desarrollo de producto y apenas 10% investigación en ML
    La mayoría de los papers son investigación de carrera para conseguir un doctorado, y la investigación realmente experimental es minoritaria

  • El transformer está tan bien diseñado para encajar con la GPU que, para crear un modelo nuevo, hay que convencer incluso a los fabricantes de hardware
    Al final, hace falta una evolución simultánea de hardware y software
    Los cambios fundamentales ocurrirán en escalas de varias décadas

    • Pero eso es pensar al revés
      Los algoritmos paralelizables son intrínsecamente superiores, por eso la GPU evolucionó para adaptarse a ellos
      Los RNN son secuenciales y difíciles de paralelizar, pero el transformer eliminó ese cuello de botella
  • Siento que la investigación no basada en transformers sigue bastante activa
    Solo que se ve menos porque el dinero se está yendo a los CRM tipo chatbot
    No creo que una arquitectura nueva sea la respuesta. Más bien, lo importante es cómo mejorar la eficiencia de datos
    Ilya Sutskever también enfatizó “métodos de aprendizaje que funcionen aunque no exista todo internet”

    • Lo que decía el artículo no era “la respuesta es una arquitectura nueva”, sino que se rompió el equilibrio entre exploración y explotación
    • En realidad, la discusión sobre nuevas arquitecturas apunta al AGI
      Si queremos aprender como los humanos, tiene que ser distinto de simplemente alimentarse de datos de internet
    • La mayoría de los investigadores previos a 2017 ahora están concentrados en transformers
      El número de investigadores aumentó, pero probablemente la proporción de investigación no-transformer cayó todavía más
  • Bromean con que hay demasiados em dash (—) al final, así que parece un texto escrito por un transformer

    • La próxima moda de IA quizá sean los “disrupters
  • El transformer absorbió toda la atención y el financiamiento
    Los investigadores también fueron absorbidos por la industria del transformer
    Parece que esto seguirá así hasta que se topen con una gran limitación
    Ojalá el consumo de energía se vuelva el verdadero límite y cambie la dirección de la investigación

    • De hecho, la energía podría convertirse pronto en el cuello de botella
      xAI resolvió el suministro eléctrico instalando turbinas de gas cerca del centro de datos, pero eso causó problemas de salud a los residentes de la zona
      Creo que ese tipo de solución pronto será regulada
  • La gente tiende a obsesionarse demasiado con las nuevas innovaciones en arquitecturas de modelos
    Al final, los modelos no son más que herramientas para crear representaciones comprimidas de datos
    Aunque se logre una compresión más eficiente, eso no cambia tanto las capacidades
    Más bien, lo importante es mejorar la eficiencia del entrenamiento. El aprendizaje por refuerzo (RL) de hoy es un ejemplo de eso

    • Pero la eficiencia del entrenamiento al final está conectada con la arquitectura
      Explorar nuevas estructuras no es una obsesión excesiva, sino una forma de equilibrar exploración y explotación
  • Creo que la estructura industrial centrada en transformers quizá se formó por la conveniencia computacional de GPU/NPU
    Puede que exista una tecnología de IA mejor, pero con el hardware actual el costo computacional podría ser demasiado alto
    Nuestro cerebro no consume 500 watts, y quizá ahí haya una pista