El coautor del artículo "Attention Is All You Need" dice que ya está "harto" de los transformers
(venturebeat.com)- Llion Jones, co-desarrollador de la arquitectura Transformers y quien le dio su nombre, afirmó que dejará atrás el paradigma centrado en los transformers porque “la investigación en IA se ha vuelto demasiado estrecha”
- Presentó una autocrítica: los transformers, tecnología base de los principales sistemas de IA como ChatGPT y Claude, en realidad podrían estar frenando la próxima gran innovación
- Advirtió que se están eligiendo solo temas seguros y la creatividad está desapareciendo, y que el sector está “más inclinado a la explotación (Exploitation) que a la exploración (Exploration)”, por lo que la industria de la IA podría estar perdiéndose innovaciones mayores
- Criticó que, cuando nació el artículo sobre transformers, existía un entorno de experimentación libre, pero hoy ni siquiera los salarios millonarios garantizan libertad para investigar
- En Sakana AI busca recrear una cultura de investigación centrada en la exploración libre, y subrayó que “la próxima innovación del nivel de los transformers podría estar justo al lado”
La autocrítica del creador de los transformers y una nueva declaración
- Llion Jones, coautor del artículo de 2017 "Attention Is All You Need" y la persona que ideó directamente el nombre "transformer", criticó duramente en la conferencia TED AI de San Francisco la homogeneización de la investigación en IA
- Fue una declaración inusual: el autor de un artículo histórico con más de 100 mil citas dijo públicamente que su propia creación “ya le da hartazgo”
- Actualmente es CTO y cofundador de Sakana AI, con sede en Tokio
- Señaló que “la investigación en IA está atrapada en una sola estructura” y dijo que está dedicando menos tiempo a investigar transformers y más a explorar nuevas arquitecturas
- Subrayó que “hay más talento y más dinero que nunca en el campo de la IA, pero la investigación se está volviendo más estrecha”
- Explicó que esto se debe a la presión de los inversionistas por obtener retornos y a la competencia feroz, lo que ha llevado a los investigadores a perder creatividad y a vivir en un entorno donde se apresuran a publicar artículos
La paradoja: más recursos, pero menos creatividad
- Hoy los investigadores en IA deben asumir que 3 o 4 grupos están trabajando al mismo tiempo en los mismos temas, y viven revisando si otro equipo “ya se les adelantó”
- En el ámbito académico se ha reforzado la tendencia a elegir temas seguros que se puedan publicar en vez de proyectos arriesgados pero innovadores
- La presión competitiva hace que los artículos se envíen con prisa, lo que daña el rigor científico y reduce la creatividad
- Los investigadores están sesgados hacia "exploitation" (explotación/aprovechamiento) y descuidan la "exploration" (exploración)
- Si se aplica el concepto algorítmico de trade-off entre exploración y explotación, es posible que la industria de la IA esté atrapada en un óptimo local mediocre por explotar demasiado y, por eso, dejando pasar alternativas mejores
- Así como antes de la llegada de los transformers muchos investigadores estaban enfocados en mejoras graduales de las redes neuronales recurrentes (RNN), hoy también existe el riesgo de perder una innovación inminente por concentrarse solo en variaciones de una única arquitectura
“Si los investigadores de la era previa a los transformers hubieran sabido que la siguiente innovación iba a llegar pronto, no habrían desperdiciado tanto tiempo”
El origen de los transformers: innovación nacida de la libertad
- Jones recordó que, cuando surgió la investigación que dio origen a los transformers, todo comenzó en un ambiente libre, sin ninguna presión desde arriba
- Dijo que “fue una idea que empezó en conversaciones a la hora del almuerzo o en garabatos en un pizarrón”
- El equipo no tenía una idea claramente definida, pero sí contaba con tiempo suficiente y libertad, y no había ninguna presión de la dirección ligada a un proyecto específico ni a métricas de rendimiento
- No existía exigencia de publicar cierto número de artículos ni presión por mejorar indicadores
- Era posible explorar de forma autónoma mediante experimentación y prueba y error
- Incluso hoy, investigadores contratados con salarios de más de 1 millón de dólares al año podrían sentir presión por demostrar su valor en lugar de intentar ideas audaces
“Eligen investigaciones seguras para demostrar que son talento valioso”
El experimento de Sakana AI: la libertad vence a la alta compensación
- Jones está intentando recrear en Sakana AI el entorno libre de investigación de antes de los transformers
- Persiguen investigación inspirada en la naturaleza
- Mantienen la mínima presión posible en torno a la publicación de artículos o a competir directamente con otras empresas
- Compartió un consejo del ingeniero Brian Cheung: "Solo deberías hacer investigación que no ocurriría si tú no la hicieras"
- Como ejemplo concreto, presentó el proyecto de la "continuous thought machine"
- Una investigación para integrar mecanismos de sincronización cerebral en redes neuronales
- Mencionó que, en su trabajo anterior o en la academia, quien propuso la idea probablemente habría recibido escepticismo y presión para no “perder el tiempo”
- En Sakana le dieron una semana para explorarla, y finalmente se convirtió en un caso exitoso que llamó la atención en la conferencia principal de NeurIPS
- Sostuvo que un entorno exploratorio en sí mismo puede ser una herramienta poderosa para atraer talento
- Las personas talentosas y ambiciosas naturalmente buscarán este tipo de ambiente
La paradoja del éxito de los transformers: una madurez que bloquea la innovación
- Dijo que el éxito de los transformers es “tan poderoso que, paradójicamente, está bloqueando nuevas innovaciones”
- Analizó que “cuanto más perfecta parece la tecnología actual, menos motivación hay para buscar algo mejor”
- Aun así, no niega el valor de investigar transformers y agregó que “todavía pueden generar valor real”
- Sin embargo, enfatizó que “si pensamos en la enorme cantidad de recursos y talento actuales, podríamos explorar mucho más ampliamente”
- Su conclusión fue la importancia de la colaboración y de la exploración abierta
- “Hay que subir el dial de la exploración con colaboración, no con competencia. Solo así puede haber verdadero progreso”
Lo que implica el ‘problema de exploración’ en la industria de la IA
- La advertencia de Jones resuena con fuerza en el momento actual, cuando se discuten los límites del escalamiento en IA y la necesidad de explorar nuevas estructuras
- En la industria ya se está extendiendo la percepción de que solo escalar transformers está llegando a su límite
- Investigadores destacados han comenzado a discutir públicamente las limitaciones fundamentales del paradigma actual
- Se está expandiendo la idea de que, además del scale, hace falta innovación arquitectónica para construir sistemas de IA más avanzados
- Mientras decenas de miles de millones de dólares al año se invierten en el desarrollo de IA y la competencia feroz entre laboratorios fortalece el secretismo y los ciclos rápidos de publicación, la investigación libre y orientada a la exploración que describe Jones se vuelve cada vez más escasa
- La razón por la que la visión interna de Jones tiene un peso especial
- Como alguien que ayudó a crear directamente la tecnología que hoy domina el campo, entiende bien las condiciones necesarias para lograr descubrimientos innovadores
- Su decisión de apartarse por voluntad propia de los transformers, la base de su reputación, da credibilidad a su mensaje
- Este es un momento decisivo: la próxima innovación del nivel de los transformers podría ser descubierta por investigadores con libertad para explorar, o podría quedar sin descubrir mientras miles de investigadores compiten por mejoras incrementales
- En conclusión, Jones, como una de las personas que más tiempo ha investigado transformers, probablemente entiende mejor que casi nadie que ya es hora de pasar al siguiente paso
“Un avance del nivel de los transformers quizá ya está a nuestro lado, pero queda oculto por la competencia”
1 comentarios
Opiniones de Hacker News
A mí me parece que el transformer ha sido uno de los inventos más productivos de la historia reciente
En apenas 8 años desde su aparición en 2017, transformó por completo varios campos e incluso contribuyó en parte a premios Nobel
Creo que la idea esencialmente importante es la del modelo gráfico probabilístico (probabilistic graphical model). El enfoque de combinar probabilidad con secuencias, árboles y grafos seguirá teniendo mucho valor de investigación en el futuro
El transformer ya es un aproximador universal (universal approximator) muy potente. Puede haber mejoras menores, pero en la práctica es difícil encontrar algo todavía más “universal”
Más bien, creo que habría que replantear el propio auto-regressive task, la cross entropy loss y el gradient descent
También tuvo impacto en mi área, pero si soy honesto, ese impacto fue casi totalmente negativo
Pero todavía no veo señales de eso. Aun así, hay esperanza
Todavía no la he organizado en un paper, pero veo movimientos en varios lugares que convergen hacia esta idea
Ojalá el día tuviera más horas
Jones, cofundador y CTO de Sakana AI, dijo que está dejando de lado el transformer para buscar “la próxima gran cosa”, pero sinceramente suena a promoción para levantar inversión
Hablando medio en broma, pensé que la singularidad (singularity) llegaría en 2024, pero da la impresión de que se detuvo por el desfase entre “monetización” y “auto-mejora”
Parece que seguiremos otros 20 años exprimiendo todo el dinero posible de los modelos transformer
Como no es exclusiva para transformers, más bien eso podría generar incentivos para encontrar una nueva arquitectura que aproveche al máximo esa infraestructura
Solo que no es lo bastante rápida como para que los humanos la perciban
Para la mayoría de la gente, “AI” al final no es más que un producto de software visible
Pero el modelo central es solo una parte, y el resto es el proceso de refinamiento con feedback humano realizado por miles de trabajadores mal pagados
En la práctica, es 90% desarrollo de producto y apenas 10% investigación en ML
La mayoría de los papers son investigación de carrera para conseguir un doctorado, y la investigación realmente experimental es minoritaria
El transformer está tan bien diseñado para encajar con la GPU que, para crear un modelo nuevo, hay que convencer incluso a los fabricantes de hardware
Al final, hace falta una evolución simultánea de hardware y software
Los cambios fundamentales ocurrirán en escalas de varias décadas
Los algoritmos paralelizables son intrínsecamente superiores, por eso la GPU evolucionó para adaptarse a ellos
Los RNN son secuenciales y difíciles de paralelizar, pero el transformer eliminó ese cuello de botella
Siento que la investigación no basada en transformers sigue bastante activa
Solo que se ve menos porque el dinero se está yendo a los CRM tipo chatbot
No creo que una arquitectura nueva sea la respuesta. Más bien, lo importante es cómo mejorar la eficiencia de datos
Ilya Sutskever también enfatizó “métodos de aprendizaje que funcionen aunque no exista todo internet”
Si queremos aprender como los humanos, tiene que ser distinto de simplemente alimentarse de datos de internet
El número de investigadores aumentó, pero probablemente la proporción de investigación no-transformer cayó todavía más
Bromean con que hay demasiados em dash (—) al final, así que parece un texto escrito por un transformer
El transformer absorbió toda la atención y el financiamiento
Los investigadores también fueron absorbidos por la industria del transformer
Parece que esto seguirá así hasta que se topen con una gran limitación
Ojalá el consumo de energía se vuelva el verdadero límite y cambie la dirección de la investigación
xAI resolvió el suministro eléctrico instalando turbinas de gas cerca del centro de datos, pero eso causó problemas de salud a los residentes de la zona
Creo que ese tipo de solución pronto será regulada
La gente tiende a obsesionarse demasiado con las nuevas innovaciones en arquitecturas de modelos
Al final, los modelos no son más que herramientas para crear representaciones comprimidas de datos
Aunque se logre una compresión más eficiente, eso no cambia tanto las capacidades
Más bien, lo importante es mejorar la eficiencia del entrenamiento. El aprendizaje por refuerzo (RL) de hoy es un ejemplo de eso
Explorar nuevas estructuras no es una obsesión excesiva, sino una forma de equilibrar exploración y explotación
Creo que la estructura industrial centrada en transformers quizá se formó por la conveniencia computacional de GPU/NPU
Puede que exista una tecnología de IA mejor, pero con el hardware actual el costo computacional podría ser demasiado alto
Nuestro cerebro no consume 500 watts, y quizá ahí haya una pista