Los empleados de Google que crearon el transformer

(wired.com)

2 puntos por GN⁺ 2024-03-21 | 1 comentarios | Compartir por WhatsApp

En 2017, “Attention Is All You Need” de 8 investigadores de Google movió el procesamiento del lenguaje desde modelos secuenciales hacia la arquitectura transformer, convirtiéndose en la base de la IA generativa
Jakob Uszkoreit vio que los LSTM tendían a perder pistas de contexto al final de textos largos y empujó como alternativa el self-attention, que consulta toda la oración al mismo tiempo
Cuando se sumaron Illia Polosukhin, Ashish Vaswani, Niki Parmar, Llion Jones, Łukasz Kaiser, Aidan Gomez y Noam Shazeer, los experimentos de traducción crecieron, y tras la implementación de Shazeer el modelo Big rompió el récord de traducción de English-to-German
El paper se envió el 19 de mayo de 2017, justo antes del cierre de NeurIPS; tras reseñas divididas, recibió gran atención en la sesión de pósters de diciembre, y Google presentó una patente provisional con fines defensivos
Los 8 autores ya dejaron Google, y salvo Near, empresas como Character AI, Sakana AI, Essential AI, Cohere e Inceptive crecieron sobre la base de la tecnología transformer

El cambio que provocó “Attention Is All You Need”

“Attention Is All You Need” es un paper escrito por investigadores de Google en la primavera de 2017
- Los 8 autores pusieron un asterisco junto a cada nombre y añadieron las notas “Equal contributor” y “Listing order is random” para no fijar un orden de contribuciones
Este paper expandió la IA basada en neural networks hacia la arquitectura transformer, que se convirtió en la estructura central de productos de IA generativa como ChatGPT, Dall-E y Midjourney
Geoffrey Hinton dijo que sin el transformer no habríamos llegado a la situación actual
- Se refería a la tendencia de OpenAI y otras empresas a construir sistemas que compiten con la producción humana o incluso la superan en algunos casos
Los 8 autores del paper ya dejaron Google y hoy todos trabajan en temas relacionados con sistemas impulsados por la arquitectura que crearon en 2017

El origen de la idea de self-attention

El punto de partida del transformer fue la idea de self-attention de Jakob Uszkoreit
- Trabajaba en el grupo de Google Translate y luego se unió en 2012 a un equipo que construía sistemas para responder directamente preguntas de usuarios en la página de búsqueda de Google
- En ese momento Google prestó más atención a esta área porque veía a Siri de Apple como una posible amenaza para el tráfico de búsqueda
En ese entonces los modelos de lenguaje dependían de recurrent neural networks y LSTM, pero tenían límites para procesar textos largos
- En la oración de ejemplo Joe is a baseball player... got two hits, para entender “two hits” hay que recordar la información previa sobre baseball
- Los LSTM permitían manejar secuencias de texto más grandes y complejas, pero seguían procesando palabras de forma secuencial y podían perder pistas de contexto posteriores
Uszkoreit concibió self-attention alrededor de 2014
- self-attention puede consultar todas las demás posiciones dentro de la oración al traducir una palabra
- En vez de mirar palabras una por una, usa un enfoque paralelo que encajaba bien con los chips de procesamiento paralelo producidos en masa durante el boom del machine learning
Como era un enfoque que descartaba la neural architecture existente, la reacción fue escéptica
- Incluso su padre, Hans Uszkoreit, no compartía esa visión en conversaciones en la mesa familiar
- Uszkoreit hizo pequeños experimentos de texto con colegas y publicó un paper en 2016, pero sus colaboradores de entonces estaban más interesados en aplicarlo a Google Search y publicidad

La unión fortuita y la formación del equipo “transformer”

En 2016, durante un almuerzo en una cafetería de Google, Uszkoreit le propuso self-attention a Illia Polosukhin
- Polosukhin pensaba que para dar respuestas directas en Google.com hacía falta un sistema barato, potente y con respuesta en milisegundos
- Colaboró con Ashish Vaswani, quien se unió a la idea de self-attention mientras buscaba un proyecto grande en Google Brain
Los tres crearon un documento de diseño titulado “Transformers: Iterative Self-Attention and Processing for Various Tasks”
- El nombre “transformers” se usó desde el inicio, con la idea de un mecanismo que transforma la información de entrada para extraer un nivel de comprensión parecido al humano, o al menos dar esa impresión
- Uszkoreit también lo vinculaba al recuerdo de haber jugado de niño con los juguetes Transformer de Hasbro
Después se sumaron Niki Parmar y Llion Jones
- Parmar entró a Google después de obtener una maestría en USC y trabajó con Uszkoreit en variantes de modelos para mejorar Google Search
- Jones estaba en Google Research bajo la supervisión de Polosukhin y se unió al equipo transformer tras escuchar sobre self-attention por parte de su colega Mat Kelcey
También participaron Łukasz Kaiser, de Google Brain, y el pasante Aidan Gomez
- Gomez se integró al grupo de machine learning de la University of Toronto, donde estaba el laboratorio de Geoffrey Hinton, y consiguió la pasantía tras enviarle a Kaiser ideas para ampliar un paper relacionado
- Kaiser y Gomez discutieron si debían fusionar su proyecto con el de self-attention y decidieron hacerlo

El experimento que rompió récords y el envío al filo del cierre

El equipo usó el modelo de self-attention para traducción automática y midió su desempeño con el benchmark BLEU
- Los modelos iniciales estaban al nivel de las alternativas basadas en LSTM, pero no eran mejores
- La calidad de la implementación subió mucho cuando Noam Shazeer escuchó del proyecto por casualidad y se sumó
Shazeer reimplementó directamente el código del equipo transformer
- Le incomodaban las recurrent neural networks existentes y participó con la idea de reemplazarlas
- Los miembros del equipo describieron su implementación con palabras como “magic”, “alchemy” y “bells and whistles”, y Uszkoreit creía que mecanismos intuitivos como self-attention necesitaban a unos pocos implementadores muy experimentados para cobrar vida
Antes del cierre de envío de NeurIPS del 19 de mayo de 2017, el ritmo de los experimentos se aceleró
- El equipo probó un modelo transformer base entrenado por 12 horas y un modelo Big más potente entrenado por tres días y medio
- En traducción English-to-German, el modelo base superó a todos los competidores, y Big logró una puntuación BLEU que rompió claramente el récord anterior, además de ser más eficiente computacionalmente
Durante las dos semanas finales antes del cierre, el equipo trabajó intensamente en el Building 1965
- Hicieron ablation para quitar o reemplazar módulos y técnicas y verificar cuáles eran realmente necesarios
- Corrigieron bugs, incluido un problema causado por no aplicar bien el masking, y la configuración actual del transformer se fue definiendo en ese proceso rápido de iteración experimental
El título fue propuesto por Llion Jones pensando en “All You Need Is Love” de The Beatles: “Attention Is All You Need”
- Los resultados English-French llegaron 5 minutos antes del envío, y el paper se mandó con 2 minutos restantes
- Google presentó rápidamente una patente provisional para su portafolio defensivo de patentes

Google, OpenAI y el camino posterior de los 8 autores

Las reseñas de NeurIPS estuvieron divididas: una positiva, una muy positiva y una de “está bien”, y el paper fue aceptado para una sesión de pósters nocturna
- La sesión de 4 horas del 6 de diciembre de 2017 estuvo llena de científicos que querían saber más
- Incluso a las 10:30 de la noche, hora de cierre de la sesión, todavía quedaba gente y los guardias de seguridad tuvieron que pedirles que se retiraran
- Para Uszkoreit, fue especialmente satisfactorio que Sepp Hochreiter, coinventor del LSTM, se acercara a elogiar el trabajo
El transformer no dominó de inmediato ni dentro de Google ni en el resto del mundo
- Cerca de la publicación del paper, Shazeer propuso a la dirección de Google tirar todo el índice de búsqueda y entrenar una red gigante basada en transformer
- Incluso Kaiser veía esa idea como algo absurdo en ese momento
- OpenAI se movió más rápido, y después de que Ilya Sutskever le sugirió a Alec Radford trabajar sobre la idea, apareció el primer producto GPT
Google empezó a integrar transformers en sus productos desde 2018
- La primera aplicación fue su herramienta de traducción
- Ese mismo año lanzó el modelo de lenguaje basado en transformer BERT, y al año siguiente empezó a aplicarlo a Search
- Sobre por qué no lanzó antes un gran modelo de lenguaje como ChatGPT, Sundar Pichai dijo que Google pudo hacer más después de que otros mostraron cómo funcionaba
Los 8 autores del paper ya dejaron Google
- Noam Shazeer cofundó Character AI, con una valuación estimada de 5 mil millones de dólares
- Llion Jones cofundó Sakana AI, con sede en Tokio y una valuación de 200 millones de dólares
- Inceptive, de Jakob Uszkoreit, es una empresa biotecnológica valuada en 300 millones de dólares
- Near, de Illia Polosukhin, creó una blockchain con un token de capitalización bursátil cercana a los 4 mil millones de dólares
- Niki Parmar y Ashish Vaswani iniciaron Adept en 2021 y luego fundaron Essential AI, que recibió una inversión de 8 millones de dólares
- Aidan Gomez cofundó Cohere en Toronto en 2019, con una valuación estimada de 2.2 mil millones de dólares
- Łukasz Kaiser no fundó una empresa y se unió a OpenAI, donde es uno de los inventores de una nueva tecnología llamada Q*
Salvo Near, las empresas de todos ellos se basan en tecnología transformer
- Google creó un entorno donde se podían perseguir ideas no convencionales, y todos los autores trabajaban en la misma oficina
- Los encuentros en los pasillos y las conversaciones a la hora del almuerzo fueron detonantes importantes
- Seis de los ocho nacieron fuera de Estados Unidos, y los otros dos también tenían trayectorias marcadas por la migración: uno nació cuando sus padres alemanes estaban temporalmente en California y el otro es un estadounidense de primera generación de una familia que huyó de la persecución
- Uszkoreit cree que la innovación surge cuando coinciden las condiciones correctas, las personas adecuadas en el momento justo, la diversión, el problema correcto y la suerte

1 comentarios

GN⁺ 2024-03-21

Comentarios de Hacker News

Más que un modelo de atención, la atención ya existía desde antes de esos papers
Lo que hicieron se parece más a demostrar que eso por sí solo bastaba para predecir la siguiente secuencia de palabras en cierto contexto. Cuando usé un framework parecido en 2018, salieron comportamientos muy extraños pero interesantes, e intenté resolverlos, pero no vi —como sí lo hicieron otros grupos— que era mejor escalar la capacidad de cómputo con un algoritmo simple. Me molesta que se diga que un grupo descubrió y transformó la IA ignorando a los demás. Estos investigadores merecen elogios, pero más que inventar la IA moderna, la hicieron avanzar de una forma interesante. Incluso ahora hay corrientes que quieren volver a enfoques más deterministas, modelos del mundo, memoria, grafos y minimización de energía; lo generativo es divertido y hemos aprendido mucho, pero todavía no se ha demostrado en papers que solo seguir metiendo más chips vaya a resolver AGI/SGI
- Esta es una interpretación demasiado dura y extrañamente despectiva. Supongo que por eso encaja perfecto en HN
  El impresionante estado del arte actual no existiría sin la arquitectura Transformer. Si Transformer solo hubiera sido un pasajero afortunado beneficiado por la escala de cómputo, la app que sacudió al mundo no habría sido ChatGPT sino ChatMLP o ChatCNN. Pero no fue así, y en 2024 no existe una arquitectura realmente competitiva en procesamiento de lenguaje natural. Transformer es una idea profundamente brillante y sorprendente, con propiedades excelentes como el paralelismo en entrenamiento. En retrospectiva es fácil minimizar GPT como si fuera mayormente una idea derivada, y algún día se aplicará el mismo revisionismo a algo como los modelos de espacio de estados que reemplacen a Transformer. Claro que GPT se construyó sobre investigación previa y que otros enfoques también merecen reconocimiento. Así funciona la ciencia. Pero quienes crearon Transformer merecen los elogios que reciben en este artículo, y eso no implica menospreciar a todos los demás. Estas 8 personas cambiaron el mundo y sinceramente merecen ser queridas
- Parece otra vez una muestra de la lección amarga de que es mejor escalar la capacidad de cómputo con un algoritmo simple
  http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Sí creo que claramente cambiaron la IA, pero no diría que inventaron la IA moderna
  Personalmente, creo que para acercarnos a la AGI harán falta tanto capacidad de cómputo como arquitectura de redes neuronales
- Estudio neurociencia, pero también me interesa mucho cómo funciona la IA
  He leído sobre enfoques anteriores, pero expresiones como grafos de memoria o minimización de energía me resultan nuevas. Me pregunto si alguien tiene papers o textos recientes que recomiende para quien quiera aprender más
- Si el artículo hubiera sido sobre “los ingenieros de Google que hicieron avanzar gradualmente la IA”, probablemente no habría vendido tantos anuncios
En lo que fue la época dorada de Google, por ahí de 2014, hablé una vez sobre el papel del equipo de procesamiento de lenguaje natural de Uszkoreit en ese entonces
Le pregunté “¿qué harías si tuvieras presupuesto ilimitado?” y simplemente respondió: “ya lo tengo”
- Cuando era intern de doctorado compartí oficina con Uszkoreit, y siempre me pareció genial que hubiera abandonado el doctorado
- Buena historia, pero la época dorada de Google probablemente fue unos 10 años antes. Para 2014 el declive ya había empezado
- Trabajé en Borg
  El sistema de cuotas puede activarse en cualquier momento cuando se llega al límite, y las GPU están repartidas entre varias celdas de Borg, así que el tope es limitado. Por eso se creó XBorg, para que los investigadores pudieran buscar globalmente en todas las celdas de Borg. El gasto de capital en centros de datos es de unos 5 mil millones de dólares al año, y Google genera cientos de miles de millones de dólares en ingresos anuales. Preguntar por la situación imposible de un presupuesto ilimitado se parece a preguntar “¿qué harías después de morir?”. Después de morir literalmente no puedes hacer nada. En ese contexto también me costaba entender qué significaba “ya lo tengo”, y mi reacción directa a la idea de asumir que se tenía presupuesto ilimitado fue esta
- Eran tiempos interesantes. Qué gusto volver a ver esto después de tanto tiempo, y viendo lo que hacíamos entonces, impresiona lo lejos que ha llegado la tecnología
“En términos realistas, GPT-3, o quizá incluso GPT-3.5, podría haber salido en 2019, tal vez en 2020. La gran pregunta no es si lo vieron, sino por qué, después de verlo, no hicimos nada. La respuesta es complicada”
La respuesta es que los monopolios sofocan la innovación tecnológica. El negocio ya establecido de búsqueda financiada por publicidad podía perder ingresos publicitarios por búsquedas frente a chatbots emergentes. Es parecido a cuando una eléctrica, plantas de gas y productores de shale gas están ligados en un consorcio propiedad de inversionistas. ¿Querría el sector eléctrico instalar paneles solares masivamente para cortar las ventas de gas natural que se venden a las utilities? Claro que no. Eso da una buena base para aplicar a Alphabet una división antimonopolio al estilo Ma Bell
- Un ejemplo mejor es Kodak, que inventó la primera cámara digital en 1975 y luego mató el proyecto porque amenazaba su negocio de película química
- Yo conocía los detalles de este asunto. Sundar bloqueó que el equipo NEMA, que había creado un producto al nivel de GPT-3 en forma de personaje, lo presentara en I/O
  Sundar le tenía miedo a esa tecnología y a la reacción del público, y quiso enterrarla
- Por el contrario, el hecho de que Alphabet no pudiera lanzar GPT-3 o GPT-3.5 podría significar que existe la posibilidad de que se autointerrumpa, así que quizá no hagan falta medidas antimonopolio
- Sinceramente, esta es una de las razones por las que creo que dentro de 10 años Google ya no será una empresa dominante
  Buscar información en la web resolvió muchas cosas útiles, pero ahora la mayoría de eso lo hacen mejor ChatGPT, Claude y otros. Gemini existe, sí, pero ¿podrá Google perder ingresos por anuncios de búsqueda en sus productos actuales mientras algún día logra ganar dinero con búsqueda en Gemini? Todavía no se ha resuelto cómo meter publicidad en una interfaz de modelos de lenguaje a gran escala. A veces Google se siente como un periódico anticuado de la era de internet. Al modelo de publicidad web también le tomó tiempo asentarse
Es bastante extraño que Google no sea el OpenAI de hoy. Tenían a DeepMind y un ejército de doctores desde temprano
- La manera de chatear con modelos de lenguaje a gran escala altera de forma extrema el modelo de negocio de Google, y era difícil convertir eso en un producto sin matar a la gallina de los huevos de oro
- Al final, lo veo como prueba de que el timing lo es todo
  El deep learning de los 2010 todavía estaba aprendiendo a aprovechar las GPU. La escala de cómputo necesaria después de GPT-2 probablemente era casi imposible en 2017/2018. Incluso en los cursos de Udacity se usaban GPU K80 por unas cuantas horas. Recién hacia 2020 se volvió posible meter cantidades absurdas de recursos de cómputo para poner a prueba la hipótesis de escala. El auge de los modelos de lenguaje a gran escala también es una historia del avance de las GPU tanto como de los algoritmos, y eso es una prueba muy clara de una lección amarga
- Hace falta explicar mejor qué es el OpenAI de hoy. Google es una empresa de billones de dólares con negocios diversos, y OpenAI es una compañía que vende acceso a grandes modelos generativos
- Para convertirse en OpenAI, Google tendría que caer bastante
- Antes de que Microsoft se metiera, dentro de la comunidad de IA había hasta cierto punto una regla implícita de colaborar abiertamente, pero sin publicar ciertos modelos al público
Esta conversación entre Geoffrey Hinton y Fei-Fei Li cubre bastante de la historia relacionada. Dura 1 hora y 50 minutos
https://www.youtube.com/watch?v=QWWgr2rN45o
https://www.youtube.com/watch?v=E14IsFbAbpI
Habla de la trayectoria de investigación de Hinton, de por qué fue en esa dirección, y también del esfuerzo que Li puso en ImageNet
“No solo todos los autores eran empleados de Google, sino que trabajaban en la misma oficina”
Suena como una promoción medio disimulada del regreso a la oficina. Probablemente la mejor técnica para innovar sea una mezcla de colaboración presencial y tiempo de concentración profunda sin interrupciones
- El “tiempo de concentración profunda sin interrupciones” normalmente es imposible en una oficina
  Por eso, en la práctica, esto se parece más a un modelo híbrido, y toda la gente razonable dice eso mismo
- Después de trabajar remoto los últimos 2 años, volví a la oficina con un equipo nuevo y, la verdad, cuando quiero terminar algo rápido, me cambia la vida
- Ni siquiera está tan disimulado
- “Oficina” no tiene por qué significar open office
  Hay una razón por la que la gente en la academia tiene oficinas privadas con puerta. Odio de verdad las oficinas abiertas, pero una oficina privada dentro de un edificio con más gente es excelente
“6 de las 8 personas nacieron fuera de Estados Unidos, y las otras 2 son, respectivamente, hija de padres alemanes residentes permanentes que estaban temporalmente en California y un estadounidense de primera generación con una familia que llegó huyendo de la persecución”
Creo que Estados Unidos tiene muchas cosas que arreglar, pero no hay otro país en la Tierra donde algo así sea posible que no sea Estados Unidos. Eso es un hecho
- No lo veo así. Más bien, Estados Unidos les complica muchísimo la vida incluso a los inmigrantes laborales altamente calificados
  También hay muchos países, como Singapur, Australia, Alemania y Canadá, con una proporción de residentes nacidos en el extranjero mayor que la de Estados Unidos. Cuando trabajaba en Google UK, mi equipo estaba compuesto al 100% por ingenieros nacidos en el extranjero de todos los continentes
- De acuerdo. Habiendo vivido o trabajado en Asia, Europa y Estados Unidos, los grupos de colegas más diversos que he visto siempre estuvieron en Estados Unidos
Es bastante genial que los empleados de Google puedan ver en cs/ la primera implementación de Transformer y los comentarios de los revisores
Hay muchísimos momentos monumentales de la historia de la IA guardados así en la intranet de Google
Es una parte que llama la atención
“6 de las 8 personas nacieron fuera de Estados Unidos, y las otras 2 son, respectivamente, hija de padres alemanes residentes permanentes que estaban temporalmente en California y un estadounidense de primera generación con una familia que llegó huyendo de la persecución”
- Aún más interesante es que solo una de ellas estudió en una universidad de pregrado de élite de Estados Unidos, Duke
  Las demás vienen de pregrados en India, Ucrania, Alemania y Canadá, y la University of Toronto tiene una tasa de aceptación del 43%
- No entiendo por qué eso llamaría la atención, sobre todo en Estados Unidos
  Si fuera un país menos acogedor con los inmigrantes que Estados Unidos, como China o Japón, podría ser una observación interesante
- Exacto. Esta es una de las características realmente admirables de Estados Unidos, y en particular de California
  California es una de las economías más grandes del mundo porque atrae y acoge a personas de casi todas las regiones del planeta

Los empleados de Google que crearon el transformer

El cambio que provocó “Attention Is All You Need”

El origen de la idea de self-attention

La unión fortuita y la formación del equipo “transformer”

El experimento que rompió récords y el envío al filo del cierre

Google, OpenAI y el camino posterior de los 8 autores

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News