Richard Sutton y Andrew Barto ganan el Premio Turing 2024

(awards.acm.org)

1 puntos por GN⁺ 2025-03-06 | 1 comentarios | Compartir por WhatsApp

ACM seleccionó a Andrew G. Barto y Richard S. Sutton como ganadores del ACM A.M. Turing Award 2024 por sentar las bases conceptuales y algorítmicas del aprendizaje por refuerzo
Desde la década de 1980, ambos formalizaron el aprendizaje basado en recompensas como un marco general de problemas y desarrollaron enfoques que funcionan incluso cuando se desconocen el entorno y las recompensas
Sus contribuciones clave dieron lugar al aprendizaje por diferencia temporal, métodos de gradiente de política, representación de funciones basada en redes neuronales y diseños de agentes que combinan aprendizaje y planificación
El libro de texto de 1998 Reinforcement Learning: An Introduction ha sido citado más de 75,000 veces e influyó en AlphaGo, el RLHF de ChatGPT, la manipulación robótica, el control de congestión en redes, el diseño de chips y más
El Premio Turing, respaldado por Google, incluye una dotación de 1 millón de dólares, y ACM considera que el aprendizaje por refuerzo ha contribuido tanto al avance de la IA como a la comprensión del funcionamiento del cerebro

Los ganadores y los motivos de la selección

ACM seleccionó a Andrew G. Barto y Richard S. Sutton como ganadores del ACM A.M. Turing Award 2024
El motivo de la selección fue su contribución al desarrollo de las bases conceptuales y algorítmicas del aprendizaje por refuerzo
Desde la década de 1980, ambos introdujeron en sus artículos las ideas centrales del aprendizaje por refuerzo y construyeron sus fundamentos matemáticos y principales algoritmos
Barto es profesor emérito de Information and Computer Sciences en la University of Massachusetts, Amherst
Sutton es profesor de Ciencias de la Computación en la University of Alberta, científico investigador en Keen Technologies y fellow de Amii (Alberta Machine Intelligence Institute)
El ACM A.M. Turing Award es conocido como el “Premio Nobel de la computación” y, con apoyo financiero de Google, Inc., otorga una dotación de 1 millón de dólares

El problema que resuelve el aprendizaje por refuerzo

La inteligencia artificial es, en general, el campo dedicado a crear agentes que perciben un entorno y actúan en él
Un agente más inteligente debe elegir mejores cursos de acción, y el juicio sobre qué acciones son mejores que otras está en el centro de la IA
Recompensa (reward) es un término proveniente de la psicología y la neurociencia, y se refiere a una señal que se entrega en relación con la calidad de las acciones de un agente
El aprendizaje por refuerzo es el proceso de aprender, a partir de esa señal de recompensa, cómo actuar con más éxito
En su artículo de 1950 “Computing Machinery and Intelligence”, Alan Turing abordó la pregunta “¿pueden pensar las máquinas?” y propuso un enfoque de aprendizaje automático basado en recompensas y castigos
A fines de la década de 1950, Arthur Samuel desarrolló un programa de damas que aprendía jugando contra sí mismo, pero durante las décadas siguientes hubo muy pocos avances importantes en esta línea de IA

Contribuciones técnicas de Barto y Sutton

A comienzos de la década de 1980, Barto y Sutton, entonces estudiante de doctorado, comenzaron a formalizar el aprendizaje por refuerzo como un marco general de problemas, motivados por observaciones de la psicología
Ambos utilizaron los fundamentos matemáticos de los procesos de decisión de Markov (MDP)
- En un MDP, un agente toma decisiones en un entorno probabilístico
- Después de cada transición recibe una señal de recompensa, y su objetivo es maximizar la recompensa acumulada a largo plazo
La teoría estándar de MDP supone que toda la información es conocida por el agente, pero el marco de aprendizaje por refuerzo también aborda situaciones en las que se desconocen el entorno y las recompensas
Debido a sus bajos requerimientos de información y a la generalidad del marco MDP, el aprendizaje por refuerzo puede aplicarse a una amplia variedad de problemas
A través de investigaciones conjuntas y colaboraciones posteriores, Barto y Sutton desarrollaron varios enfoques algorítmicos fundamentales del aprendizaje por refuerzo
- Su contribución más importante fue el aprendizaje por diferencia temporal (temporal difference learning), que permitió grandes avances en la resolución del problema de predicción de recompensas
- Los métodos de gradiente de política (policy-gradient methods) también forman parte de sus enfoques principales
- Desarrollaron enfoques que usan redes neuronales como herramientas para representar funciones aprendidas
- También propusieron diseños de agentes que combinan aprendizaje y planificación, adquiriendo conocimiento del entorno para usarlo como base de la planificación

Impacto del libro de texto y camino hacia el aprendizaje por refuerzo profundo

El libro de texto de 1998 Reinforcement Learning: An Introduction sigue siendo una referencia estándar del campo y ha sido citado más de 75,000 veces
Este libro ayudó a miles de investigadores a comprender y contribuir al aprendizaje por refuerzo, que entonces era un campo emergente, y continúa influyendo en la actividad de investigación en ciencias de la computación actual
Aunque los algoritmos de Barto y Sutton fueron desarrollados hace décadas, en los últimos 15 años se han combinado algoritmos de aprendizaje por refuerzo y aprendizaje profundo, lo que produjo grandes avances en aplicaciones reales
Esta combinación dio lugar a las técnicas de aprendizaje por refuerzo profundo (deep reinforcement learning)
Los algoritmos de aprendizaje profundo se presentan como un campo impulsado por Bengio, Hinton y LeCun, ganadores del Premio Turing 2018

Casos de aplicación y expansión de la investigación

Entre los ejemplos más representativos del aprendizaje por refuerzo se destaca que AlphaGo venció en 2016 y 2017 a los mejores jugadores humanos de Go
ChatGPT también se incluye entre sus principales logros
- ChatGPT es un modelo de lenguaje grande entrenado en dos etapas
- En la segunda etapa, usa aprendizaje por refuerzo con retroalimentación humana (RLHF) para capturar las expectativas humanas
En robótica, hay casos de manipulación robótica dentro de una mano y de resolución física de un cubo Rubik
- Demostraron que, aun realizando aprendizaje por refuerzo en simulación, se puede tener éxito en el mundo real, que es considerablemente diferente
Otras áreas de aplicación incluyen el control de congestión en redes, diseño de chips, publicidad en internet, optimización, optimización de cadenas de suministro globales, mejora del comportamiento y las capacidades de razonamiento de chatbots, y mejora de algoritmos de multiplicación de matrices
Las técnicas inspiradas en la neurociencia también han influido nuevamente en la neurociencia
- Investigaciones recientes, incluidas las de Barto, sostienen que ciertos algoritmos de aprendizaje por refuerzo desarrollados en IA son los que mejor explican varios hallazgos relacionados con el sistema de dopamina del cerebro humano

Evaluaciones de ACM y Google

El presidente de ACM, Yannis Ioannidis, afirmó que el trabajo de Barto y Sutton muestra el potencial de aplicar un enfoque multidisciplinario a un desafío histórico de la computación
La ciencia cognitiva, la psicología y la neurociencia inspiraron el desarrollo del aprendizaje por refuerzo, y el aprendizaje por refuerzo aporta una base importante para los avances de la IA y una comprensión más profunda del funcionamiento del cerebro
Ioannidis señaló que el aprendizaje por refuerzo no es un peldaño ya superado, sino que sigue creciendo y ofrece potencial para nuevos avances en computación y en múltiples campos
Jeff Dean, Senior Vice President de Google, citó una conferencia de Alan Turing de 1947 en la que dijo: “lo que queremos es una máquina que pueda aprender de la experiencia”
Dean evaluó que el aprendizaje por refuerzo impulsado por Barto y Sutton responde directamente al desafío planteado por Turing, fue un eje clave del progreso de la IA durante las últimas décadas y sigue siendo un pilar central del auge de la IA

Biografías de los ganadores

Andrew Barto es profesor emérito del departamento de Information and Computer Sciences de la University of Massachusetts, Amherst
- Comenzó su carrera en 1977 como investigador posdoctoral en UMass Amherst
- Luego se desempeñó como Associate Professor, Professor y Department Chair, entre otros cargos
- Obtuvo una licenciatura en Matemáticas en la University of Michigan, y una maestría y un doctorado en Computer and Communication Sciences
- Recibió el UMass Neurosciences Lifetime Achievement Award, el IJCAI Award for Research Excellence y el IEEE Neural Network Society Pioneer Award
- Es IEEE Fellow y AAAS Fellow
Richard Sutton es profesor de Ciencias de la Computación en la University of Alberta, científico investigador en Keen Technologies, una empresa de inteligencia artificial general con sede en Dallas, y asesor científico principal de Amii
- De 2017 a 2023 fue DeepMind Distinguished Research Scientist
- De 1998 a 2002 trabajó como Principal Technical Staff Member en la división de IA de AT&T Shannon Laboratory
- Su colaboración con Barto comenzó en 1978 en la University of Massachusetts at Amherst, donde Barto fue supervisor de doctorado y posdoctorado de Sutton
- Obtuvo una licenciatura en Psicología en Stanford University, y una maestría y un doctorado en Computer and Information Science en la University of Massachusetts at Amherst
- Recibió el IJCAI Research Excellence Award, el Canadian Artificial Intelligence Association Lifetime Achievement Award y el University of Massachusetts at Amherst Outstanding Achievement in Research Award
- Es fellow de la Royal Society of London, la Association for the Advancement of Artificial Intelligence y la Royal Society of Canada

1 comentarios

GN⁺ 2025-03-06

Comentarios en Hacker News

Qué gusto ver esto. Resulta que mi pareja y yo compramos la casa de Andy Barto y su esposa
Hubo competencia de ofertas durante la compra, y como nos dijeron “presenten su mejor oferta”, al saber que él era matemático propuse una cantidad prima. Qué bueno ver que se reconozca su trayectoria
- Habría estado bien bromear con: “Seamos justos entre todos, ¿qué tal 2 dólares?”
- Si era “una cantidad prima”, ¿era $12345678910987654321?
- Tremenda historia. Me intriga saber cuál fue esa cantidad prima
Genial, y totalmente merecido. Ambos tienen disponible gratis en PDF el libro de texto de aprendizaje por refuerzo
Trabajo profesionalmente en IA desde 1982, pero el aprendizaje por refuerzo siempre fue un tema difícil de aprender por mi cuenta; el libro de Sutton/Barto y el curso de aprendizaje por refuerzo de Coursera de los profesores White me ayudaron muchísimo. Lo recomiendo
Los programas de ejemplo del libro están disponibles en Common Lisp y Python: http://incompleteideas.net/book/the-book-2nd.html
Este es un muy buen momento para volver a leer The Bitter Lesson: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...
- La URL oficial está aquí: <http://www.incompleteideas.net/IncIdeas/BitterLesson.html>
- De verdad es una lección amarga. Antes era divertido codificar conocimiento humano en computadoras, y gracias a eso se podía entender qué estaba pasando
  Ahora todo se está convirtiendo en una enorme caja negra difícil de razonar. Además, la ley de Moore se volvió una profecía autocumplida. La IA está disparando la demanda de capacidad de cómputo, lo que lleva a los fabricantes de chips a crear hardware dedicado, y eso está girando como un flywheel
- Depende un poco de cuál sea el objetivo de la investigación en IA. Si la meta es crear máquinas que hagan bien tareas que se creía que solo la mente humana podía hacer o que necesitaban de ella, entonces esta lección amarga vale totalmente la pena
  Pero si el objetivo de enseñar a una máquina a hacer X también implica entender cómo las personas hacen X, entonces estas construcciones estadísticas cada vez más complejas ofrecen información limitada. No estoy tomando partido; solo digo que quizá hace falta un enfoque más matizado
- En visión por computadora hubo una evolución parecida. Los métodos iniciales trataban la visión buscando bordes, generalized cylinders y características SIFT, pero hoy eso se ha dejado de lado y las redes neuronales modernas de deep learning lo hacen mucho mejor solo con convoluciones y ciertas invariancias
  Yo estaba en el campo justo cuando el pattern matching empezaba a morir en visión. No desapareció por completo, y lo que aprendimos entonces todavía sigue siendo útil en otros lugares
- Da vértigo pensar en la lección amarga que debieron aprender los practicantes clásicos de procesamiento de lenguaje natural. Ese texto sigue siendo vigente
Su libro Reinforcement Learning: An Introduction es uno de los textos más accesibles en IA/aprendizaje automático, así que lo recomiendo mucho
- Intenté meterme en aprendizaje por refuerzo, pero siempre sentía que las fórmulas y varios detalles marcados con asterisco estaban muy por encima de mi nivel
- Me da curiosidad cuál es tu formación. Lamentablemente, yo no sentí que ese libro fuera tan accesible
- Ese libro da gusto leerlo. Lo recomiendo muchísimo
- ¿Te refieres a Reinforcement Learning: An Introduction? ¿O escribieron también algún otro libro?
Para equilibrar, deberían habérselo dado a físicos
Hay que recordar que Sutton es un sucesionista humano y alguien a quien no le importaría si toda la humanidad muriera. No es una persona en quien confiar ni a quien celebrar: https://www.youtube.com/watch?v=NgHFMolXs3U
- El premio de la ACM se entrega por sus logros académicos profesionales. Hay que dejar esa obsesión de escarbar en la vida privada de alguien para encontrar lo más raro que dijo y usarlo para cubrir de maldad toda una trayectoria de logros
  Es tonto y peligroso asumir que porque no te gusta A y esa persona dijo o hizo A, cualquiera puede invalidar también un logro noble en B que podría cambiar el mundo. Internet pone en el mismo nivel el juicio de quienes realmente entienden el tema y la simple antipatía. Me enfurece que esta manera de actuar esté dividiendo más a la gente a gran escala
- ¿Alguna vez conociste a Sutton en persona? Se parece más al hippie más cálido, atento y entusiasta que he conocido. No desea que todos los seres humanos mueran
  La charla que enlazaste tampoco respalda esa afirmación. Si se me pasó algo, deja la marca de tiempo. En la charla él dice que, aunque la humanidad deje de controlar por sí sola su destino, eso aun así llevaría a una era de prosperidad. En la diapositiva final de 12:33 aparece literalmente “la mejor esperanza para el futuro a largo plazo de la humanidad”. Eso es exactamente lo contrario de “no le importaría si toda la humanidad muriera”
  Que yo me prepare para la sucesión no significa que quiera o espere que mi hija me asesine. Lo que espero es vivir una jubilación larga y saludable, y luego dormirme en paz sabiendo que le dejé a mi hija lo mejor posible dentro de una relación de simbiosis con el universo
- “No le importaría si toda la humanidad muriera” parece una caracterización dura y engañosa de su postura
  A mí me parece que él está más cerca de creer que eventualmente los humanos serán reemplazados por transhumanos de manera inevitable. Más que maldad, suena a un utopismo tosco de ciencia ficción, y no me parece motivo para no celebrar sus logros académicos
- Es interesante señalar esa perspectiva, pero no veo por qué alguien no debería confiar en una persona o celebrarla solo por tener una opinión con la que uno no está de acuerdo
  En especial porque la insinuación de que Sutton desea activamente que todos mueran parece tener muy poco sustento
- Su última diapositiva dice literalmente “la mejor esperanza para el futuro a largo plazo de la humanidad”. Es lo contrario exacto de la acusación
En una clase que di usé su libro de aprendizaje por refuerzo. Está bellamente escrito y disponible gratis: http://incompleteideas.net/book/the-book-2nd.html
Las frases eran tan buenas que a veces me distraía y me perdía el contenido real
Muchísimas felicidades a Andrew Barto y Richard Sutton por el Turing Award. Cuando era estudiante, Reinforcement Learning: An Introduction fue mi puerta de entrada a este campo
En particular, el capítulo 6, Temporal Difference Learning, cambió de raíz mi manera de ver la toma de decisiones secuencial. Sigue siendo un clásico atemporal cuya lectura recomiendo muchísimo
Es un premio largamente esperado. Tomaron una idea y la llevaron de principio a fin, hasta convertirla no en un subcapítulo de un libro sobre programación dinámica sino en todo un campo
Ojalá el aprendizaje por refuerzo se usara mucho más en juegos, que también fue donde empezó todo esto. Sería realmente genial
Es un premio merecido. El aprendizaje por refuerzo se volverá cada vez más importante con el tiempo gracias a la flexibilidad que tiene junto con las redes neuronales
Si seguimos escalando, quizá la lección amarga ya no se sienta tan amarga

Richard Sutton y Andrew Barto ganan el Premio Turing 2024

Los ganadores y los motivos de la selección

El problema que resuelve el aprendizaje por refuerzo

Contribuciones técnicas de Barto y Sutton

Impacto del libro de texto y camino hacia el aprendizaje por refuerzo profundo

Casos de aplicación y expansión de la investigación

Evaluaciones de ACM y Google

Biografías de los ganadores

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News