AlphaEvolve: agente de codificación avanzado basado en Gemini para diseñar algoritmos
(deepmind.google)- AlphaEvolve, presentado por Google DeepMind, es un agente de codificación evolutivo que combina modelos Gemini con evaluadores automáticos para descubrir y optimizar algoritmos
- Gemini Flash se encarga de explorar un espacio amplio de ideas, Gemini Pro de proponer opciones más profundas, y los programas candidatos se ejecutan, validan y puntúan antes de evolucionar hacia variantes prometedoras
- Los algoritmos descubiertos durante el último año ya se desplegaron en planificación de centros de datos, diseño de TPU y optimización de Gemini, y en Borg recuperan de forma sostenida un promedio de 0.7% de los recursos de cómputo globales de Google
- El kernel de multiplicación de matrices de Gemini se aceleró 23%, reduciendo el tiempo de entrenamiento en 1%, y una implementación del kernel FlashAttention logró mejoras de velocidad de hasta 32.5%
- En matemáticas, encontró un algoritmo que realiza la multiplicación de matrices complejas de 4x4 con 48 multiplicaciones escalares, y mejoró la mejor solución previa en cerca del 20% de más de 50 problemas públicos
Cómo AlphaEvolve hace evolucionar algoritmos
- AlphaEvolve es un agente de codificación evolutivo orientado al descubrimiento y optimización de algoritmos de propósito general
- Añade evaluadores automáticos a la capacidad creativa de resolución de problemas de los modelos de lenguaje de gran escala para verificar respuestas, y usa un marco evolutivo para seguir mejorando las ideas prometedoras
- En 2023, Google DeepMind mostró que los LLM podían encontrar nuevo conocimiento demostrable en problemas científicos públicos mediante la generación de funciones de código, y AlphaEvolve amplía eso desde una sola función hacia bases de código completas y algoritmos más complejos
- La configuración del modelo divide los roles entre amplitud de exploración y calidad de las propuestas
- Gemini Flash: modelo rápido y eficiente para explorar un espacio de ideas más amplio
- Gemini Pro: modelo más potente que aporta propuestas con mayor profundidad
- Los programas generados se ejecutan, validan y puntúan con métricas de evaluación automáticas, por lo que encajan especialmente bien en problemas de matemáticas e informática donde la exactitud y la calidad pueden evaluarse de forma cuantitativa
Resultados aplicados a la infraestructura de Google
- Durante el último año, los algoritmos descubiertos por AlphaEvolve se desplegaron en toda la infraestructura de centros de datos, hardware y software de Google
- Al aplicar optimizaciones individuales a gran escala en infraestructura de IA y cómputo, se logra procesar más trabajo con los mismos recursos
-
Planificación de centros de datos
- AlphaEvolve descubrió una heurística simple pero efectiva para ayudar a Borg a coordinar con mayor eficiencia los grandes centros de datos de Google
- Esta solución lleva más de un año funcionando en producción y recupera de manera sostenida un promedio de 0.7% de los recursos de cómputo globales de Google
- Está implementada en código legible para humanos, lo que también aporta interpretabilidad, facilidad de depuración, previsibilidad y facilidad de despliegue
-
Diseño de hardware
- Propuso reescrituras en Verilog para eliminar bits innecesarios en circuitos aritméticos altamente optimizados para multiplicación de matrices
- Las modificaciones propuestas deben pasar por un riguroso proceso de verificación para confirmar que mantienen la corrección funcional del circuito
- Esta propuesta se integró en futuros Tensor Processing Unit, el acelerador de IA personalizado de Google
- Al proponer cambios en el lenguaje estándar que usan los diseñadores de chips, también se adapta a la forma de colaboración entre IA e ingenieros de hardware
Optimización de entrenamiento e inferencia en Gemini
- AlphaEvolve encontró una forma de dividir grandes operaciones de multiplicación de matrices en subproblemas más pequeños, haciendo que un kernel clave de la arquitectura Gemini fuera 23% más rápido
- Esta mejora del kernel redujo el tiempo de entrenamiento de Gemini en 1% y también disminuyó los recursos de cómputo necesarios para desarrollar modelos de IA generativa
- El tiempo de ingeniería necesario para optimizar kernels bajó de varias semanas de trabajo experto a unos pocos días de experimentación automática
- Las instrucciones de GPU de bajo nivel también entraron en el alcance de optimización
- En esta área, normalmente los compiladores ya aplican optimizaciones fuertes y muchas veces los ingenieros humanos no hacen ajustes manuales
- En una implementación del kernel FlashAttention para modelos de IA basados en Transformer, logró mejoras de velocidad de hasta 32.5%
- Este tipo de optimizaciones ayuda a los expertos a detectar cuellos de botella de rendimiento e integrar con facilidad las mejoras en la base de código
Matemáticas y descubrimiento de algoritmos
- AlphaEvolve puede proponer nuevos enfoques para problemas matemáticos complejos incluso cuando solo se le da un esqueleto mínimo de código
- Diseñó varios componentes de un nuevo procedimiento de optimización basada en gradiente y descubrió nuevos algoritmos para multiplicación de matrices
- En el ejemplo, cambió varios componentes como el optimizador, la inicialización de pesos, la función de pérdida y la búsqueda de hiperparámetros, y durante el proceso evolutivo se necesitaron 15 mutaciones
- El procedimiento de AlphaEvolve encontró un algoritmo que realiza la multiplicación de matrices complejas de 4x4 con 48 multiplicaciones escalares
- Es un resultado que mejora el algoritmo de Strassen de 1969, que era el mejor conocido para esta configuración
- AlphaTensor, especializado en algoritmos de multiplicación de matrices, solo había encontrado mejoras para aritmética binaria en matrices 4x4
- También se aplicó a más de 50 problemas públicos de análisis matemático, geometría, combinatoria y teoría de números
- La mayoría de los experimentos pudieron configurarse en pocas horas
- En alrededor de 75% de los casos, redescubrió soluciones de vanguardia ya conocidas
- En alrededor de 20% de los casos, mejoró la mejor solución previa y produjo avances en esos problemas públicos
- En el kissing number problem, encontró una disposición de 593 esferas exteriores en 11 dimensiones, estableciendo un nuevo límite inferior
Plan de apertura y alcance de aplicación
- AlphaEvolve muestra una evolución que va más allá del descubrimiento de algoritmos en dominios específicos hacia el desarrollo de algoritmos complejos para problemas reales
- Google DeepMind espera que AlphaEvolve siga mejorando a medida que aumenten las capacidades de codificación de los modelos de lenguaje de gran escala
- Junto con el People + AI Research team, está construyendo una interfaz amigable para que los usuarios interactúen con AlphaEvolve
- Está planeando un Early Access Program para usuarios académicos seleccionados, y también evalúa una posible apertura más amplia
- El registro de interés estará disponible en este formulario
- Por ahora, las áreas de aplicación son matemáticas y computación, pero puede aplicarse a cualquier problema cuya solución pueda expresarse como un algoritmo y verificarse automáticamente
- Google DeepMind cree que AlphaEvolve también puede generar cambios en ciencia de materiales, descubrimiento de fármacos, sostenibilidad y aplicaciones más amplias de tecnología y negocios
- Material relacionado
Aún no hay comentarios.