AlphaEvolve: un agente de programación basado en Gemini que amplía su impacto a múltiples campos
(deepmind.google)- AlphaEvolve es un agente de programación basado en Gemini que comenzó con el diseño de algoritmos avanzados y ha ampliado su alcance a problemas abiertos de matemáticas e informática, optimización de la infraestructura de Google y desafíos científicos e industriales
- En genómica, mejoró DeepConsensus y redujo los errores de detección de variantes en 30%; en redes eléctricas, ayudó a elevar la tasa de hallazgo de soluciones factibles para el problema de AC Optimal Power Flow de 14% a más de 88%
- En ciencias de la Tierra, automatizó la optimización del modelo Earth AI y mejoró en 5% la precisión global de predicción de riesgos de desastres naturales en 20 categorías, como incendios forestales, inundaciones y tornados; en física cuántica, propuso circuitos cuánticos con errores 10 veces menores que la línea base previa en el Willow quantum processor
- En matemáticas, contribuyó junto con Terence Tao a resolver un problema de Erdős, mejoró cotas inferiores para el Traveling Salesman Problem y los Ramsey Numbers, y también se usó en modelos interpretables de neurociencia, microeconomía, criptografía, datos sintéticos y mitigaciones de seguridad para IA
- En la infraestructura de Google, se utilizó en el diseño de la próxima generación de TPU, políticas de reemplazo de caché, heurísticas de compactación de LSM-tree en Google Spanner y optimización de compiladores; en aplicaciones comerciales, logró duplicar la velocidad de entrenamiento de Klarna, mejorar en 10.4% la eficiencia de rutas de FM Logistic y acelerar cerca de 4 veces el entrenamiento e inferencia de MLFF en Schrödinger
Impacto social y sostenibilidad
-
Genómica
- AlphaEvolve se utilizó para mejorar DeepConsensus, el modelo de corrección de errores de secuenciación de ADN desarrollado por Google Research, reduciendo en 30% los errores de detección de variantes
- Esta mejora ayuda a los científicos de PacBio a analizar datos genéticos con mayor precisión y a menor costo
- Aaron Wenger, de PacBio, señaló que la solución descubierta por AlphaEvolve aumenta de forma significativa la precisión de los equipos de secuenciación y podría permitir a los investigadores descubrir mutaciones causantes de enfermedades que antes permanecían ocultas, gracias a datos de mayor calidad
-
Optimización de redes eléctricas
- AlphaEvolve se aplicó al problema de AC Optimal Power Flow
- Ayudó a elevar la tasa con la que un modelo entrenado de Graph Neural Network (GNN) encuentra soluciones factibles para ese problema de 14% a más de 88%
- Como resultado, se redujo de forma importante la necesidad de etapas de posprocesamiento costosas en la red eléctrica
-
Ciencias de la Tierra
- AlphaEvolve se utilizó para convertir datos geoespaciales complejos en hallazgos más confiables y accionables
- Al automatizar la optimización del modelo Earth AI, mejoró en 5% la precisión global de predicción del riesgo de desastres naturales, agregada en 20 categorías como incendios forestales, inundaciones y tornados
Avances en la frontera de la investigación
-
Física cuántica
- La optimización de AlphaEvolve permite ejecutar simulaciones moleculares complejas en el Willow quantum processor de Google
- Propuso circuitos cuánticos con errores 10 veces menores que la línea base convencional de optimización existente, contribuyendo de inmediato a la primera demostración experimental de su tipo en computación cuántica
- Este logro muestra que AlphaEvolve podría abrir el camino hacia un futuro en el que encuentre algoritmos que superen las capacidades de las computadoras clásicas
-
Matemáticas
- AlphaEvolve contribuyó junto con matemáticos como Terence Tao a resolver un problema de Erdős
- Terence Tao señaló que herramientas como AlphaEvolve mejoran mucho la intuición, especialmente en problemas de optimización, al permitir probar rápidamente contraejemplos de desigualdades potenciales o confirmar creencias sobre objetos extremos, facilitando así encontrar pruebas rigurosas
- AlphaEvolve también batió récords al mejorar las cotas inferiores de desafíos matemáticos clásicos como el Traveling Salesman Problem y los Ramsey Numbers
-
Otras áreas de investigación
- La capacidad de descubrimiento autónomo de AlphaEvolve está impulsando innovaciones paralelas en múltiples campos
- Se ha utilizado en el descubrimiento de modelos interpretables de neurociencia, la demostración de nuevos límites de mercado en microeconomía y avances en componentes de redes neuronales
- También se ha aplicado a la criptografía para la privacidad de los usuarios, la generación de datos sintéticos y mitigaciones clave de seguridad para modelos de IA de frontera
- Se pueden consultar en la Gallery un ejemplo de optimización de una instancia del Tammes problem por parte de AlphaEvolve y posibles soluciones para problemas adicionales
Mejoras en infraestructura de IA
- AlphaEvolve dejó de ser una prueba piloto para convertirse en un componente central de la infraestructura de Google
- Se utiliza como herramienta regular para optimizar el diseño de la próxima generación de TPU
- Descubrió una política de reemplazo de caché más eficiente, logrando en solo dos días una tarea que antes requería meses de trabajo intensivo por parte de personas
- Jeff Dean afirmó que AlphaEvolve ya comenzó a optimizar el nivel más bajo del hardware que impulsa el stack de IA, y que propuso diseños de circuitos eficientes aunque contraintuitivos que se integraron directamente en el silicio de la siguiente generación de TPU
- AlphaEvolve mejoró la heurística de compactación de Log-Structured Merge-tree de Google Spanner, aumentando su eficiencia
- Esta optimización redujo en 20% la amplificación de escritura (write amplification), es decir, la proporción de datos escritos al almacenamiento frente a la solicitud original
- AlphaEvolve también aportó ideas para una nueva estrategia de optimización de compiladores que reduce casi 9% el uso de almacenamiento del software
Expansión de aplicaciones comerciales
- Junto con Google Cloud, AlphaEvolve se está ofreciendo a empresas comerciales de múltiples industrias
- En servicios financieros, Klarna usó AlphaEvolve para optimizar uno de sus grandes modelos transformer, mejorando la calidad del modelo y duplicando la velocidad de entrenamiento
- En manufactura de semiconductores, Substrate aplicó AlphaEvolve a su framework de litografía computacional, multiplicando la velocidad de ejecución y permitiendo simulaciones avanzadas de semiconductores a mayor escala
- En logística, FM Logistic optimizó problemas complejos de rutas como el Traveling Salesman Problem, mejorando la eficiencia de rutas en 10.4% frente a una solución previamente muy optimizada y ahorrando más de 15,000 km de desplazamientos al año
- En publicidad y marketing, WPP refinó componentes de modelos de IA y trabajó con datos complejos de campañas de alta dimensionalidad mediante AlphaEvolve, mejorando la precisión en 10% frente a una optimización manual competitiva del modelo
- En materiales computacionales y ciencias de la vida, Schrödinger aplicó AlphaEvolve y logró una aceleración de cerca de 4 veces tanto en entrenamiento como en inferencia de Machine Learned Force Fields (MLFF)
- Gabriel Marques, de Schrödinger, señaló que una inferencia de MLFF más rápida reduce los ciclos de I+D en descubrimiento de fármacos, diseño de catalizadores y desarrollo de materiales, permitiendo a las empresas evaluar candidatos moleculares en días en lugar de meses y generando un impacto real en el negocio
Dirección futura
- Durante el último año, AlphaEvolve se ha consolidado rápidamente como un sistema multipropósito de uso general
- Muestra que el próximo gran avance podría estar impulsado por algoritmos capaces de aprender, evolucionar y optimizarse por sí mismos
- Google DeepMind busca ampliar las capacidades de AlphaEvolve y aplicarlo a desafíos externos más amplios
1 comentarios
Comentarios de Hacker News
Me recordó a "Don't fall into the anti-AI hype" de Antirez [0]
En una sola línea: estos modelos fundacionales son realmente muy buenos para optimizar espacios de problemas muy de alto nivel pero muy bien definidos, como “haz más rápida la multiplicación de matrices”. En el caso de Antirez era “haz Redis más rápido”
Las reacciones se dividieron entre “esto jamás servirá para mi trabajo” y “terminó en una hora algo que tomaría meses”, y creo que ambas son correctas. Da gusto que Antirez siga logrando resultados después [1], pero también creo que está bien pensar que gran parte del trabajo que hace la mayoría de la gente —con mucho conocimiento tácito, centrado en sistemas humanos y definido de forma ambigua— es difícil de abordar para un LLM, o quizá ni siquiera era para eso desde el principio
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
Pronto todas las reuniones estarán grabadas y transcritas, y se guardarán en un lugar bien indexado donde un agente pueda buscar cuando se encuentre con ambigüedad. Si hoy puede preguntar, entonces en un entorno así también podrá buscar la respuesta por su cuenta. De hecho, si ya tienes una buena documentación en Notion o Confluence, eso ya pasa; el problema es que casi no hay organizaciones así
Reforzar por aprendizaje por refuerzo la “identificación de ambigüedad” será más difícil que hacerlo con algoritmos de rendimiento, pero no imposible, y creo que ya está en marcha. Ahora es cuestión de tiempo
Son débiles para inventar desde cero algoritmos poco comunes, y muy seguido meten atajos ridículamente cortoplacistas. Por ahora siguen siendo una herramienta, no un artesano que domina hábilmente las herramientas. Eso irá cambiando poco a poco, y también se irá reduciendo el nicho donde ganan los algoritmos raros
Es realmente difícil juzgar cuál de los dos gana en promedio
A los CEOs de IA les encanta hablar largamente de cómo la IA va a curar el cáncer, pero en realidad el único que parece estar atacando activamente ese tipo de problemas de investigación es DeepMind
OpenAI y Anthropic más bien parecen estar persiguiendo ingresos empresariales e ingresos por programación
¿La gente de Google está satisfecha usando agentes de programación Gemini en vez de Claude Code o Codex? No lo digo con sarcasmo, de verdad me da curiosidad
Todavía hay cosas por ordenar en UI/UX/herramientas, integración con sistemas de control de versiones y problemas más profundos que no es fácil comentar, pero creo que la mayoría de las quejas tienen más que ver con la velocidad del cambio que con la capacidad real
Lo interesante es que varias personas influyentes dentro de la empresa dicen con fuerza que prefieren el modelo Flash al modelo Pro. Independientemente de si eso es cierto, es interesante que hayamos llegado a una etapa donde un modelo “mejor” no necesariamente es más útil, y donde combinar un modelo más rápido con mejoras en el arnés puede ser un mejor punto intermedio
Hay timeouts constantes, modos de fallo extraños y el problema de que para cambiar de modo tienes que empezar un chat nuevo. Aun así, eso parece más un problema de la extensión que del modelo Gemini en sí
Dejando de lado la parte de la extensión de VS Code y viendo solo la resolución real de problemas, los tres modelos premier son excelentes agentes de programación para mi uso
Puede que Gemini no sea el mejor agente de programación, pero sí puede ser muy bueno para otras cosas
Se les olvida por completo cómo hacer llamadas a herramientas, pierden mucho tiempo en eso y al final se rinden, o ignoran totalmente las guías de estilo de código de archivos tipo AGENTS.md
Mi experiencia corriendo Gemma 4 en local fue parecida. Después de una o dos llamadas a herramientas, empieza a hacerlas a su manera. Apenas ayer vi que redefinió una herramienta como read_file(start, end) a read_file(start, number_of_bytes), y ni siquiera admitía la posibilidad de estar equivocado
Si la IA mejora por sí sola, o al menos mejora la arquitectura sobre la que corre, entonces la singularidad estaría cerca, tal como dice la gente
Fuera de generar datos sintéticos o probar modelos, ¿hay otros casos en los que la IA se haya usado para mejorar un LLM?
Un transformer más eficiente solo reduce el costo de ejecución
Para decir “la IA mejora a la IA”, una generación de IA tendría que diseñar la siguiente generación de IA de forma fundamentalmente más competente que ella misma. No solo hacerla más rápida o más barata, sino algo al nivel de que un cerebro reptiliano diseñe de forma autónoma un cerebro mamífero
Incluso conectada a un arnés inteligente como AlphaEvolve, no creo que un LLM tenga ese tipo de creatividad. Aunque podría haber una excepción si la arquitectura de la siguiente generación estuviera escondida de forma evidente como una combinación de componentes que un LLM pueda ser inducido a predecir
La ruta más probable es que, tras algunos pasos más de innovación humana hacia la AGI, aparezca una IA capaz de innovación autónoma, no solo de generación combinatoria basada en prompts
¿No podría haber restricciones lo bastante fuertes como para hacer imposible una singularidad, o un horizonte temporal tan largo que no sea práctico?
Todos los grandes laboratorios de IA están avanzando fuerte en proyectos de agentes de investigación, especialmente agentes para mejorar la propia IA, y espero que muchos de ellos salgan de la fase experimental este año
El próximo año realmente harán mucho trabajo, y creo que veremos el primer gran cambio arquitectónico válido co-inventado por IA
¿Cuántas veces más voy a tener que escuchar lo del problema de Erdős? :) Al principio suena como un gran logro de la humanidad, pero con el tiempo vuelve una y otra vez
Mientras tanto, Gemini CLI lleva meses roto
https://github.com/google-gemini/gemini-cli/issues/22141
Ojalá Google se enfoque en el lanzamiento oficial de los modelos Gemini 3.x y dé suficiente capacidad como para no tener que seguir peleando con errores 429
Muchas veces da la impresión de que no quieren que desarrolles aplicaciones para clientes empresariales con Vertex API. Es una pena, considerando lo bueno que ha sido el modelo en cosas como análisis de documentos
Todos los papers de *Evolve tienen resultados muy impresionantes, pero al revisar la información pública me queda la impresión de que la atención se concentra en el lado LLM y de IA
Sin embargo, los resultados reportados casi siempre vienen de entornos extremadamente bien diseñados para que los LLM y los algoritmos evolutivos funcionen bien
Este paper es un gran ejemplo de eso y vale la pena leerlo
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
Es una solución sumamente simple para mejorar algoritmos. Ojalá hubiera existido algo así hace unos años cuando yo hacía activation engineering: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
¿Cómo se puede acceder a AlphaEvolve?
El problema que he sentido con Claude es simple: incluso en tareas sencillas infla demasiado el código y los outputs, y a veces ni siquiera funcionan
Gemini logra bastante bien un equilibrio más fácil de mantener: da soluciones que sí funcionan, con justo la cantidad de código necesaria y la mínima complejidad
Hoy en día solo recurro a Claude para código frontend, sobre todo HTML. Incluso ahí mete demasiado CSS y termina ocupando como el 60% del archivo, pero aun así da una sensación un poco más pulida, así que por ahora acepto el aumento en tamaño del archivo