- AlphaEvolve es una nueva clase de herramienta de optimización que usa LLM para hacer evolucionar el propio código, y se aplica a la resolución de problemas matemáticos
- En experimentos con 67 problemas de análisis, combinatoria y geometría, mostró resultados al nivel de las herramientas de optimización existentes, junto con ventajas en escalabilidad
- La herramienta tiene alta adaptabilidad, por lo que puede aplicarse a diversos problemas matemáticos sin conocimiento detallado específico de cada caso, y además establece por sí sola parámetros de discretización para realizar cálculos eficientes
- El código generado ofrece interpretabilidad, ayudando a que las personas entiendan la estructura de la optimización o obtengan nuevas intuiciones matemáticas
- En algunos problemas redescubrió resultados previos o logró mejoras menores, mostrando el potencial de la automatización de la investigación matemática y la expansión de la exploración verificable
AlphaEvolve y panorama general de la investigación
- Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano y Adam Zsolt Wagner publicaron en arXiv un artículo de investigación en colaboración con Google DeepMind usando AlphaEvolve
- Artículo: “Mathematical exploration and discovery at scale”
- Los datos relacionados y los prompts fueron publicados en un repositorio de GitHub
- AlphaEvolve es un sistema de optimización evolutiva de código basado en LLM que, en lugar de evolucionar valores de entrada, hace evolucionar el código para maximizar una función de puntuación
- El código generado por el LLM se ejecuta para producir entradas, y luego se evalúa el resultado
- Evoluciona mediante cruces y mutaciones basados en desempeño entre generaciones de código
- Las “alucinaciones (hallucination)” se eliminan si su desempeño es bajo, pero algunas contribuyen a aumentar la diversidad y a escapar de óptimos locales
- Los usuarios pueden subir pistas o PDFs de literatura relacionada para mejorar el rendimiento
- Existen herramientas similares como OpenEvolve, ShinkaEvolve y DeepEvolve
Alcance experimental y resultados principales
- Se realizaron experimentos sobre 67 problemas matemáticos, incluidos análisis, combinatoria y geometría
- Se encontraron empaquetamientos geométricos más eficientes que en la literatura previa o funciones candidatas para problemas variacionales
- Su fortaleza está en la escalabilidad (scale): al modificar el prompt y las herramientas de verificación de un problema, pueden reutilizarse en problemas similares
- AlphaEvolve tiene alta adaptabilidad (adaptability), lo que permite aplicarlo a distintos problemas sin ajustes detallados de hiperparámetros
- Ejemplo: en problemas variacionales, se le permitió fijar por sí mismo parámetros de discretización para obtener resultados eficientes
- Caso de ejemplo: experimento de optimización de constantes en la desigualdad de Hausdorff–Young
Interpretabilidad y casos concretos
- El código de salida de AlphaEvolve está en una forma legible y analizable por humanos, lo que resulta útil para entender la estructura de la optimización
- Ejemplo: en el problema de la desigualdad de Gagliardo–Nirenberg, descubrió la función de Talenti exacta y generó código Python para muestrearla
- En algunos casos también recurre a subrutinas de optimización existentes o usa métodos simples de búsqueda
Datos de entrenamiento y diferencias de desempeño
- En problemas incluidos en los datos de entrenamiento, el LLM propone de inmediato la solución óptima (por ejemplo, una gaussiana)
- Si se modifica el problema para ocultar la solución gaussiana, explora otros candidatos
- Ejemplo: en experimentos relacionados con la conjetura aritmética de Kakeya, propuso candidatos basados en gaussianas discretas y mejoró ligeramente una cota inferior existente
- A partir de ese resultado, Tao demostró en otro artículo un comportamiento asintótico teórico
Diseño del verificador y vulnerabilidades
- AlphaEvolve con frecuencia encuentra “exploits” que aprovechan fallas en el código de verificación
- Ejemplo: en un problema geométrico con gran tolerancia al error de distancia, obtiene una puntuación alta colocando puntos en la misma posición
- Para evitarlo, se debe usar aritmética exacta o una función de puntuación conservadora
- Ejemplo: en el problema del Moving Sofa, al aplicar una puntuación conservadora redescubrió el “Gerver sofa” y encontró un nuevo diseño en una variante 3D del problema
Experimentos con problemas difíciles y conjeturas
- Se realizaron experimentos sobre importantes conjeturas abiertas como Sidorenko, Sendov, Crouzeix y Ovals
- Redescubrió los mejores candidatos de la literatura existente, pero no encontró contraejemplos
- Esto puede deberse a que las conjeturas son verdaderas, o a que AlphaEvolve solo exploró construcciones “obvias” ya intentadas por investigadores previos
- Estas herramientas son útiles para el registro sistemático de resultados negativos y pueden servir como herramientas automáticas de verificación al proponer nuevas conjeturas
- En algunos problemas modificados, descubrió una nueva conjetura extendida de dos parámetros
Diferencias de desempeño según el área
- En problemas de teoría analítica de números —por ejemplo, diseño de pesos de criba para aproximaciones al teorema de los números primos— tuvo dificultades para explotar la estructura
- En cambio, mostró muy buen desempeño en problemas con estructura algebraica, como los de Kakeya y Nikodym sobre cuerpos finitos
- En el problema de Kakeya, redescubrió la construcción óptima basada en residuos cuadráticos y logró una ligera mejora en tres dimensiones
- Con Deep Think de Gemini encontró una demostración informal, y con AlphaProof la convirtió en una demostración formal en Lean
- La mejora propuesta en cuatro dimensiones resultó tener la misma estructura que el artículo previo de Bukh–Chao
- En el problema de Nikodym, descubrió una nueva construcción tridimensional, pero se confirmó que era inferior a una construcción aleatoria
- A partir de ello, se desarrolló una construcción híbrida que mejora el rendimiento, con un artículo posterior en preparación
Significado general
- AlphaEvolve muestra el potencial de la automatización de la exploración matemática a gran escala
- Frente a herramientas de optimización existentes, destaca en escalabilidad, adaptabilidad e interpretabilidad
- En algunos problemas llevó a nuevas construcciones y demostraciones
- En el futuro, podría consolidarse en la investigación matemática una estructura de colaboración entre exploración basada en IA y verificación humana
1 comentarios
Comentarios en Hacker News
Cansa que los fans de los LLM exageren todo llamándolo “revolucionario”, pero este caso sí parece un buen ejemplo de usar bien las capacidades actuales de los LLM en investigación
Convirtieron un problema matemático en un problema de agente de programación y lo resolvieron, y este enfoque parece poder extenderse a otras áreas
El sistema AlphaEvolve también parece tener mejoras frente a agentes anteriores. La IA progresa de forma constante cada año, pero ni el entusiasmo ciego ni el escepticismo exagerado ayudan
Cada quien disfruta el ciclo del hype en momentos distintos. Lo que para algunos ya es aburrido, para otros puede ser novedoso como conexión entre LLM y matemáticas. Ese tipo de inspiración puede ser útil a largo plazo
Aun así, esta investigación sí es un buen ejemplo de uso de LLM. Hoy en día hay muchos usos prácticos que ni siquiera son noticia. Que existan fans no significa que haya que criticarlos siempre
Creo que esta investigación podría refutar la idea de que los LLM “solo resuelven problemas que ya han visto”
Si escuchas a quienes desarrollan LLM, el proceso de RL posterior al entrenamiento termina formando un modelo del mundo (world model) que va más allá de una simple Markov chain
El siguiente paso sería construir capacidades similares sobre modelos como Genie 3
El LLM es una herramienta central, pero buena parte del mérito de este resultado está más en la optimización evolutiva (evolutionary optimization)
Según el blog de DeepMind, va en la línea de la serie “Alpha” como AlphaGo y AlphaFold
Este enfoque probablemente también funcionaría bien en el test ARC-AGI de Chollet. Aunque la palabra “extremize” que usó Tao suena algo extraña como término matemático
Este trabajo encaja bien con problemas donde es posible verificar rápido y podar malas soluciones. En cambio, en el desarrollo de software humano este enfoque se complica por sesgos de diseño, evolución lenta y dificultad para probar
Como señaló Daniel Litt, este parece ser simplemente el primer caso de meter mucho “compute”
Algunas desigualdades de AlphaEvolve también pueden mejorarse fácilmente con humanos y Moore’s Law
El paper relacionado está aquí
Hubo un comentario pidiendo un resumen para quienes no tienen suficiente formación matemática
El LLM se encarga de mutar código Python, y los intentos fallidos se podan automáticamente
Probaron 67 problemas y con frecuencia obtuvieron resultados de nivel experto. Sus ventajas son la escalabilidad, robustez y facilidad de interpretación
Eso sí, los problemas incluidos en los datos de entrenamiento convergían rápido, y si la definición del problema era floja, el sistema también podía “explotar” ese hueco
En algunas áreas de las matemáticas, por ejemplo teoría analítica de números, rindió peor. Aun así, propone ideas que los humanos pueden tomar como referencia
No fue igual de fuerte en todas las áreas, pero era un enfoque especializado en resolución de problemas basada en cálculo, al estilo de Ramanujan o Erdős
No sabía que el problema del sofá (sofa problem) ya se había resuelto. El paper relacionado está aquí
Lo más interesante del texto para mí fue el concepto de “robustness” que menciona el autor
AlphaEvolve pudo aplicarse con facilidad a distintos problemas sin conocimiento específico del dominio
Pero en el mundo del software, “robustness” suele significar tolerancia a fallos, así que aquí parece más apropiado hablar de “adaptabilidad (adaptability)”
La fortaleza de los LLM está en que permiten integración basada en texto sin necesidad de modelado complejo. Si el procesamiento de video mejora un poco más, también podrían abrirse áreas como la IA para juegos
Que Tao dijera “podría ser un problema de prompt” me pareció una actitud bastante generosa
En otras investigaciones de ML casi nunca se ve una autocrítica del tipo “ajustamos mal los hiperparámetros” cuando el rendimiento sale bajo
Me impresionó la historia del experimento de acertijo lógico de la sección 44.2 del paper
AlphaEvolve interactuaba con tres “guardianes” (ángel, demonio y portero) para encontrar la estrategia óptima, pero al final obtuvo puntaje perfecto engañando a otro LLM mediante prompt injection
En ese proceso, AE propuso por sí mismo “reducir la complejidad lógica y atacar la simulación”
A diferencia del caso pasado de filtración de benchmark de programación, que fue accidental, aquí fue un ataque intencional
Esta investigación parece una versión moderna del laboratorio matemático de Gauss
Es como contratar un equipo electrónico en lugar de varios matemáticos para explorar patrones e intentar luego una demostración con base en eso
Para ser sincero, si lo dice Terence Tao, simplemente le creo