- Un LLM experimental de razonamiento desarrollado por OpenAI obtuvo un resultado de nivel medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) 2025
- Siguiendo las reglas oficiales de la IMO, resolvió problemas y redactó demostraciones en lenguaje natural, y recibió una calificación unánime de 3 evaluadores humanos de 35 puntos sobre 42 (5 de 6 problemas resueltos)
- Los problemas de la IMO exigen pensamiento creativo de alta dificultad y demostraciones en múltiples pasos, lo que demuestra que un LLM podría ir más allá de las limitaciones de los enfoques previos de RL y generar demostraciones lógicas de nivel humano
- Es especialmente significativo que esto se haya logrado no con un enfoque centrado en tareas específicas, sino mediante aprendizaje por refuerzo general y escalado del cómputo en tiempo de prueba
- El modelo es una versión de investigación, separada de GPT-5, que se lanzará pronto, y la publicación de su rendimiento matemático de más alto nivel está prevista para dentro de algunos meses
Resumen del resultado del LLM de OpenAI en la IMO 2025
- Alexander Wei (@alexwei_) de OpenAI anunció que el más reciente modelo experimental de lenguaje con razonamiento obtuvo un resultado dentro del umbral de medalla de oro en la IMO 2025
- La IMO es una competencia de altísima dificultad en la que participan jóvenes con talento matemático excepcional de todo el mundo, famosa por problemas que requieren razonamiento lógico complejo y una comprensión conceptual profunda
- La evaluación se realizó igual que para los participantes humanos: dos exámenes de 4.5 horas, uso del cuestionario oficial, sin herramientas externas y con entrega de demostraciones en lenguaje natural
- Cada problema fue calificado de forma independiente por 3 exmedallistas de la IMO, y la puntuación final se determinó por consenso unánime
Importancia del resultado y aumento de la dificultad
- Los problemas de la IMO requieren mucho más tiempo de reflexión, creatividad y argumentación compleja que benchmarks previos como GSM8K, MATH y AIME
- Este modelo obtuvo 35/42 puntos al resolver por completo 5 problemas (P1~P5) y no presentar P6, cumpliendo así el umbral real de medalla de oro de la IMO
- La capacidad de generar demostraciones lógicas de varias páginas supera las limitaciones del aprendizaje por refuerzo (RL) anterior
Enfoque de investigación y contexto del avance en IA
- El alto rendimiento se logró no con un modelo dedicado solo a resolver problemas específicos, sino sobre la base de RL general y escalado del cómputo
- Se logró generar resultados creativos complejos incluso sin un sistema de recompensas tan claro como el que suele ofrecer el RL tradicional
- Se trata de un modelo experimental, separado de GPT-5, cuyo lanzamiento es inminente, y no está previsto poner esta capacidad matemática al alcance general en los próximos meses
Perspectivas futuras y menciones de la comunidad
- La velocidad del progreso en la capacidad matemática de la IA está superando ampliamente las expectativas (frente a predicciones de 30% en el benchmark MATH hechas en 2021, ahora se alcanzó el nivel de medalla de oro de la IMO)
- Alexander también felicitó a todos los participantes de la IMO 2025 y destacó que en el equipo hay muchas personas que participaron anteriormente en la IMO
- También está previsto publicar las soluciones del modelo a los problemas de la IMO 2025, aunque con un estilo experimental
1 comentarios
Comentarios de Hacker News
Noam Brown: cuando trabajas en un laboratorio de punta, normalmente te toca ver nuevas capacidades con unos meses de anticipación, pero este resultado fue un logro realmente nuevo que usó técnicas desarrolladas muy recientemente; incluso para los investigadores internos de OpenAI fue algo sorprendente, y hasta hoy cualquiera pudo comprobar dónde está realmente la frontera
Además, este logro fue impulsado por un equipo pequeño, donde Alex Wei convirtió en resultados reales una idea de investigación en la que no mucha gente creía, y también jugaron un papel importante años de investigación e ingeniería de OpenAI y de la comunidad de IA
Enlace: https://x.com/polynoamial/status/1946478258968531288
Curiosamente, llama la atención que las soluciones del IMO usan un vocabulario bastante limitado
Enlace: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “No hace falta alargar las cosas cuando menos palabras funcionan mejor”
Y otro punto notable es que el propio Alex Wei también fue medallista de oro de la IOI
A quienes lo menosprecian porque supuestamente esto es “nivel preparatoria”, les recomendaría intentar resolver un problema de la IMO; todos están publicados, incluidos los de este año
Enlace: https://www.imo-official.org/problems.aspx
A mí me deja mareado
Por ejemplo, vi uno como el problema
x+y=1, xy=1, y al final la solución solo usa álgebra básica de la que todos conocemos (factorización, fórmula general, etc.), pero hasta la explicación es hermosaTe hace sentir que si lo pensaras el tiempo suficiente podrías encontrar la respuesta, pero por mi experiencia no es así para nada
Enlace: https://www.youtube.com/watch?v=csS4BjQuhCc
Parece que son como 50 idiomas, y al haber tantos se me ocurre que mantener la seguridad, por ejemplo evitar filtraciones, debe volverse mucho más difícil
Que estos problemas sean “nivel preparatoria” solo se refiere al conocimiento previo requerido; en realidad son extremadamente difíciles
Incluso a matemáticos profesionales que no vienen de la IMO les costaría rendir a este nivel
Eso no significa que la IA sea mejor que los humanos en matemáticas; los matemáticos se enfocan en ampliar la frontera de las matemáticas
Dicen que las respuestas correctas no estaban en los datos de entrenamiento
Y afirman que este modelo tampoco está especializado solo en problemas de la IMO
Sigues ajustando el proceso de entrenamiento, y si mejora el rendimiento en validación, vuelves a elegir arquitectura y datos en función de eso
Aunque no quieras, poco a poco la información del conjunto de validación se va filtrando al modelo
Si eliges un conjunto de validación distinto, terminas con un modelo completamente diferente
La forma en que responde da totalmente esa impresión
Ej.: https://xcancel.com/alexwei_/status/1946477742855532918
Captura de la respuesta real: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
Parece que va y viene entre lenguaje natural y un sistema tipo Lean, al estilo AlphaProof
OpenAI probablemente no va a compartir esos detalles de implementación
En el hilo: “el modelo resolvió P1~P5 y no logró responder P6”
El problema más difícil (P6) casi ningún humano pudo resolverlo tampoco; incluso el equipo de China solo obtuvo 21 puntos de 42, y en la mayoría de los otros países nadie lo resolvió
Normalmente el orden de dificultad está pensado como P1, P4, P2, P5, P3, P6; P1 es el más fácil y P6 el más difícil
En la práctica, a veces ese orden no se cumple
Incluso si fuera simple azar mecánico, también podría haber generado respuestas equivocadas, así que queda la duda de si no seleccionaron solo las respuestas correctas, es decir, si no escogieron únicamente los resultados exitosos
Google también participó en esta IMO y obtuvo oro
Enlace: https://x.com/natolambert/status/1946569475396120653
Como OAI lo anunció primero, parece probable que Google haga pronto su anuncio oficial
En Twitter decían que Google usó Lean, mientras que OpenAI usó solo el LLM sin herramientas
Sea cual sea el método, el resultado en sí es lo más importante, pero los límites de cada técnica y cómo van evolucionando también son referencias interesantes
Lo llamativo del oro de OpenAI es que supuestamente fue posible con puro LLM
Cuando Google haga su anuncio oficial, sabremos qué enfoque utilizó
La ventaja del enfoque LLM es que probablemente se pueda generalizar no solo a demostraciones matemáticas sino a muchos otros problemas de razonamiento
Noam Brown:
No es un modelo especializado para la IMO, sino un LLM de razonamiento con nuevas técnicas experimentales de propósito general
Su proceso de pensamiento es mucho más eficiente que el de o1 y o3, y la eficiencia en tiempo de prueba todavía puede empujarse más hacia adelante
El ritmo reciente de avance de la IA ha sido rápido, pero espero que siga así
En particular, creo que estamos cerca del punto en que la IA empezará a contribuir de verdad al descubrimiento científico
Hasta hace poco yo pensaba que el avance se estaba desacelerando, pero por varias afirmaciones (que no sea un modelo especializado y que todavía haya margen para mejorar eficiencia) aquí sí se ve un progreso sustancial muy claro
Enlace: https://x.com/polynoamial/status/1946478249187377206
“si el oponente sigue una estrategia de respuesta (fija), nunca pierde. Para que ella gane (para que el oponente pierda), tendría que cumplirse Q_{even-1}>even, o sea que algún a_j> sqrt2, pero ya se tiene a_j<=c< sqrt2. Por lo tanto, nunca puede perder” y así sucesivamente
se siente como una actitud orientada a maximizar eficiencia con muy pocas palabras
Enlace: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
Es un logro realmente impresionante, pero me pregunto cómo lo hicieron
Por la idea que comentó Wei de “escalar el cómputo en tiempo de prueba”, suena a que debieron gastar una cantidad brutal de dinero
Si solo corrieron miles o decenas de miles de intentos en paralelo y escogieron el mejor resultado, sería decepcionante
Si de verdad es un logro sólido, deberían explicar con transparencia qué herramientas usaron y cómo las usaron
Supongo que aquí entraron varias técnicas para elevar rendimiento en problemas difíciles de verificar
Más bien significaría que puede distinguir entre exactitud y rigor de la respuesta correcta, y eso no es tan distinto de cómo una persona, rara vez, también logra resolverlo
Ese fue también el método con el benchmark ARC de o3 en sus primeras etapas
Quizá incluso haya sido una colaboración entre varios agentes, lo que también habría permitido esquivar el límite de longitud de contexto (límite de tokens)
A estas alturas la IA ya superó al 99.99% de los humanos en casi cualquier problema de matemáticas, así que superar al 99.999% ya ni siquiera sería algo tan sorprendente
Si fue el propio LLM el que validó y seleccionó, entonces se parece al proceso de una persona que intenta varias veces resolver un problema difícil
La diferencia es que la IA, por tener más recursos de cómputo, puede hacerlo en paralelo, mientras que el humano solo puede intentarlo de forma secuencial
Como esta competencia (la IMO) está tan arriba en la pirámide, parece que incluso dentro de la comunidad de programadores hay mucha gente que no sabe exactamente qué es
Haciendo una cuenta rápida, solo en EE. UU. si tomas unas 20 personas seleccionadas para el campamento (con posibilidades de medalla de oro) entre una cohorte total de unos 20 millones de estudiantes de preparatoria, estás hablando de un talento de “uno entre un millón”
Yo también fui a una prepa de élite, pero nunca había oído hablar de la IMO hasta que llegué a la universidad y conocí participantes
En la práctica, la cantidad de estudiantes que saben del concurso y participan es muchísimo menor que el total de estudiantes
Más allá del talento, da la impresión de que muchísimos estudiantes también podrían haber logrado buenos resultados si hubieran tenido la oportunidad y la información adecuadas
Vi hace poco el reporte de evaluación de los LLM en la IMO 2025, y o3 high ni siquiera alcanzó nivel de bronce
Enlace: https://matharena.ai/imo/
También tengo curiosidad por la opinión de Terry Tao, pero este tipo de avance me parece justamente uno de los usos positivos de la IA
Más que innovar sin control mientras la economía ni siquiera está preparada, ojalá contribuya a acelerar el progreso científico
Enlace: https://mathstodon.xyz/@tao/114881419368778558