OpenAI anuncia logro de nivel medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) 2025

(twitter.com/alexwei_)

5 puntos por GN⁺ 2025-07-20 | 1 comentarios | Compartir por WhatsApp

Un LLM experimental de razonamiento desarrollado por OpenAI obtuvo un resultado de nivel medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) 2025
Siguiendo las reglas oficiales de la IMO, resolvió problemas y redactó demostraciones en lenguaje natural, y recibió una calificación unánime de 3 evaluadores humanos de 35 puntos sobre 42 (5 de 6 problemas resueltos)
Los problemas de la IMO exigen pensamiento creativo de alta dificultad y demostraciones en múltiples pasos, lo que demuestra que un LLM podría ir más allá de las limitaciones de los enfoques previos de RL y generar demostraciones lógicas de nivel humano
Es especialmente significativo que esto se haya logrado no con un enfoque centrado en tareas específicas, sino mediante aprendizaje por refuerzo general y escalado del cómputo en tiempo de prueba
El modelo es una versión de investigación, separada de GPT-5, que se lanzará pronto, y la publicación de su rendimiento matemático de más alto nivel está prevista para dentro de algunos meses

Resumen del resultado del LLM de OpenAI en la IMO 2025

Alexander Wei (@alexwei_) de OpenAI anunció que el más reciente modelo experimental de lenguaje con razonamiento obtuvo un resultado dentro del umbral de medalla de oro en la IMO 2025
- La IMO es una competencia de altísima dificultad en la que participan jóvenes con talento matemático excepcional de todo el mundo, famosa por problemas que requieren razonamiento lógico complejo y una comprensión conceptual profunda
La evaluación se realizó igual que para los participantes humanos: dos exámenes de 4.5 horas, uso del cuestionario oficial, sin herramientas externas y con entrega de demostraciones en lenguaje natural
Cada problema fue calificado de forma independiente por 3 exmedallistas de la IMO, y la puntuación final se determinó por consenso unánime

Importancia del resultado y aumento de la dificultad

Los problemas de la IMO requieren mucho más tiempo de reflexión, creatividad y argumentación compleja que benchmarks previos como GSM8K, MATH y AIME
Este modelo obtuvo 35/42 puntos al resolver por completo 5 problemas (P1~P5) y no presentar P6, cumpliendo así el umbral real de medalla de oro de la IMO
La capacidad de generar demostraciones lógicas de varias páginas supera las limitaciones del aprendizaje por refuerzo (RL) anterior

Enfoque de investigación y contexto del avance en IA

El alto rendimiento se logró no con un modelo dedicado solo a resolver problemas específicos, sino sobre la base de RL general y escalado del cómputo
Se logró generar resultados creativos complejos incluso sin un sistema de recompensas tan claro como el que suele ofrecer el RL tradicional
Se trata de un modelo experimental, separado de GPT-5, cuyo lanzamiento es inminente, y no está previsto poner esta capacidad matemática al alcance general en los próximos meses

Perspectivas futuras y menciones de la comunidad

La velocidad del progreso en la capacidad matemática de la IA está superando ampliamente las expectativas (frente a predicciones de 30% en el benchmark MATH hechas en 2021, ahora se alcanzó el nivel de medalla de oro de la IMO)
Alexander también felicitó a todos los participantes de la IMO 2025 y destacó que en el equipo hay muchas personas que participaron anteriormente en la IMO
También está previsto publicar las soluciones del modelo a los problemas de la IMO 2025, aunque con un estilo experimental

1 comentarios

GN⁺ 2025-07-20

Comentarios de Hacker News

Noam Brown: cuando trabajas en un laboratorio de punta, normalmente te toca ver nuevas capacidades con unos meses de anticipación, pero este resultado fue un logro realmente nuevo que usó técnicas desarrolladas muy recientemente; incluso para los investigadores internos de OpenAI fue algo sorprendente, y hasta hoy cualquiera pudo comprobar dónde está realmente la frontera
Además, este logro fue impulsado por un equipo pequeño, donde Alex Wei convirtió en resultados reales una idea de investigación en la que no mucha gente creía, y también jugaron un papel importante años de investigación e ingeniería de OpenAI y de la comunidad de IA
Enlace: https://x.com/polynoamial/status/1946478258968531288
- Espero que esa nueva técnica no haya sido entrenar con los datos de prueba /es broma
Curiosamente, llama la atención que las soluciones del IMO usan un vocabulario bastante limitado
Enlace: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “No hace falta alargar las cosas cuando menos palabras funcionan mejor”
Y otro punto notable es que el propio Alex Wei también fue medallista de oro de la IOI
- Por otro lado, es interesante que se parece a las notas que deja un participante real mientras resuelve; reducir palabras innecesarias baja el ruido de información y ayuda a concentrarse más; sobre todo porque los LLM generan un token a la vez y tienen límites de longitud de contexto, así que me pregunto si usar solo tokens significativos podría llevar a un flujo de pensamiento más largo y coherente
- Es curioso que haya ganado oro en la IOI (Olimpiada de Informática), mientras que aquí la discusión es sobre la IMO (Olimpiada de Matemáticas)
- Terence Tao también predijo recientemente en un pódcast que este año un LLM se llevaría el oro
- En los transformers, cada token tarda lo mismo en generarse sin importar cuánto significado tenga; si recortas las partes repetitivas o innecesarias del texto, la velocidad aumenta muchísimo
- Quisiera preguntar si con “see the world” quiso decir “ver el mundo” o si era un juego de sonido tipo “SeaWorld”
A quienes lo menosprecian porque supuestamente esto es “nivel preparatoria”, les recomendaría intentar resolver un problema de la IMO; todos están publicados, incluidos los de este año
Enlace: https://www.imo-official.org/problems.aspx
A mí me deja mareado
- Relacionado con eso, hay videos que muestran cómo se piensa y se resuelve realmente este tipo de problemas
  - Solución de 3Blue1Brown a la dificilísima Q2 de la IMO 2011: https://www.youtube.com/watch?v=M64HUIJFTZM
  - Video resolviendo un problema de Putnam de dificultad parecida: https://www.youtube.com/watch?v=OkmNXy7er84
  - Timothy Gowers, medallista Fields y ganador de puntaje perfecto en la IMO, resolviendo en vivo problemas de la IMO de este año
    - Q1: https://www.youtube.com/watch?v=1G1nySyVs2w
    - Q4: https://www.youtube.com/watch?v=O-vp4zGzwIs
- Me gusta ver este tipo de videos de YouTube resolviendo problemas de la IMO; en la superficie parecen simples, pero son engañosos
  Por ejemplo, vi uno como el problema x+y=1, xy=1, y al final la solución solo usa álgebra básica de la que todos conocemos (factorización, fórmula general, etc.), pero hasta la explicación es hermosa
  Te hace sentir que si lo pensaras el tiempo suficiente podrías encontrar la respuesta, pero por mi experiencia no es así para nada
  Enlace: https://www.youtube.com/watch?v=csS4BjQuhCc
- Me pregunto cómo se comparan estos problemas de la IMO con los de dificultad hard de leetcode
- Apenas ahora me enteré de que los problemas de la IMO existen en varias versiones de idioma
  Parece que son como 50 idiomas, y al haber tantos se me ocurre que mantener la seguridad, por ejemplo evitar filtraciones, debe volverse mucho más difícil
Que estos problemas sean “nivel preparatoria” solo se refiere al conocimiento previo requerido; en realidad son extremadamente difíciles
Incluso a matemáticos profesionales que no vienen de la IMO les costaría rendir a este nivel
Eso no significa que la IA sea mejor que los humanos en matemáticas; los matemáticos se enfocan en ampliar la frontera de las matemáticas
Dicen que las respuestas correctas no estaban en los datos de entrenamiento
Y afirman que este modelo tampoco está especializado solo en problemas de la IMO
- Según recuerdo de cuando hacía ciencia de datos, evitar la filtración del conjunto de validación es muchísimo más difícil de lo que parece
  Sigues ajustando el proceso de entrenamiento, y si mejora el rendimiento en validación, vuelves a elegir arquitectura y datos en función de eso
  Aunque no quieras, poco a poco la información del conjunto de validación se va filtrando al modelo
  Si eliges un conjunto de validación distinto, terminas con un modelo completamente diferente
- De verdad dudo que no sea un modelo especializado para la IMO; en el hilo de Twitter hablaban de “razonamiento general”, pero si de verdad no hicieron RL con problemas de matemáticas de olimpiada, sí me gustaría escuchar una declaración oficial de OpenAI al respecto
- Me pregunto en qué se basan para afirmar que “no es un modelo especializado para la IMO”
- Me gustaría saber qué fundamento o evidencia hay detrás de “la respuesta correcta no está en los datos de entrenamiento” y “no es un modelo especializado para la IMO”
- Por más que lo veo, parece casi seguro que sí es un modelo especializado para la IMO
  La forma en que responde da totalmente esa impresión
  Ej.: https://xcancel.com/alexwei_/status/1946477742855532918
  Captura de la respuesta real: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
  Parece que va y viene entre lenguaje natural y un sistema tipo Lean, al estilo AlphaProof
  OpenAI probablemente no va a compartir esos detalles de implementación
En el hilo: “el modelo resolvió P1~P5 y no logró responder P6”
El problema más difícil (P6) casi ningún humano pudo resolverlo tampoco; incluso el equipo de China solo obtuvo 21 puntos de 42, y en la mayoría de los otros países nadie lo resolvió
- En la IMO, el primer día se ven P1, P2, P3, y el segundo día P4, P5, P6
  Normalmente el orden de dificultad está pensado como P1, P4, P2, P5, P3, P6; P1 es el más fácil y P6 el más difícil
  En la práctica, a veces ese orden no se cumple
- Creo que alguien del equipo de Canadá sí resolvió P6, pero en general fueron poquísimos
- Que la máquina falle en los mismos problemas que les resultan difíciles a los humanos (especialmente P6) parece una pista de que pudo haber intervención humana
  Incluso si fuera simple azar mecánico, también podría haber generado respuestas equivocadas, así que queda la duda de si no seleccionaron solo las respuestas correctas, es decir, si no escogieron únicamente los resultados exitosos
Google también participó en esta IMO y obtuvo oro
Enlace: https://x.com/natolambert/status/1946569475396120653
Como OAI lo anunció primero, parece probable que Google haga pronto su anuncio oficial
- Viendo el comentario de Noam Brown de que “incluso los investigadores internos de OpenAI se sorprendieron”, si varios laboratorios lograron este resultado al mismo tiempo, eso sería todavía más impresionante
  En Twitter decían que Google usó Lean, mientras que OpenAI usó solo el LLM sin herramientas
  Sea cual sea el método, el resultado en sí es lo más importante, pero los límites de cada técnica y cómo van evolucionando también son referencias interesantes
- AlphaProof de Google ganó plata el año pasado y usó un enfoque neuro+simbólico
  Lo llamativo del oro de OpenAI es que supuestamente fue posible con puro LLM
  Cuando Google haga su anuncio oficial, sabremos qué enfoque utilizó
  La ventaja del enfoque LLM es que probablemente se pueda generalizar no solo a demostraciones matemáticas sino a muchos otros problemas de razonamiento
Noam Brown:
No es un modelo especializado para la IMO, sino un LLM de razonamiento con nuevas técnicas experimentales de propósito general
Su proceso de pensamiento es mucho más eficiente que el de o1 y o3, y la eficiencia en tiempo de prueba todavía puede empujarse más hacia adelante
El ritmo reciente de avance de la IA ha sido rápido, pero espero que siga así
En particular, creo que estamos cerca del punto en que la IA empezará a contribuir de verdad al descubrimiento científico
Hasta hace poco yo pensaba que el avance se estaba desacelerando, pero por varias afirmaciones (que no sea un modelo especializado y que todavía haya margen para mejorar eficiencia) aquí sí se ve un progreso sustancial muy claro
Enlace: https://x.com/polynoamial/status/1946478249187377206
- Creo que hay una diferencia considerable entre “un modelo que resuelve preguntas de examen” y “una IA que contribuye al descubrimiento científico”
- Suena como un sueño, pero igual que se hace fine-tuning para exámenes específicos como el de abogacía, estos modelos muchas veces ya fueron entrenados con versiones anteriores de ese mismo tipo de examen
- Me pregunto si durante el fine-tuning se usó también alguna herramienta (probadores automáticos, etc.)
- La parte de “piensa de forma más eficiente que o1 y o3”,
  “si el oponente sigue una estrategia de respuesta (fija), nunca pierde. Para que ella gane (para que el oponente pierda), tendría que cumplirse Q_{even-1}>even, o sea que algún a_j> sqrt2, pero ya se tiene a_j<=c< sqrt2. Por lo tanto, nunca puede perder” y así sucesivamente
  se siente como una actitud orientada a maximizar eficiencia con muy pocas palabras
  Enlace: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
- Ahora que ya llegamos al “peak data”, donde escasean los datos, me pregunto cuál es la ruta clara de avance para seguir mejorando eficiencia
Es un logro realmente impresionante, pero me pregunto cómo lo hicieron
Por la idea que comentó Wei de “escalar el cómputo en tiempo de prueba”, suena a que debieron gastar una cantidad brutal de dinero
Si solo corrieron miles o decenas de miles de intentos en paralelo y escogieron el mejor resultado, sería decepcionante
Si de verdad es un logro sólido, deberían explicar con transparencia qué herramientas usaron y cómo las usaron
Supongo que aquí entraron varias técnicas para elevar rendimiento en problemas difíciles de verificar
- Aunque lo corrieran 10000 veces en paralelo, eso no lo vuelve mucho menos interesante
  Más bien significaría que puede distinguir entre exactitud y rigor de la respuesta correcta, y eso no es tan distinto de cómo una persona, rara vez, también logra resolverlo
- Según el hilo de Twitter, no se le dieron herramientas aparte
- De hecho, creo que es muy probable que OpenAI sí haya corrido miles o decenas de miles de intentos en paralelo y luego eligiera resultados
  Ese fue también el método con el benchmark ARC de o3 en sus primeras etapas
  Quizá incluso haya sido una colaboración entre varios agentes, lo que también habría permitido esquivar el límite de longitud de contexto (límite de tokens)
  A estas alturas la IA ya superó al 99.99% de los humanos en casi cualquier problema de matemáticas, así que superar al 99.999% ya ni siquiera sería algo tan sorprendente
- Si OpenAI lo corrió 10000 veces y luego un humano eligió el resultado manualmente, el significado cambia bastante
  Si fue el propio LLM el que validó y seleccionó, entonces se parece al proceso de una persona que intenta varias veces resolver un problema difícil
  La diferencia es que la IA, por tener más recursos de cómputo, puede hacerlo en paralelo, mientras que el humano solo puede intentarlo de forma secuencial
Como esta competencia (la IMO) está tan arriba en la pirámide, parece que incluso dentro de la comunidad de programadores hay mucha gente que no sabe exactamente qué es
Haciendo una cuenta rápida, solo en EE. UU. si tomas unas 20 personas seleccionadas para el campamento (con posibilidades de medalla de oro) entre una cohorte total de unos 20 millones de estudiantes de preparatoria, estás hablando de un talento de “uno entre un millón”
- No lo digo para restarle mérito a lo brutalmente difícil que es la competencia
  Yo también fui a una prepa de élite, pero nunca había oído hablar de la IMO hasta que llegué a la universidad y conocí participantes
  En la práctica, la cantidad de estudiantes que saben del concurso y participan es muchísimo menor que el total de estudiantes
  Más allá del talento, da la impresión de que muchísimos estudiantes también podrían haber logrado buenos resultados si hubieran tenido la oportunidad y la información adecuadas
Vi hace poco el reporte de evaluación de los LLM en la IMO 2025, y o3 high ni siquiera alcanzó nivel de bronce
Enlace: https://matharena.ai/imo/
También tengo curiosidad por la opinión de Terry Tao, pero este tipo de avance me parece justamente uno de los usos positivos de la IA
Más que innovar sin control mientras la economía ni siquiera está preparada, ojalá contribuya a acelerar el progreso científico
- Aquí está la reacción de Terry Tao
  Enlace: https://mathstodon.xyz/@tao/114881419368778558

OpenAI anuncia logro de nivel medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) 2025

Resumen del resultado del LLM de OpenAI en la IMO 2025

Importancia del resultado y aumento de la dificultad

Enfoque de investigación y contexto del avance en IA

Perspectivas futuras y menciones de la comunidad

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News