5 puntos por GN⁺ 2025-07-20 | 1 comentarios | Compartir por WhatsApp
  • Un LLM experimental de razonamiento desarrollado por OpenAI obtuvo un resultado de nivel medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) 2025
  • Siguiendo las reglas oficiales de la IMO, resolvió problemas y redactó demostraciones en lenguaje natural, y recibió una calificación unánime de 3 evaluadores humanos de 35 puntos sobre 42 (5 de 6 problemas resueltos)
  • Los problemas de la IMO exigen pensamiento creativo de alta dificultad y demostraciones en múltiples pasos, lo que demuestra que un LLM podría ir más allá de las limitaciones de los enfoques previos de RL y generar demostraciones lógicas de nivel humano
  • Es especialmente significativo que esto se haya logrado no con un enfoque centrado en tareas específicas, sino mediante aprendizaje por refuerzo general y escalado del cómputo en tiempo de prueba
  • El modelo es una versión de investigación, separada de GPT-5, que se lanzará pronto, y la publicación de su rendimiento matemático de más alto nivel está prevista para dentro de algunos meses

Resumen del resultado del LLM de OpenAI en la IMO 2025

  • Alexander Wei (@alexwei_) de OpenAI anunció que el más reciente modelo experimental de lenguaje con razonamiento obtuvo un resultado dentro del umbral de medalla de oro en la IMO 2025
    • La IMO es una competencia de altísima dificultad en la que participan jóvenes con talento matemático excepcional de todo el mundo, famosa por problemas que requieren razonamiento lógico complejo y una comprensión conceptual profunda
  • La evaluación se realizó igual que para los participantes humanos: dos exámenes de 4.5 horas, uso del cuestionario oficial, sin herramientas externas y con entrega de demostraciones en lenguaje natural
  • Cada problema fue calificado de forma independiente por 3 exmedallistas de la IMO, y la puntuación final se determinó por consenso unánime

Importancia del resultado y aumento de la dificultad

  • Los problemas de la IMO requieren mucho más tiempo de reflexión, creatividad y argumentación compleja que benchmarks previos como GSM8K, MATH y AIME
  • Este modelo obtuvo 35/42 puntos al resolver por completo 5 problemas (P1~P5) y no presentar P6, cumpliendo así el umbral real de medalla de oro de la IMO
  • La capacidad de generar demostraciones lógicas de varias páginas supera las limitaciones del aprendizaje por refuerzo (RL) anterior

Enfoque de investigación y contexto del avance en IA

  • El alto rendimiento se logró no con un modelo dedicado solo a resolver problemas específicos, sino sobre la base de RL general y escalado del cómputo
  • Se logró generar resultados creativos complejos incluso sin un sistema de recompensas tan claro como el que suele ofrecer el RL tradicional
  • Se trata de un modelo experimental, separado de GPT-5, cuyo lanzamiento es inminente, y no está previsto poner esta capacidad matemática al alcance general en los próximos meses

Perspectivas futuras y menciones de la comunidad

  • La velocidad del progreso en la capacidad matemática de la IA está superando ampliamente las expectativas (frente a predicciones de 30% en el benchmark MATH hechas en 2021, ahora se alcanzó el nivel de medalla de oro de la IMO)
  • Alexander también felicitó a todos los participantes de la IMO 2025 y destacó que en el equipo hay muchas personas que participaron anteriormente en la IMO
  • También está previsto publicar las soluciones del modelo a los problemas de la IMO 2025, aunque con un estilo experimental

1 comentarios

 
GN⁺ 2025-07-20
Comentarios de Hacker News
  • Noam Brown: cuando trabajas en un laboratorio de punta, normalmente te toca ver nuevas capacidades con unos meses de anticipación, pero este resultado fue un logro realmente nuevo que usó técnicas desarrolladas muy recientemente; incluso para los investigadores internos de OpenAI fue algo sorprendente, y hasta hoy cualquiera pudo comprobar dónde está realmente la frontera
    Además, este logro fue impulsado por un equipo pequeño, donde Alex Wei convirtió en resultados reales una idea de investigación en la que no mucha gente creía, y también jugaron un papel importante años de investigación e ingeniería de OpenAI y de la comunidad de IA
    Enlace: https://x.com/polynoamial/status/1946478258968531288

    • Espero que esa nueva técnica no haya sido entrenar con los datos de prueba /es broma
  • Curiosamente, llama la atención que las soluciones del IMO usan un vocabulario bastante limitado
    Enlace: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “No hace falta alargar las cosas cuando menos palabras funcionan mejor”
    Y otro punto notable es que el propio Alex Wei también fue medallista de oro de la IOI

    • Por otro lado, es interesante que se parece a las notas que deja un participante real mientras resuelve; reducir palabras innecesarias baja el ruido de información y ayuda a concentrarse más; sobre todo porque los LLM generan un token a la vez y tienen límites de longitud de contexto, así que me pregunto si usar solo tokens significativos podría llevar a un flujo de pensamiento más largo y coherente
    • Es curioso que haya ganado oro en la IOI (Olimpiada de Informática), mientras que aquí la discusión es sobre la IMO (Olimpiada de Matemáticas)
    • Terence Tao también predijo recientemente en un pódcast que este año un LLM se llevaría el oro
    • En los transformers, cada token tarda lo mismo en generarse sin importar cuánto significado tenga; si recortas las partes repetitivas o innecesarias del texto, la velocidad aumenta muchísimo
    • Quisiera preguntar si con “see the world” quiso decir “ver el mundo” o si era un juego de sonido tipo “SeaWorld”
  • A quienes lo menosprecian porque supuestamente esto es “nivel preparatoria”, les recomendaría intentar resolver un problema de la IMO; todos están publicados, incluidos los de este año
    Enlace: https://www.imo-official.org/problems.aspx
    A mí me deja mareado

    • Relacionado con eso, hay videos que muestran cómo se piensa y se resuelve realmente este tipo de problemas
    • Me gusta ver este tipo de videos de YouTube resolviendo problemas de la IMO; en la superficie parecen simples, pero son engañosos
      Por ejemplo, vi uno como el problema x+y=1, xy=1, y al final la solución solo usa álgebra básica de la que todos conocemos (factorización, fórmula general, etc.), pero hasta la explicación es hermosa
      Te hace sentir que si lo pensaras el tiempo suficiente podrías encontrar la respuesta, pero por mi experiencia no es así para nada
      Enlace: https://www.youtube.com/watch?v=csS4BjQuhCc
    • Me pregunto cómo se comparan estos problemas de la IMO con los de dificultad hard de leetcode
    • Apenas ahora me enteré de que los problemas de la IMO existen en varias versiones de idioma
      Parece que son como 50 idiomas, y al haber tantos se me ocurre que mantener la seguridad, por ejemplo evitar filtraciones, debe volverse mucho más difícil
  • Que estos problemas sean “nivel preparatoria” solo se refiere al conocimiento previo requerido; en realidad son extremadamente difíciles
    Incluso a matemáticos profesionales que no vienen de la IMO les costaría rendir a este nivel
    Eso no significa que la IA sea mejor que los humanos en matemáticas; los matemáticos se enfocan en ampliar la frontera de las matemáticas
    Dicen que las respuestas correctas no estaban en los datos de entrenamiento
    Y afirman que este modelo tampoco está especializado solo en problemas de la IMO

    • Según recuerdo de cuando hacía ciencia de datos, evitar la filtración del conjunto de validación es muchísimo más difícil de lo que parece
      Sigues ajustando el proceso de entrenamiento, y si mejora el rendimiento en validación, vuelves a elegir arquitectura y datos en función de eso
      Aunque no quieras, poco a poco la información del conjunto de validación se va filtrando al modelo
      Si eliges un conjunto de validación distinto, terminas con un modelo completamente diferente
    • De verdad dudo que no sea un modelo especializado para la IMO; en el hilo de Twitter hablaban de “razonamiento general”, pero si de verdad no hicieron RL con problemas de matemáticas de olimpiada, sí me gustaría escuchar una declaración oficial de OpenAI al respecto
    • Me pregunto en qué se basan para afirmar que “no es un modelo especializado para la IMO”
    • Me gustaría saber qué fundamento o evidencia hay detrás de “la respuesta correcta no está en los datos de entrenamiento” y “no es un modelo especializado para la IMO”
    • Por más que lo veo, parece casi seguro que sí es un modelo especializado para la IMO
      La forma en que responde da totalmente esa impresión
      Ej.: https://xcancel.com/alexwei_/status/1946477742855532918
      Captura de la respuesta real: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      Parece que va y viene entre lenguaje natural y un sistema tipo Lean, al estilo AlphaProof
      OpenAI probablemente no va a compartir esos detalles de implementación
  • En el hilo: “el modelo resolvió P1~P5 y no logró responder P6”
    El problema más difícil (P6) casi ningún humano pudo resolverlo tampoco; incluso el equipo de China solo obtuvo 21 puntos de 42, y en la mayoría de los otros países nadie lo resolvió

    • En la IMO, el primer día se ven P1, P2, P3, y el segundo día P4, P5, P6
      Normalmente el orden de dificultad está pensado como P1, P4, P2, P5, P3, P6; P1 es el más fácil y P6 el más difícil
      En la práctica, a veces ese orden no se cumple
    • Creo que alguien del equipo de Canadá sí resolvió P6, pero en general fueron poquísimos
    • Que la máquina falle en los mismos problemas que les resultan difíciles a los humanos (especialmente P6) parece una pista de que pudo haber intervención humana
      Incluso si fuera simple azar mecánico, también podría haber generado respuestas equivocadas, así que queda la duda de si no seleccionaron solo las respuestas correctas, es decir, si no escogieron únicamente los resultados exitosos
  • Google también participó en esta IMO y obtuvo oro
    Enlace: https://x.com/natolambert/status/1946569475396120653
    Como OAI lo anunció primero, parece probable que Google haga pronto su anuncio oficial

    • Viendo el comentario de Noam Brown de que “incluso los investigadores internos de OpenAI se sorprendieron”, si varios laboratorios lograron este resultado al mismo tiempo, eso sería todavía más impresionante
      En Twitter decían que Google usó Lean, mientras que OpenAI usó solo el LLM sin herramientas
      Sea cual sea el método, el resultado en sí es lo más importante, pero los límites de cada técnica y cómo van evolucionando también son referencias interesantes
    • AlphaProof de Google ganó plata el año pasado y usó un enfoque neuro+simbólico
      Lo llamativo del oro de OpenAI es que supuestamente fue posible con puro LLM
      Cuando Google haga su anuncio oficial, sabremos qué enfoque utilizó
      La ventaja del enfoque LLM es que probablemente se pueda generalizar no solo a demostraciones matemáticas sino a muchos otros problemas de razonamiento
  • Noam Brown:
    No es un modelo especializado para la IMO, sino un LLM de razonamiento con nuevas técnicas experimentales de propósito general
    Su proceso de pensamiento es mucho más eficiente que el de o1 y o3, y la eficiencia en tiempo de prueba todavía puede empujarse más hacia adelante
    El ritmo reciente de avance de la IA ha sido rápido, pero espero que siga así
    En particular, creo que estamos cerca del punto en que la IA empezará a contribuir de verdad al descubrimiento científico
    Hasta hace poco yo pensaba que el avance se estaba desacelerando, pero por varias afirmaciones (que no sea un modelo especializado y que todavía haya margen para mejorar eficiencia) aquí sí se ve un progreso sustancial muy claro
    Enlace: https://x.com/polynoamial/status/1946478249187377206

    • Creo que hay una diferencia considerable entre “un modelo que resuelve preguntas de examen” y “una IA que contribuye al descubrimiento científico”
    • Suena como un sueño, pero igual que se hace fine-tuning para exámenes específicos como el de abogacía, estos modelos muchas veces ya fueron entrenados con versiones anteriores de ese mismo tipo de examen
    • Me pregunto si durante el fine-tuning se usó también alguna herramienta (probadores automáticos, etc.)
    • La parte de “piensa de forma más eficiente que o1 y o3”,
      “si el oponente sigue una estrategia de respuesta (fija), nunca pierde. Para que ella gane (para que el oponente pierda), tendría que cumplirse Q_{even-1}>even, o sea que algún a_j> sqrt2, pero ya se tiene a_j<=c< sqrt2. Por lo tanto, nunca puede perder” y así sucesivamente
      se siente como una actitud orientada a maximizar eficiencia con muy pocas palabras
      Enlace: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • Ahora que ya llegamos al “peak data”, donde escasean los datos, me pregunto cuál es la ruta clara de avance para seguir mejorando eficiencia
  • Es un logro realmente impresionante, pero me pregunto cómo lo hicieron
    Por la idea que comentó Wei de “escalar el cómputo en tiempo de prueba”, suena a que debieron gastar una cantidad brutal de dinero
    Si solo corrieron miles o decenas de miles de intentos en paralelo y escogieron el mejor resultado, sería decepcionante
    Si de verdad es un logro sólido, deberían explicar con transparencia qué herramientas usaron y cómo las usaron
    Supongo que aquí entraron varias técnicas para elevar rendimiento en problemas difíciles de verificar

    • Aunque lo corrieran 10000 veces en paralelo, eso no lo vuelve mucho menos interesante
      Más bien significaría que puede distinguir entre exactitud y rigor de la respuesta correcta, y eso no es tan distinto de cómo una persona, rara vez, también logra resolverlo
    • Según el hilo de Twitter, no se le dieron herramientas aparte
    • De hecho, creo que es muy probable que OpenAI sí haya corrido miles o decenas de miles de intentos en paralelo y luego eligiera resultados
      Ese fue también el método con el benchmark ARC de o3 en sus primeras etapas
      Quizá incluso haya sido una colaboración entre varios agentes, lo que también habría permitido esquivar el límite de longitud de contexto (límite de tokens)
      A estas alturas la IA ya superó al 99.99% de los humanos en casi cualquier problema de matemáticas, así que superar al 99.999% ya ni siquiera sería algo tan sorprendente
    • Si OpenAI lo corrió 10000 veces y luego un humano eligió el resultado manualmente, el significado cambia bastante
      Si fue el propio LLM el que validó y seleccionó, entonces se parece al proceso de una persona que intenta varias veces resolver un problema difícil
      La diferencia es que la IA, por tener más recursos de cómputo, puede hacerlo en paralelo, mientras que el humano solo puede intentarlo de forma secuencial
  • Como esta competencia (la IMO) está tan arriba en la pirámide, parece que incluso dentro de la comunidad de programadores hay mucha gente que no sabe exactamente qué es
    Haciendo una cuenta rápida, solo en EE. UU. si tomas unas 20 personas seleccionadas para el campamento (con posibilidades de medalla de oro) entre una cohorte total de unos 20 millones de estudiantes de preparatoria, estás hablando de un talento de “uno entre un millón”

    • No lo digo para restarle mérito a lo brutalmente difícil que es la competencia
      Yo también fui a una prepa de élite, pero nunca había oído hablar de la IMO hasta que llegué a la universidad y conocí participantes
      En la práctica, la cantidad de estudiantes que saben del concurso y participan es muchísimo menor que el total de estudiantes
      Más allá del talento, da la impresión de que muchísimos estudiantes también podrían haber logrado buenos resultados si hubieran tenido la oportunidad y la información adecuadas
  • Vi hace poco el reporte de evaluación de los LLM en la IMO 2025, y o3 high ni siquiera alcanzó nivel de bronce
    Enlace: https://matharena.ai/imo/
    También tengo curiosidad por la opinión de Terry Tao, pero este tipo de avance me parece justamente uno de los usos positivos de la IA
    Más que innovar sin control mientras la economía ni siquiera está preparada, ojalá contribuya a acelerar el progreso científico