1 puntos por GN⁺ 2024-12-24 | Aún no hay comentarios. | Compartir por WhatsApp
  • El nuevo modelo de lenguaje de OpenAI, o3, obtuvo 25% en el difícil benchmark matemático FrontierMath, reabriendo el debate sobre si la IA matemática puede superar el nivel de licenciatura
  • FrontierMath es un conjunto de datos privado creado por Epoch AI, compuesto por cientos de problemas matemáticos difíciles que, más que “demostrar un teorema”, exigen respuestas numéricas verificables automáticamente
  • Las 5 muestras publicadas no fueron fáciles ni siquiera para matemáticos de investigación; Tao las calificó como “extremadamente desafiantes”, pero Borcherds considera que dar una respuesta numérica no equivale a una prueba original
  • Como Elliot Glazer de Epoch AI indicó que el 25% de los problemas eran de estilo IMO/licenciatura, es difícil confirmar, dada la naturaleza privada del dataset, a qué nivel de dificultad corresponde realmente el 25% logrado por o3
  • Para los matemáticos, la meta más importante no es “encuentra este número”, sino demostrar correctamente un teorema y explicarlo de forma comprensible para los humanos; los modelos de lenguaje y los enfoques basados en Lean tienen limitaciones distintas

o3 y FrontierMath movieron la línea base

  • o3 es el nuevo modelo de lenguaje de OpenAI y obtuvo 25% en FrontierMath
  • Desde ChatGPT, los modelos de lenguaje públicos han mejorado rápidamente, y su capacidad para resolver problemas matemáticos también se evalúa dentro de esa tendencia
  • FrontierMath es un dataset privado de problemas matemáticos creado por Epoch AI; en el resumen del paper se dice que contiene “cientos” de problemas difíciles
  • Si el dataset se hiciera público, los modelos de lenguaje podrían aprenderse los problemas y las respuestas, por lo que incluso información básica como la cantidad exacta de preguntas se maneja con cuidado
    • Si se publican los problemas y sus respuestas, el modelo puede simplemente reproducir respuestas que ya vio
    • Por eso, desde fuera es difícil verificar la dificultad real y la representatividad de un benchmark privado

Formato y dificultad de los problemas de FrontierMath

  • Los problemas de FrontierMath no son del tipo “demuestra este teorema”, sino más bien del tipo “encuentra este número
  • El problema debe tener una respuesta clara y computable, y esta debe poder verificarse automáticamente
  • Las respuestas de las 5 muestras publicadas son todas enteros positivos
    • Entre las respuestas de ejemplo están 9811 y 367707
    • Las otras tres respuestas son más grandes, diseñadas para que sea difícil acertarlas al azar
  • Las muestras publicadas no son triviales ni siquiera para matemáticos de investigación
    • El autor entendió los enunciados de los 5 problemas
    • El tercer problema podía resolverse relativamente rápido, y del quinto sabía un método estándar usando las Weil conjectures for curves, aunque no calculó la respuesta de 13 dígitos
    • Consideró que no podía resolver el primero ni el segundo, y pensó que en el cuarto quizá podría avanzar con esfuerzo, pero prefirió leer la explicación
  • Incluso a un estudiante brillante de licenciatura en matemáticas podría costarle resolver cualquiera de estos problemas
    • El primer problema probablemente requiere nivel de doctorado o más en teoría analítica de números

Ventajas y límites de un benchmark de respuestas numéricas

  • La razón principal por la que FrontierMath usa problemas con respuesta numérica es el costo de evaluación
  • Para evaluar cientos de respuestas del tipo “demuestra este teorema” se necesitarían expertos humanos
    • A juicio del autor, en 2024 aún es difícil dejar ese nivel de corrección a una máquina
  • En cambio, una lista de respuestas numéricas puede compararse muy rápido con una computadora
  • Borcherds considera que los matemáticos de investigación pasan la mayor parte del tiempo buscando no números, sino pruebas e ideas
  • Aun así, FrontierMath tiene valor dentro del campo de la IA matemática
    • Hay muy pocos datasets realmente difíciles
    • Crear este tipo de datasets es muy difícil o muy costoso
    • Un texto reciente de Frieder y otros profundiza más en las limitaciones de los datasets de IA matemática

Por qué sorprendió el 25% de o3

  • La percepción previa era que la IA matemática estaba cerca de un nivel de licenciatura o inferior
  • La IA se está volviendo muy fuerte en problemas estilo olimpiada, del tipo que resuelven estudiantes sobresalientes de preparatoria
  • Parece claro que dentro de un año la IA podrá aprobar exámenes universitarios de matemáticas
    • Los exámenes de licenciatura suelen incluir problemas estándar que un estudiante que entendió el curso de manera básica puede aprobar
    • Una máquina puede resolver este tipo de problemas con facilidad
  • Pero el salto desde reutilizar ideas estándar hasta llegar a ideas innovadoras de nivel avanzado de licenciatura o inicio de doctorado parece grande
  • Las respuestas recientes de ChatGPT sobre el examen Putnam estuvieron por debajo de lo esperado
    • Parecía que la máquina respondió adecuadamente solo B4
    • La mayoría de las demás respuestas parecían de nivel 1 o 2 sobre 10
  • Por estas razones, se esperaba que FrontierMath fuera casi inabordable durante varios años

La incertidumbre que deja un dataset privado

  • Elliot Glazer de Epoch AI señaló en Reddit que el 25% de los problemas de FrontierMath eran de estilo IMO/licenciatura
  • Esa afirmación no parece encajar bien con las 5 preguntas publicadas
    • Incluso el problema más fácil de las muestras publicadas admitía un enfoque usando Weil conjectures for curves
    • O también podría requerir una dolorosa búsqueda por fuerza bruta para factorizar un polinomio cúbico de grado 10^12 sobre un campo finito
  • Esto deja dudas sobre la dificultad real del dataset privado y sobre si las 5 preguntas publicadas son una muestra representativa
  • Como el dataset no es público, no es fácil comprobarlo
  • Si ese 25% corresponde a problemas de nivel licenciatura, entonces el 25% de o3 podría ser menos sorprendente
  • El gran avance esperado sería el momento en que la IA muestre un desempeño significativo en el siguiente 50% de problemas, descritos como de nivel “qual”

“Demuestra este teorema” sigue siendo otro problema

  • En la investigación matemática, la pregunta importante suele ser “demuestra este teorema
  • Incluso si aparece una máquina con rendimiento sobrehumano en problemas de encontrar números, su aplicabilidad podría seguir siendo limitada en muchas áreas de la matemática de investigación
  • El mayor caso de éxito de 2024 fue AlphaProof de DeepMind
    • AlphaProof resolvió 4 de los 6 problemas de la IMO 2024
    • Los problemas eran del tipo “demuestra este teorema” o “encuentra este número y demuestra que es correcto”
    • Tres de ellos se produjeron como pruebas completamente formalizadas en Lean
  • Lean es un demostrador interactivo de teoremas, y mathlib es una biblioteca matemática que incluye muchas de las técnicas necesarias para resolver problemas de la IMO, y más
  • Las soluciones del sistema de DeepMind fueron revisadas por humanos y verificadas como soluciones de “puntaje perfecto”
  • Sin embargo, aunque los problemas de la IMO son muy difíciles, sus soluciones usan solo técnicas de nivel escolar, así que en cierto sentido esto sigue volviendo a problemas de nivel preparatoria
  • Se espera que en 2025 una máquina muestre rendimiento de nivel medalla de oro en la IMO

¿Quién va a calificar la respuesta de una máquina?

  • Es posible imaginar que en la IMO de julio de 2025 participen no solo estudiantes humanos, sino también máquinas
  • Los sistemas de máquina podrían dividirse en dos tipos
    • Sistemas que entregan respuestas en lenguajes de verificadores de pruebas por computadora como Lean, Rocq o Isabelle
    • Modelos de lenguaje que entregan respuestas en lenguaje humano
  • Las respuestas presentadas en lenguajes de verificadores de pruebas solo requieren comprobar que el enunciado del problema fue traducido correctamente
    • Después de eso, si la prueba compila, prácticamente ya se sabe que es una solución de “puntaje perfecto”
  • Con los modelos de lenguaje que entregan respuestas en lenguaje natural, la situación es distinta
    • Aunque la respuesta parezca plausible, un corrector humano debe leerla y evaluarla con cuidado
    • No hay garantía de que sea una solución perfecta
  • Se considera que los modelos de lenguaje son al menos un orden de magnitud menos precisos que un experto humano en razonamiento lógico
  • Existe la preocupación de que una “prueba” generada por un modelo de lenguaje sobre la hipótesis de Riemann pueda mezclar afirmaciones vagas o imprecisas entre 10 páginas de matemáticas correctas
  • En cambio, se considera que los demostradores de teoremas son al menos un orden de magnitud más precisos
    • En los casos que el autor ha visto donde Lean no aceptó un argumento de la literatura matemática humana, el lado humano estaba equivocado

Lo que falta: pruebas correctas y comprensión humana

  • Lo que los matemáticos quieren no es simplemente “demuestra este teorema”, sino una prueba correcta y una explicación que los humanos puedan entender
  • En el enfoque de modelos de lenguaje, la gran preocupación sigue siendo la “corrección”
  • En el enfoque de demostradores de teoremas, la preocupación es si está presentado de una forma que los humanos puedan comprender
  • Aún queda muchísimo por hacer
  • El ritmo de avance es rápido, pero nadie sabe cuándo se superará la barrera de la licenciatura

Aún no hay comentarios.

Aún no hay comentarios.