-
Introducción a o3 y FrontierMath
- o3 es el nuevo modelo de lenguaje de OpenAI y obtuvo un 25% en un conjunto de datos privado llamado FrontierMath.
- FrontierMath es un conjunto de datos privado compuesto por problemas matemáticos difíciles presentados por Epoch AI.
- El conjunto incluye problemas como "¡Encuentra el número!" y exige respuestas claras que puedan verificarse de forma automática.
-
Dificultad del conjunto de datos FrontierMath
- Los problemas de FrontierMath también son atípicos para matemáticos investigadores, y algunos requieren conocimientos de nivel doctoral.
- Los problemas del conjunto se enfocan más en encontrar números que en escribir demostraciones matemáticas.
- Dado que los investigadores matemáticos suelen dedicar su tiempo a encontrar pruebas o ideas, FrontierMath es un conjunto de datos clave para la investigación matemática con IA.
-
Capacidad matemática de la IA
- La IA resuelve bien los problemas matemáticos de nivel de secundaria y se espera que pronto también apruebe exámenes de matemáticas universitarias.
- Sin embargo, sigue siendo un reto generar ideas verdaderamente innovadoras por encima del nivel avanzado de licenciatura.
- Aunque es notable que o3 haya obtenido un 25%, se argumenta que algunos problemas pueden ser de nivel universitario.
-
El rol de la IA en la investigación matemática
- En la investigación matemática, lo más importante es resolver problemas del tipo "¡Demuestra este teorema!".
- AlphaProof de DeepMind resolvió 4 problemas de la Olimpiada Internacional de Matemáticas de 2024, y algunos fueron validados con pruebas completas en Lean.
- Para que la IA tenga un papel más grande en la investigación matemática, debe poder explicar pruebas de forma comprensible para las personas.
-
Perspectivas futuras
- Para que la IA tenga un papel más grande en la investigación matemática, debe poder explicar pruebas de forma comprensible para las personas.
- El progreso de la IA avanza rápidamente, pero aún queda mucho camino por recorrer.
- Aún no está claro cuándo la IA superará la barrera del nivel de licenciatura.
1 comentarios
Comentario de Hacker News
En el hilo de Reddit, de los tres niveles de dificultad, 25% eran T1 (el más fácil) y 50% eran T2. De los cinco problemas públicos que vio el autor, dos eran T1 y dos eran T2. Glazer los describió como problemas de nivel "IMO/pregrado", pero el autor no los considera nivel de pregrado. Los LLM ya están haciendo cosas que harían que el autor se sorprendiera.
Cuando intenté usar ChatGPT para entender álgebra lineal, en matemáticas reales comete errores tontos con frecuencia. Por ejemplo, indexar más allá de la dimensión de un vector, intentar descomponer una matriz con respecto a un escalar o intentar multiplicar matrices con dimensiones incompatibles.
O1 detecta mejor los errores que 4o, pero todavía comete muchos errores tontos. Sin la ayuda de alguien con cierto conocimiento, le cuesta producir resultados de forma consistente.
En una charla de Akshay Venkatesh se discutió el futuro del "oficio de matemático" si la prueba teórica automatizada se vuelve más común. Habló de cómo los avances en inferencia automática podrían cambiar la manera de conceptualizar y practicar la matemática de investigación.
Como padre de un hijo de 18 años que quiere estudiar matemáticas, me preocupa que la automatización haga desaparecer ese oficio. Sin embargo, dudo de que los LLM puedan reemplazarlo por completo. Creo que todavía habrá un papel para los humanos porque los LLM no cuentan con tiempo ni recursos infinitos para resolverlo todo.
No estoy seguro de que LLM pueda construir un conjunto de problemas que resuelva casi cualquier cosa, pero no creo que se convierta en un solucionador general capaz de reemplazar el razonamiento humano. Pienso que no habrá razonamiento hasta que la IA desarrolle una racionalidad social autónoma en el sentido humano.
Se dieron ejemplos de errores básicos de ChatGPT. Por ejemplo, al derivar la fórmula de eficiencia de Stop-and-Wait ARQ explicó pasos incorrectos. Como otro ejemplo, al pedir un silogismo para practicar devolvió un silogismo inconsistente.
Se sugirió que el conjunto de datos FrontierMath podría estar dañado. Se espera que si OpenAI conoce las preguntas, podría superar el 80% en FrontierMath en la siguiente versión.
Se enfrenta a un problema similar al de la investigación cuántica. Para demostrar progreso hay que hacer cálculos imposibles de ejecutar con una computadora tradicional. Cuando ChatGPT obtuvo 25%, surgió la pregunta de cuán cerca estaban esos 25% de las preguntas del conjunto de entrenamiento.
Había preocupación por la posibilidad de que un modelo de lenguaje entregue una "prueba" de la hipótesis de Riemann. Los matemáticos podrían intentar validar esas pruebas, pero podría tomar mucho tiempo.
No habrá máquinas participando en el IMO 2025. En la IMO no existe el concepto de "calificador"; la puntuación se determina mediante negociación entre el líder de cada país y el jurado. No parece que cientos de personas se queden más tiempo para calificar trabajo de IA.