- Un investigador de OpenAI anunció que GPT-5 había resuelto un problema de Erdős, y esa publicación fue retirada poco después tras recibir críticas de la comunidad y de personas influyentes de la industria
- La afirmación podía interpretarse como que la IA había encontrado de forma independiente una prueba sustantiva de un problema matemático considerado sin resolver durante décadas
- En la práctica, GPT-5 solo mostró capacidad para redescubrir investigación existente y no fue una nueva solución para un problema matemático realmente sin resolver
- El caso alimentó la preocupación de la industria sobre la pérdida de credibilidad de OpenAI y los anuncios exagerados de resultados de IA sin verificación
- También se destacó que la verdadera fortaleza de GPT-5 es su rol como asistente para buscar papers de investigación y organizar literatura científica
Resumen del incidente
- Recientemente, un investigador de OpenAI anunció en X (antes Twitter) un avance decisivo: que GPT-5 había "resuelto 10 problemas abiertos de Erdős" y había logrado progreso adicional en 11 problemas más
- La declaración se entendió como que GPT-5 había derivado de forma independiente una prueba matemática para un difícil problema de teoría de números
- Varios investigadores de OpenAI publicaron mensajes similares, insinuando que esta IA podía lograr un descubrimiento científico innovador
Verificación y controversia en la comunidad
- El matemático Thomas Bloom, que administra el sitio Erdosproblems.com, lo rechazó de inmediato y explicó que los problemas marcados como "open" en el sitio no son realmente problemas no resueltos
- Esos casos eran simplemente ejemplos en los que Bloom no conocía la respuesta o no había revisado la investigación existente
- GPT-5 solo encontró resultados de investigación ya publicados y no descubrió un enfoque matemático nuevo
- Cuando se hizo público esto, los investigadores de OpenAI eliminaron o modificaron sus publicaciones
- La comunidad y figuras destacadas, como Demis Hassabis, CEO de DeepMind, calificaron el caso como "algo vergonzoso" y Yann LeCun, responsable de IA en Meta, también señaló que OpenAI se dejó llevar por su propia promoción
- Los investigadores admitieron el error y reexplicaron el rol real de GPT-5
Problemas de confianza y críticas de la industria
- Este caso amplió la evaluación de que OpenAI mostró fallos de credibilidad y en su proceso de verificación de hechos
- En particular, con la combinación de expectativas exageradas en la industria de la IA y el fervor de inversión relacionado, creció la preocupación sobre anuncios de logros no verificados
- También se plantearon preguntas sobre la salud interna de la organización al haber hecho afirmaciones tan dramáticas sin verificar entre líderes de investigación de la industria
Resultados reales y rol de la IA en matemáticas
- De forma concreta, la utilidad de GPT-5 quedó en evidencia como herramienta de apoyo para buscar artículos y recopilar material de investigación en problemas matemáticos complejos y con terminología diversa
- El matemático Terence Tao espera que la IA ayude a reducir drásticamente la búsqueda y revisión de grandes volúmenes de literatura, en lugar de ser la "solución" de los problemas matemáticos abiertos más recientes
- Existen algunos casos de avances independientes, pero por ahora destaca por su fortaleza en automatizar la búsqueda y organización de papers
- En el futuro, la IA generativa puede contribuir a mejorar la velocidad y la automatización en matemáticas
- Sin embargo, siguen siendo esenciales la validación experta, la clasificación y la integración de resultados
Conclusión
- Este caso ilustra de forma representativa los límites reales y el potencial industrial de la IA generativa, así como el riesgo de sobredimensionar anuncios de resultados de investigación en IA
- En consecuencia, se destaca que GPT-5 no es una ruptura innovadora para problemas matemáticos sin resolver, sino una herramienta de apoyo con potencial para ayudar a organizar materiales de investigación
1 comentarios
Opinión de Hacker News
Para ser justos con el equipo de OpenAI, si uno mira el contexto, me parece que la situación no fue tan malintencionada
El tuit eliminado decía: "GPT-5 resolvió 10 problemas de Erdös (antes no resueltos), y además hubo avances en otros 11, problemas que llevaban décadas sin resolverse"
Si ese tuit se hubiera publicado por sí solo, me parecería engañoso, pero en realidad era un quote tweet
El primer tuit citado (https://x.com/MarkSellke/status/1979226538059931886) decía algo como "estamos empujando esto más allá"
Y el segundo tuit original citado por ese (https://x.com/SebastienBubeck/status/1977181716457701775) explicaba que GPT-5 era excelente para buscar en la literatura y que "en realidad encontró un problema resuelto hace 20 años, y así 'resolvió' el problema de Erdos #339, que todavía estaba clasificado como abierto"
Si lees el hilo en orden
SebastienBubeck: "GPT-5 es muy bueno en búsqueda bibliográfica, así que encontró una solución ya existente y con eso, en cierto sentido, resolvió un problema que todavía se creía abierto"
MarkSellke: "ahora hizo 10 más"
kevinweil: "¡Miren este gran resultado que logramos!"
Al final, el problema fue la mecánica del quote tweet: como kevinweil estaba citando varias capas hacia atrás, perdió de vista el problema original —que en realidad consistía en encontrar una solución que ya existía—, y para el lector la estructura inevitablemente llevaba a la confusión
Este tipo de error me parece perfectamente comprensible, y creo que la controversia está algo exagerada
Sobre el hecho de que Weil no consideró suficientemente el contexto del quote tweet que publicó, el propio Weil reconoció directamente que malinterpretó la publicación de Sellke (puede verse en https://x.com/kevinweil/status/1979270343941591525)
Sellke dijo "clasificado como abierto", mientras que Weil habló de "problemas antes no resueltos"; ahí está la diferencia
La primera persona dijo "'resolvió' un problema al descubrir que ya había sido resuelto hace 20 años", y la segunda dijo "resolvió 10 problemas de Erdös antes no resueltos"
Me parece que la expresión "antes no resueltos" no corresponde al contexto real
Me pregunto si no estaré entendiendo mal
Me recuerda a cuando hace unos meses DeepMind publicó un paper diciendo que “hacía multiplicación de matrices mejor que el SOTA”
En ese momento se dijo que Gemini había encontrado una nueva optimización, pero poco después matemáticos señalaron que el método ya aparecía en literatura de hace 30-40 años, y que era bastante probable que ese contenido ya estuviera en los datos de entrenamiento de Gemini
Sobre eso de que "GPT-5 es muy bueno para búsqueda bibliográfica" y que "'resolvió' problemas que ya tenían solución"
Creo que eso es sesgo del superviviente
En la práctica, GPT-5 también falla muchas veces incluso en búsquedas relativamente sencillas
O ya sabes muy bien si el resultado es correcto, o necesitas validarlo tú mismo
Me da la impresión de que es como lanzar un dado 1000 veces y presumir cada vez que sale doble seis
Eso no significa que yo sea la mejor persona lanzando dados
Se menciona la refutación inmediata del matemático Thomas Bloom, quien administra erdosproblems.com
Enfatizó que no significaba "problema no resuelto (unsolved)", sino "abierto en el sentido de que yo no conozco la respuesta (open)"
Me parece raro que un matemático defina "abierto" de esa manera
Es como si yo llamara “pregunta abierta” a un ejercicio de un libro de texto cuya respuesta no sé
Rechazo a la afirmación de que "GPT-5 es útil como herramienta de apoyo para revisión bibliográfica"
En la práctica, me parece que solo produce resultados muy convincentes, pero falsos
Quien esté satisfecho con eso probablemente tiene una vida mucho más fácil que la mía
Yo termino pasando horas buscando papers y material de matemáticas de ingeniería, revolviendo bibliotecas, y como último recurso deposito mis esperanzas en un chatbot
Pero al final el resultado sale raro, paso mucho tiempo volviendo a verificarlo, y solo me queda la decepción de pensar: "esto no puede ser real"
También siento que no soy el único que ha tenido esta experiencia
Cuando hago búsquedas profundas de literatura con frecuencia, GPT inventa fuentes sin fundamento al menos en un 50% de los casos
En revisiones de alto nivel, las alucinaciones rondan más bien el 5%
De la mitad de fuentes reales, la mitad son papers que ya conozco y la otra mitad son papers que no me eran familiares
Lo realmente bueno es que a veces encuentra papers que eran difíciles de hallar antes, incluso algunos que no aparecen con Google Scholar y similares
En particular, te puede llevar a investigaciones relacionadas de otros campos o a papers con solo abstract y poca citación, entre muchas fuentes muy diversas
Aunque el 75% del resultado total sea inútil o alucinado, el 25% restante aporta tanto valor que en la práctica sigue siendo muy útil
Decir que "no sirve para nada" también me parece exagerado
GPT puede revisar 500 mil palabras en unos minutos y darte un resumen, una respuesta detallada y respaldo para cada afirmación
Claro, no debes confiar ciegamente en el resumen, y la información importante siempre hay que validarla abriendo la fuente
Aun así, sigue siendo una herramienta de búsqueda muy potente y un gran booster de productividad
No recuerdo el nombre, pero hay un principio sobre esto
Cuando lees un artículo periodístico sobre un tema que sí conoces, notas todos los errores y piensas: "¿cómo publicaron esto?"
Pero cuando se trata de un tema que no conoces, tiendes a creerlo sin cuestionarlo
Siento que con ChatGPT pasa algo parecido y mucha gente cae en esa confianza excesiva
En realidad, en vez de forzar el uso de chatbots como GPT-5 para búsqueda o revisión bibliográfica, quizá habría sido mejor usar un motor de búsqueda semántica realmente potente
Cuando le encargas a un chatbot que resuma o responda, las alucinaciones siempre vienen incluidas
En cambio, con búsqueda documental basada en embeddings de LLM, no existe el riesgo de que el resultado en sí sea una alucinación, y podría ser un mejor método para encontrar papers que ni Google ni Bing logran ubicar
Si ya existen servicios así y yo simplemente no los conozco, también hay que considerar esa posibilidad
Si a alguien le interesan las herramientas de revisión bibliográfica, comparto una plataforma pública que hice para amistades del posgrado
Usa un modelo jerárquico mixto para organizar búsquedas masivas y redes de citación
Ejemplo de uso: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
También deja una impresión bastante mala el contraste de que, en la misma semana en que DeepMind mostró un avance real usando IA para el tratamiento del cáncer, saliera este tema de OpenAI
Me acordé de algo que decía un exjefe mío: "no seas la persona que obliga a crear una nueva política"
Parece que OpenAI va a tener que cambiar sus políticas de comunicación
Supongo que la gente de OpenAI conoce bastante bien las capacidades reales de sus propios modelos, pero incluso si no fuera así, creo que siempre hay que ser cuidadosos con cualquier afirmación en internet
Esta cultura fue la que terminó creando el entorno actual de hype exagerado alrededor de la IA
Lo que esta situación reveló es la triste verdad de que OpenAI no está invirtiendo seriamente en problemas matemáticos no resueltos
Me parece un salto lógico
Una organización grande como OpenAI seguramente tiene varios equipos de investigación experimentando en muchas direcciones distintas
Sentí que OpenAI hizo
jump the sharken el momento en que giró su negocio hacia la publicidad y el contenido para adultosEl mercado todavía no parece haber incorporado ese hecho
No evaluaría a toda la organización tan fácilmente solo porque una persona empleada hizo un anuncio equivocado
No me parece raro que a la gente de OpenAI se le pida presentar estas cosas con este tipo de lenguaje de marketing
No es la primera vez; ya hubo casos anteriores en que se afirmó que GPT-5 había “resuelto” algo (ver https://x.com/SebastienBubeck/status/1970875019803910478)
Cada vez hay más ejemplos de que GPT-5 sí puede resolver problemas matemáticos abiertos menores, usualmente del nivel de algo que una persona de doctorado puede resolver en uno o dos días
Todavía estamos en una etapa en la que el impacto no se ha asimilado del todo
Extraño el consejo de "no confíes demasiado en lo que tú mismo construyes"
[Beber pipí dos veces]
Me llamó la atención la expresión de Yann LeCun: "Hoisted by their own GPTards"
Yann es inteligente y claramente conoce el campo hasta sus raíces, pero también siento que últimamente tiene una tendencia negativa y muchos de sus posicionamientos públicos terminan quedando mal muy rápido
Antes, en una presentación con investigadores jóvenes, hizo dos afirmaciones fuertes
plan)Pero en apenas un año la IA ya empezó a usar herramientas, ganar medallas IMO y hacer planificación basada en agentes de forma real
Otra afirmación suya era que, mientras más larga se hace una conversación, más se acumulan los errores en un LLM hasta terminar en resultados absurdos; pero recientemente, con combinaciones de long context y RL, eso también parece haberse superado en muchos casos
Por más genio que sea, creo que siempre conviene tomar la opinión de una sola persona con cierto filtro
No sé si me perdí el contexto, pero me sorprende que Yann usara una palabra derivada de 'retard'
Normalmente asociaría ese tipo de lenguaje más con alguien como Elon Musk
Me da curiosidad en qué contexto lo dijo
Después del escándalo de financiamiento circular por cientos de miles de millones de dólares, ya no me sorprende nada cuando leo sobre la industria de la IA o sobre hype artificial