Un investigador de OpenAI anunció un salto matemático de GPT-5 que en realidad nunca sucedió

(the-decoder.com)

1 puntos por GN⁺ 2025-10-20 | 1 comentarios | Compartir por WhatsApp

Un investigador de OpenAI anunció que GPT-5 había resuelto un problema de Erdős, y esa publicación fue retirada poco después tras recibir críticas de la comunidad y de personas influyentes de la industria
La afirmación podía interpretarse como que la IA había encontrado de forma independiente una prueba sustantiva de un problema matemático considerado sin resolver durante décadas
En la práctica, GPT-5 solo mostró capacidad para redescubrir investigación existente y no fue una nueva solución para un problema matemático realmente sin resolver
El caso alimentó la preocupación de la industria sobre la pérdida de credibilidad de OpenAI y los anuncios exagerados de resultados de IA sin verificación
También se destacó que la verdadera fortaleza de GPT-5 es su rol como asistente para buscar papers de investigación y organizar literatura científica

Resumen del incidente

Recientemente, un investigador de OpenAI anunció en X (antes Twitter) un avance decisivo: que GPT-5 había "resuelto 10 problemas abiertos de Erdős" y había logrado progreso adicional en 11 problemas más
La declaración se entendió como que GPT-5 había derivado de forma independiente una prueba matemática para un difícil problema de teoría de números
Varios investigadores de OpenAI publicaron mensajes similares, insinuando que esta IA podía lograr un descubrimiento científico innovador

Verificación y controversia en la comunidad

El matemático Thomas Bloom, que administra el sitio Erdosproblems.com, lo rechazó de inmediato y explicó que los problemas marcados como "open" en el sitio no son realmente problemas no resueltos
- Esos casos eran simplemente ejemplos en los que Bloom no conocía la respuesta o no había revisado la investigación existente
- GPT-5 solo encontró resultados de investigación ya publicados y no descubrió un enfoque matemático nuevo
Cuando se hizo público esto, los investigadores de OpenAI eliminaron o modificaron sus publicaciones
La comunidad y figuras destacadas, como Demis Hassabis, CEO de DeepMind, calificaron el caso como "algo vergonzoso" y Yann LeCun, responsable de IA en Meta, también señaló que OpenAI se dejó llevar por su propia promoción
Los investigadores admitieron el error y reexplicaron el rol real de GPT-5

Problemas de confianza y críticas de la industria

Este caso amplió la evaluación de que OpenAI mostró fallos de credibilidad y en su proceso de verificación de hechos
- En particular, con la combinación de expectativas exageradas en la industria de la IA y el fervor de inversión relacionado, creció la preocupación sobre anuncios de logros no verificados
También se plantearon preguntas sobre la salud interna de la organización al haber hecho afirmaciones tan dramáticas sin verificar entre líderes de investigación de la industria

Resultados reales y rol de la IA en matemáticas

De forma concreta, la utilidad de GPT-5 quedó en evidencia como herramienta de apoyo para buscar artículos y recopilar material de investigación en problemas matemáticos complejos y con terminología diversa
El matemático Terence Tao espera que la IA ayude a reducir drásticamente la búsqueda y revisión de grandes volúmenes de literatura, en lugar de ser la "solución" de los problemas matemáticos abiertos más recientes
- Existen algunos casos de avances independientes, pero por ahora destaca por su fortaleza en automatizar la búsqueda y organización de papers
En el futuro, la IA generativa puede contribuir a mejorar la velocidad y la automatización en matemáticas
- Sin embargo, siguen siendo esenciales la validación experta, la clasificación y la integración de resultados

Conclusión

Este caso ilustra de forma representativa los límites reales y el potencial industrial de la IA generativa, así como el riesgo de sobredimensionar anuncios de resultados de investigación en IA
En consecuencia, se destaca que GPT-5 no es una ruptura innovadora para problemas matemáticos sin resolver, sino una herramienta de apoyo con potencial para ayudar a organizar materiales de investigación

1 comentarios

GN⁺ 2025-10-20

Opinión de Hacker News

Para ser justos con el equipo de OpenAI, si uno mira el contexto, me parece que la situación no fue tan malintencionada
El tuit eliminado decía: "GPT-5 resolvió 10 problemas de Erdös (antes no resueltos), y además hubo avances en otros 11, problemas que llevaban décadas sin resolverse"
Si ese tuit se hubiera publicado por sí solo, me parecería engañoso, pero en realidad era un quote tweet
El primer tuit citado (https://x.com/MarkSellke/status/1979226538059931886) decía algo como "estamos empujando esto más allá"
Y el segundo tuit original citado por ese (https://x.com/SebastienBubeck/status/1977181716457701775) explicaba que GPT-5 era excelente para buscar en la literatura y que "en realidad encontró un problema resuelto hace 20 años, y así 'resolvió' el problema de Erdos #339, que todavía estaba clasificado como abierto"
Si lees el hilo en orden
- SebastienBubeck: "GPT-5 es muy bueno en búsqueda bibliográfica, así que encontró una solución ya existente y con eso, en cierto sentido, resolvió un problema que todavía se creía abierto"
- MarkSellke: "ahora hizo 10 más"
- kevinweil: "¡Miren este gran resultado que logramos!"
  Al final, el problema fue la mecánica del quote tweet: como kevinweil estaba citando varias capas hacia atrás, perdió de vista el problema original —que en realidad consistía en encontrar una solución que ya existía—, y para el lector la estructura inevitablemente llevaba a la confusión
  Este tipo de error me parece perfectamente comprensible, y creo que la controversia está algo exagerada
- Sobre el hecho de que Weil no consideró suficientemente el contexto del quote tweet que publicó, el propio Weil reconoció directamente que malinterpretó la publicación de Sellke (puede verse en https://x.com/kevinweil/status/1979270343941591525)
  Sellke dijo "clasificado como abierto", mientras que Weil habló de "problemas antes no resueltos"; ahí está la diferencia
- La primera persona dijo "'resolvió' un problema al descubrir que ya había sido resuelto hace 20 años", y la segunda dijo "resolvió 10 problemas de Erdös antes no resueltos"
  Me parece que la expresión "antes no resueltos" no corresponde al contexto real
- Me pregunto si no estaré entendiendo mal
  Me recuerda a cuando hace unos meses DeepMind publicó un paper diciendo que “hacía multiplicación de matrices mejor que el SOTA”
  En ese momento se dijo que Gemini había encontrado una nueva optimización, pero poco después matemáticos señalaron que el método ya aparecía en literatura de hace 30-40 años, y que era bastante probable que ese contenido ya estuviera en los datos de entrenamiento de Gemini
- Sobre eso de que "GPT-5 es muy bueno para búsqueda bibliográfica" y que "'resolvió' problemas que ya tenían solución"
  Creo que eso es sesgo del superviviente
  En la práctica, GPT-5 también falla muchas veces incluso en búsquedas relativamente sencillas
  O ya sabes muy bien si el resultado es correcto, o necesitas validarlo tú mismo
  Me da la impresión de que es como lanzar un dado 1000 veces y presumir cada vez que sale doble seis
  Eso no significa que yo sea la mejor persona lanzando dados
Se menciona la refutación inmediata del matemático Thomas Bloom, quien administra erdosproblems.com
Enfatizó que no significaba "problema no resuelto (unsolved)", sino "abierto en el sentido de que yo no conozco la respuesta (open)"
Me parece raro que un matemático defina "abierto" de esa manera
Es como si yo llamara “pregunta abierta” a un ejercicio de un libro de texto cuya respuesta no sé
Rechazo a la afirmación de que "GPT-5 es útil como herramienta de apoyo para revisión bibliográfica"
En la práctica, me parece que solo produce resultados muy convincentes, pero falsos
Quien esté satisfecho con eso probablemente tiene una vida mucho más fácil que la mía
Yo termino pasando horas buscando papers y material de matemáticas de ingeniería, revolviendo bibliotecas, y como último recurso deposito mis esperanzas en un chatbot
Pero al final el resultado sale raro, paso mucho tiempo volviendo a verificarlo, y solo me queda la decepción de pensar: "esto no puede ser real"
También siento que no soy el único que ha tenido esta experiencia
- Cuando hago búsquedas profundas de literatura con frecuencia, GPT inventa fuentes sin fundamento al menos en un 50% de los casos
  En revisiones de alto nivel, las alucinaciones rondan más bien el 5%
  De la mitad de fuentes reales, la mitad son papers que ya conozco y la otra mitad son papers que no me eran familiares
  Lo realmente bueno es que a veces encuentra papers que eran difíciles de hallar antes, incluso algunos que no aparecen con Google Scholar y similares
  En particular, te puede llevar a investigaciones relacionadas de otros campos o a papers con solo abstract y poca citación, entre muchas fuentes muy diversas
  Aunque el 75% del resultado total sea inútil o alucinado, el 25% restante aporta tanto valor que en la práctica sigue siendo muy útil
- Decir que "no sirve para nada" también me parece exagerado
  GPT puede revisar 500 mil palabras en unos minutos y darte un resumen, una respuesta detallada y respaldo para cada afirmación
  Claro, no debes confiar ciegamente en el resumen, y la información importante siempre hay que validarla abriendo la fuente
  Aun así, sigue siendo una herramienta de búsqueda muy potente y un gran booster de productividad
- No recuerdo el nombre, pero hay un principio sobre esto
  Cuando lees un artículo periodístico sobre un tema que sí conoces, notas todos los errores y piensas: "¿cómo publicaron esto?"
  Pero cuando se trata de un tema que no conoces, tiendes a creerlo sin cuestionarlo
  Siento que con ChatGPT pasa algo parecido y mucha gente cae en esa confianza excesiva
- En realidad, en vez de forzar el uso de chatbots como GPT-5 para búsqueda o revisión bibliográfica, quizá habría sido mejor usar un motor de búsqueda semántica realmente potente
  Cuando le encargas a un chatbot que resuma o responda, las alucinaciones siempre vienen incluidas
  En cambio, con búsqueda documental basada en embeddings de LLM, no existe el riesgo de que el resultado en sí sea una alucinación, y podría ser un mejor método para encontrar papers que ni Google ni Bing logran ubicar
  Si ya existen servicios así y yo simplemente no los conozco, también hay que considerar esa posibilidad
- Si a alguien le interesan las herramientas de revisión bibliográfica, comparto una plataforma pública que hice para amistades del posgrado
  Usa un modelo jerárquico mixto para organizar búsquedas masivas y redes de citación
  Ejemplo de uso: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
También deja una impresión bastante mala el contraste de que, en la misma semana en que DeepMind mostró un avance real usando IA para el tratamiento del cáncer, saliera este tema de OpenAI
Me acordé de algo que decía un exjefe mío: "no seas la persona que obliga a crear una nueva política"
Parece que OpenAI va a tener que cambiar sus políticas de comunicación
Supongo que la gente de OpenAI conoce bastante bien las capacidades reales de sus propios modelos, pero incluso si no fuera así, creo que siempre hay que ser cuidadosos con cualquier afirmación en internet
Esta cultura fue la que terminó creando el entorno actual de hype exagerado alrededor de la IA
- Me viene a la mente la famosa frase: “Es difícil hacer que alguien entienda algo cuando su salario depende de que no lo entienda”
Lo que esta situación reveló es la triste verdad de que OpenAI no está invirtiendo seriamente en problemas matemáticos no resueltos
- Me parece un salto lógico
  Una organización grande como OpenAI seguramente tiene varios equipos de investigación experimentando en muchas direcciones distintas
- Sentí que OpenAI hizo jump the shark en el momento en que giró su negocio hacia la publicidad y el contenido para adultos
  El mercado todavía no parece haber incorporado ese hecho
- No evaluaría a toda la organización tan fácilmente solo porque una persona empleada hizo un anuncio equivocado
No me parece raro que a la gente de OpenAI se le pida presentar estas cosas con este tipo de lenguaje de marketing
No es la primera vez; ya hubo casos anteriores en que se afirmó que GPT-5 había “resuelto” algo (ver https://x.com/SebastienBubeck/status/1970875019803910478)
Cada vez hay más ejemplos de que GPT-5 sí puede resolver problemas matemáticos abiertos menores, usualmente del nivel de algo que una persona de doctorado puede resolver en uno o dos días
Todavía estamos en una etapa en la que el impacto no se ha asimilado del todo
Extraño el consejo de "no confíes demasiado en lo que tú mismo construyes"
- ¡Esto es jabón, eso es! https://www.youtube.com/watch?v=RvGE-xhroy0
  [Beber pipí dos veces]
Me llamó la atención la expresión de Yann LeCun: "Hoisted by their own GPTards"
- Yann es inteligente y claramente conoce el campo hasta sus raíces, pero también siento que últimamente tiene una tendencia negativa y muchos de sus posicionamientos públicos terminan quedando mal muy rápido
  Antes, en una presentación con investigadores jóvenes, hizo dos afirmaciones fuertes
  1. Los LLM no pueden resolver problemas matemáticos: decía que solo producen algo que suena plausible, pero que ante problemas verificables se caen
  2. Los LLM no pueden hacer planificación (plan)
    Pero en apenas un año la IA ya empezó a usar herramientas, ganar medallas IMO y hacer planificación basada en agentes de forma real
    Otra afirmación suya era que, mientras más larga se hace una conversación, más se acumulan los errores en un LLM hasta terminar en resultados absurdos; pero recientemente, con combinaciones de long context y RL, eso también parece haberse superado en muchos casos
    Por más genio que sea, creo que siempre conviene tomar la opinión de una sola persona con cierto filtro
- No sé si me perdí el contexto, pero me sorprende que Yann usara una palabra derivada de 'retard'
  Normalmente asociaría ese tipo de lenguaje más con alguien como Elon Musk
  Me da curiosidad en qué contexto lo dijo
Después del escándalo de financiamiento circular por cientos de miles de millones de dólares, ya no me sorprende nada cuando leo sobre la industria de la IA o sobre hype artificial

Un investigador de OpenAI anunció un salto matemático de GPT-5 que en realidad nunca sucedió

Resumen del incidente

Verificación y controversia en la comunidad

Problemas de confianza y críticas de la industria

Resultados reales y rol de la IA en matemáticas

Conclusión

Lecturas relacionadas

1 comentarios

Opinión de Hacker News