1 puntos por GN⁺ 2025-10-20 | 1 comentarios | Compartir por WhatsApp
  • Un investigador de OpenAI anunció que GPT-5 había resuelto un problema de Erdős, y esa publicación fue retirada poco después tras recibir críticas de la comunidad y de personas influyentes de la industria
  • La afirmación podía interpretarse como que la IA había encontrado de forma independiente una prueba sustantiva de un problema matemático considerado sin resolver durante décadas
  • En la práctica, GPT-5 solo mostró capacidad para redescubrir investigación existente y no fue una nueva solución para un problema matemático realmente sin resolver
  • El caso alimentó la preocupación de la industria sobre la pérdida de credibilidad de OpenAI y los anuncios exagerados de resultados de IA sin verificación
  • También se destacó que la verdadera fortaleza de GPT-5 es su rol como asistente para buscar papers de investigación y organizar literatura científica

Resumen del incidente

  • Recientemente, un investigador de OpenAI anunció en X (antes Twitter) un avance decisivo: que GPT-5 había "resuelto 10 problemas abiertos de Erdős" y había logrado progreso adicional en 11 problemas más
  • La declaración se entendió como que GPT-5 había derivado de forma independiente una prueba matemática para un difícil problema de teoría de números
  • Varios investigadores de OpenAI publicaron mensajes similares, insinuando que esta IA podía lograr un descubrimiento científico innovador

Verificación y controversia en la comunidad

  • El matemático Thomas Bloom, que administra el sitio Erdosproblems.com, lo rechazó de inmediato y explicó que los problemas marcados como "open" en el sitio no son realmente problemas no resueltos
    • Esos casos eran simplemente ejemplos en los que Bloom no conocía la respuesta o no había revisado la investigación existente
    • GPT-5 solo encontró resultados de investigación ya publicados y no descubrió un enfoque matemático nuevo
  • Cuando se hizo público esto, los investigadores de OpenAI eliminaron o modificaron sus publicaciones
  • La comunidad y figuras destacadas, como Demis Hassabis, CEO de DeepMind, calificaron el caso como "algo vergonzoso" y Yann LeCun, responsable de IA en Meta, también señaló que OpenAI se dejó llevar por su propia promoción
  • Los investigadores admitieron el error y reexplicaron el rol real de GPT-5

Problemas de confianza y críticas de la industria

  • Este caso amplió la evaluación de que OpenAI mostró fallos de credibilidad y en su proceso de verificación de hechos
    • En particular, con la combinación de expectativas exageradas en la industria de la IA y el fervor de inversión relacionado, creció la preocupación sobre anuncios de logros no verificados
  • También se plantearon preguntas sobre la salud interna de la organización al haber hecho afirmaciones tan dramáticas sin verificar entre líderes de investigación de la industria

Resultados reales y rol de la IA en matemáticas

  • De forma concreta, la utilidad de GPT-5 quedó en evidencia como herramienta de apoyo para buscar artículos y recopilar material de investigación en problemas matemáticos complejos y con terminología diversa
  • El matemático Terence Tao espera que la IA ayude a reducir drásticamente la búsqueda y revisión de grandes volúmenes de literatura, en lugar de ser la "solución" de los problemas matemáticos abiertos más recientes
    • Existen algunos casos de avances independientes, pero por ahora destaca por su fortaleza en automatizar la búsqueda y organización de papers
  • En el futuro, la IA generativa puede contribuir a mejorar la velocidad y la automatización en matemáticas
    • Sin embargo, siguen siendo esenciales la validación experta, la clasificación y la integración de resultados

Conclusión

  • Este caso ilustra de forma representativa los límites reales y el potencial industrial de la IA generativa, así como el riesgo de sobredimensionar anuncios de resultados de investigación en IA
  • En consecuencia, se destaca que GPT-5 no es una ruptura innovadora para problemas matemáticos sin resolver, sino una herramienta de apoyo con potencial para ayudar a organizar materiales de investigación

1 comentarios

 
GN⁺ 2025-10-20
Opinión de Hacker News
  • Para ser justos con el equipo de OpenAI, si uno mira el contexto, me parece que la situación no fue tan malintencionada
    El tuit eliminado decía: "GPT-5 resolvió 10 problemas de Erdös (antes no resueltos), y además hubo avances en otros 11, problemas que llevaban décadas sin resolverse"
    Si ese tuit se hubiera publicado por sí solo, me parecería engañoso, pero en realidad era un quote tweet
    El primer tuit citado (https://x.com/MarkSellke/status/1979226538059931886) decía algo como "estamos empujando esto más allá"
    Y el segundo tuit original citado por ese (https://x.com/SebastienBubeck/status/1977181716457701775) explicaba que GPT-5 era excelente para buscar en la literatura y que "en realidad encontró un problema resuelto hace 20 años, y así 'resolvió' el problema de Erdos #339, que todavía estaba clasificado como abierto"
    Si lees el hilo en orden

    • SebastienBubeck: "GPT-5 es muy bueno en búsqueda bibliográfica, así que encontró una solución ya existente y con eso, en cierto sentido, resolvió un problema que todavía se creía abierto"

    • MarkSellke: "ahora hizo 10 más"

    • kevinweil: "¡Miren este gran resultado que logramos!"
      Al final, el problema fue la mecánica del quote tweet: como kevinweil estaba citando varias capas hacia atrás, perdió de vista el problema original —que en realidad consistía en encontrar una solución que ya existía—, y para el lector la estructura inevitablemente llevaba a la confusión
      Este tipo de error me parece perfectamente comprensible, y creo que la controversia está algo exagerada

    • Sobre el hecho de que Weil no consideró suficientemente el contexto del quote tweet que publicó, el propio Weil reconoció directamente que malinterpretó la publicación de Sellke (puede verse en https://x.com/kevinweil/status/1979270343941591525)
      Sellke dijo "clasificado como abierto", mientras que Weil habló de "problemas antes no resueltos"; ahí está la diferencia

    • La primera persona dijo "'resolvió' un problema al descubrir que ya había sido resuelto hace 20 años", y la segunda dijo "resolvió 10 problemas de Erdös antes no resueltos"
      Me parece que la expresión "antes no resueltos" no corresponde al contexto real

    • Me pregunto si no estaré entendiendo mal
      Me recuerda a cuando hace unos meses DeepMind publicó un paper diciendo que “hacía multiplicación de matrices mejor que el SOTA”
      En ese momento se dijo que Gemini había encontrado una nueva optimización, pero poco después matemáticos señalaron que el método ya aparecía en literatura de hace 30-40 años, y que era bastante probable que ese contenido ya estuviera en los datos de entrenamiento de Gemini

    • Sobre eso de que "GPT-5 es muy bueno para búsqueda bibliográfica" y que "'resolvió' problemas que ya tenían solución"
      Creo que eso es sesgo del superviviente
      En la práctica, GPT-5 también falla muchas veces incluso en búsquedas relativamente sencillas
      O ya sabes muy bien si el resultado es correcto, o necesitas validarlo tú mismo
      Me da la impresión de que es como lanzar un dado 1000 veces y presumir cada vez que sale doble seis
      Eso no significa que yo sea la mejor persona lanzando dados

  • Se menciona la refutación inmediata del matemático Thomas Bloom, quien administra erdosproblems.com
    Enfatizó que no significaba "problema no resuelto (unsolved)", sino "abierto en el sentido de que yo no conozco la respuesta (open)"
    Me parece raro que un matemático defina "abierto" de esa manera
    Es como si yo llamara “pregunta abierta” a un ejercicio de un libro de texto cuya respuesta no sé

  • Rechazo a la afirmación de que "GPT-5 es útil como herramienta de apoyo para revisión bibliográfica"
    En la práctica, me parece que solo produce resultados muy convincentes, pero falsos
    Quien esté satisfecho con eso probablemente tiene una vida mucho más fácil que la mía
    Yo termino pasando horas buscando papers y material de matemáticas de ingeniería, revolviendo bibliotecas, y como último recurso deposito mis esperanzas en un chatbot
    Pero al final el resultado sale raro, paso mucho tiempo volviendo a verificarlo, y solo me queda la decepción de pensar: "esto no puede ser real"
    También siento que no soy el único que ha tenido esta experiencia

    • Cuando hago búsquedas profundas de literatura con frecuencia, GPT inventa fuentes sin fundamento al menos en un 50% de los casos
      En revisiones de alto nivel, las alucinaciones rondan más bien el 5%
      De la mitad de fuentes reales, la mitad son papers que ya conozco y la otra mitad son papers que no me eran familiares
      Lo realmente bueno es que a veces encuentra papers que eran difíciles de hallar antes, incluso algunos que no aparecen con Google Scholar y similares
      En particular, te puede llevar a investigaciones relacionadas de otros campos o a papers con solo abstract y poca citación, entre muchas fuentes muy diversas
      Aunque el 75% del resultado total sea inútil o alucinado, el 25% restante aporta tanto valor que en la práctica sigue siendo muy útil

    • Decir que "no sirve para nada" también me parece exagerado
      GPT puede revisar 500 mil palabras en unos minutos y darte un resumen, una respuesta detallada y respaldo para cada afirmación
      Claro, no debes confiar ciegamente en el resumen, y la información importante siempre hay que validarla abriendo la fuente
      Aun así, sigue siendo una herramienta de búsqueda muy potente y un gran booster de productividad

    • No recuerdo el nombre, pero hay un principio sobre esto
      Cuando lees un artículo periodístico sobre un tema que sí conoces, notas todos los errores y piensas: "¿cómo publicaron esto?"
      Pero cuando se trata de un tema que no conoces, tiendes a creerlo sin cuestionarlo
      Siento que con ChatGPT pasa algo parecido y mucha gente cae en esa confianza excesiva

    • En realidad, en vez de forzar el uso de chatbots como GPT-5 para búsqueda o revisión bibliográfica, quizá habría sido mejor usar un motor de búsqueda semántica realmente potente
      Cuando le encargas a un chatbot que resuma o responda, las alucinaciones siempre vienen incluidas
      En cambio, con búsqueda documental basada en embeddings de LLM, no existe el riesgo de que el resultado en sí sea una alucinación, y podría ser un mejor método para encontrar papers que ni Google ni Bing logran ubicar
      Si ya existen servicios así y yo simplemente no los conozco, también hay que considerar esa posibilidad

    • Si a alguien le interesan las herramientas de revisión bibliográfica, comparto una plataforma pública que hice para amistades del posgrado
      Usa un modelo jerárquico mixto para organizar búsquedas masivas y redes de citación
      Ejemplo de uso: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all

  • También deja una impresión bastante mala el contraste de que, en la misma semana en que DeepMind mostró un avance real usando IA para el tratamiento del cáncer, saliera este tema de OpenAI
    Me acordé de algo que decía un exjefe mío: "no seas la persona que obliga a crear una nueva política"
    Parece que OpenAI va a tener que cambiar sus políticas de comunicación

  • Supongo que la gente de OpenAI conoce bastante bien las capacidades reales de sus propios modelos, pero incluso si no fuera así, creo que siempre hay que ser cuidadosos con cualquier afirmación en internet
    Esta cultura fue la que terminó creando el entorno actual de hype exagerado alrededor de la IA

    • Me viene a la mente la famosa frase: “Es difícil hacer que alguien entienda algo cuando su salario depende de que no lo entienda”
  • Lo que esta situación reveló es la triste verdad de que OpenAI no está invirtiendo seriamente en problemas matemáticos no resueltos

    • Me parece un salto lógico
      Una organización grande como OpenAI seguramente tiene varios equipos de investigación experimentando en muchas direcciones distintas

    • Sentí que OpenAI hizo jump the shark en el momento en que giró su negocio hacia la publicidad y el contenido para adultos
      El mercado todavía no parece haber incorporado ese hecho

    • No evaluaría a toda la organización tan fácilmente solo porque una persona empleada hizo un anuncio equivocado

  • No me parece raro que a la gente de OpenAI se le pida presentar estas cosas con este tipo de lenguaje de marketing
    No es la primera vez; ya hubo casos anteriores en que se afirmó que GPT-5 había “resuelto” algo (ver https://x.com/SebastienBubeck/status/1970875019803910478)
    Cada vez hay más ejemplos de que GPT-5 sí puede resolver problemas matemáticos abiertos menores, usualmente del nivel de algo que una persona de doctorado puede resolver en uno o dos días
    Todavía estamos en una etapa en la que el impacto no se ha asimilado del todo

  • Extraño el consejo de "no confíes demasiado en lo que tú mismo construyes"

  • Me llamó la atención la expresión de Yann LeCun: "Hoisted by their own GPTards"

    • Yann es inteligente y claramente conoce el campo hasta sus raíces, pero también siento que últimamente tiene una tendencia negativa y muchos de sus posicionamientos públicos terminan quedando mal muy rápido
      Antes, en una presentación con investigadores jóvenes, hizo dos afirmaciones fuertes

      1. Los LLM no pueden resolver problemas matemáticos: decía que solo producen algo que suena plausible, pero que ante problemas verificables se caen
      2. Los LLM no pueden hacer planificación (plan)
        Pero en apenas un año la IA ya empezó a usar herramientas, ganar medallas IMO y hacer planificación basada en agentes de forma real
        Otra afirmación suya era que, mientras más larga se hace una conversación, más se acumulan los errores en un LLM hasta terminar en resultados absurdos; pero recientemente, con combinaciones de long context y RL, eso también parece haberse superado en muchos casos
        Por más genio que sea, creo que siempre conviene tomar la opinión de una sola persona con cierto filtro
    • No sé si me perdí el contexto, pero me sorprende que Yann usara una palabra derivada de 'retard'
      Normalmente asociaría ese tipo de lenguaje más con alguien como Elon Musk
      Me da curiosidad en qué contexto lo dijo

  • Después del escándalo de financiamiento circular por cientos de miles de millones de dólares, ya no me sorprende nada cuando leo sobre la industria de la IA o sobre hype artificial