2 puntos por GN⁺ 2026-03-25 | 1 comentarios | Compartir por WhatsApp
  • GPT-5.4 Pro resolvió un problema tipo Ramsey relacionado con hipergrafos en colaboración con Kevin Barreto y Liam Price
  • Will Brian, quien propuso el problema, verificó la exactitud de la solución, y se publicaron tanto el registro completo de la conversación como el documento final de explicación de la IA
  • La solución elimina la ineficiencia de la construcción previa de la cota inferior y presenta la estructura simétrica de la cota superior, logrando una consistencia poco común en la teoría de Ramsey
  • Después, dentro del framework FrontierMath: Open Problems, varios modelos resolvieron el mismo problema, demostrando su validez como herramienta para verificar la capacidad de razonamiento matemático de la IA
  • Este logro se considera un ejemplo de cómo la IA puede contribuir de forma real a resolver problemas matemáticos abiertos

Resolución de un problema tipo Ramsey en hipergrafos

  • GPT-5.4 Pro resolvió un problema tipo Ramsey difícil relacionado con hipergrafos en colaboración con Kevin Barreto y Liam Price
    • Will Brian, quien propuso el problema, verificó la exactitud de la solución
    • Se publicaron el registro completo de la conversación del proceso de resolución y el documento final de explicación de GPT-5.4 Pro
  • Brian evaluó que esta solución elimina la ineficiencia de la construcción previa de la cota inferior y muestra la complejidad y estructura simétrica de la construcción de la cota superior
    • Como resultado, las cotas inferior y superior coinciden de manera consistente, alcanzando un nivel de coherencia poco común en problemas de teoría de Ramsey
    • Tiene previsto organizar este resultado en un artículo, y podría incluir investigación adicional derivada de ideas de la IA
  • Más adelante, Epoch AI completó el framework de prueba FrontierMath: Open Problems y aplicó el mismo problema a varios modelos
    • Los modelos Opus 4.6 (max), Gemini 3.1 Pro y GPT-5.4 (xhigh) también lograron resolverlo
    • Esto muestra que el entorno FrontierMath es válido para evaluar la capacidad de razonamiento matemático de modelos de IA

Definición del problema

  • El problema se centra en mejorar la cota inferior de la sucesión (H(n)), que aparece en el estudio de la convergencia simultánea de conjuntos de series infinitas
    • Que un hipergrafo ((V, \mathcal H)) contenga una partición (partition) de tamaño (n) significa que existen (D \subseteq V), (\mathcal P \subseteq \mathcal H) tales que (|D| = n), y cada elemento de (D) está contenido en exactamente un elemento de (\mathcal P)
    • (H(n)) se define como el número máximo de vértices (k) de un hipergrafo sin vértices aislados y que no contiene ninguna partición de tamaño mayor que (n)
  • Se considera que la cota inferior conocida de (H(n)) probablemente no es óptima y que puede mejorarse mediante una nueva construcción de hipergrafos
    • El objetivo es encontrar un algoritmo que satisfaga (H(n) \ge c \cdot k_n) (donde (c > 1))
    • (k_n) se define mediante la recurrencia (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})

Etapas de construcción del problema

  • Etapa Warm-up

    • Construir un hipergrafo para valores de (n) en los que ya existe una solución conocida
    • Condiciones: (|V| ≥ 64), (|H| ≤ 20), sin particiones de tamaño mayor a 20
  • Etapa Single Challenge

    • Tarea de encontrar un hipergrafo bajo las mismas condiciones para valores de (n) donde no existe una solución conocida
    • Condiciones: (|V| ≥ 66), (|H| ≤ 20), sin particiones de tamaño mayor a 20
  • Etapa Full Problem

    • Se requiere un algoritmo general que funcione para todo (n)
    • Para una entrada (n), debe generar un hipergrafo que satisfaga (H(n) ≥ c \cdot k_n)
    • Cuando (n ≤ 100), debe poder ejecutarse en menos de 10 minutos en una laptop común

Evaluación de matemáticos

  • Se estima que hay alrededor de 10 matemáticos familiarizados con este problema, incluidos muchos investigadores especializados en el área
  • Se calcula que los matemáticos que realmente han intentado resolverlo son entre 5 y 10
  • El tiempo estimado para que un experto lo resolviera es de 1 a 3 meses
  • Se evalúa que, de resolverse, tendría un nivel apto para publicación en una revista académica especializada
  • Debido a la riqueza del problema, es muy probable que la solución dé lugar a nueva investigación matemática
  • Bajo las condiciones indicadas, la probabilidad estimada de resolver el problema es de 95–99%

1 comentarios

 
GN⁺ 2026-03-25
Comentarios en Hacker News
  • Me sorprende ver a tanta gente afirmar que los LLM no pueden tener verdadera creatividad
    Decir simplemente “como no estaba en los datos de entrenamiento, es imposible” no basta. Ya hay muchísimos contraejemplos.
    Entonces hace falta una base para explicar por qué creen que algunas tareas nuevas son posibles y otras imposibles.
    Si aceptamos que la “novedad” existe en un continuo, me pregunto dónde trazan la línea y qué tipo de evidencia les haría cambiar de opinión.

    • Si intento responder mi propia pregunta, también hay argumentos lógicos sobre las limitaciones fundamentales de los LLM.
      1. Aprenden de datos humanos, así que imitan las limitaciones humanas.
      2. No aprenden de la experiencia.
        Pero también hay contraargumentos. Después de ver modelos que ganaron medalla de oro en olimpiadas matemáticas, abandoné la primera idea.
        Y con RL y memoria añadida, parece posible superar también la segunda limitación.
        Tal vez los LLM grandes puedan internalizar información como lo hacen los humanos.
        Ejemplo relacionado: post del blog de METR
    • Los LLM en esencia pueden generar cualquier cosa. Lo que pasa es que no entienden lo que producen.
      Los humanos definen la “verdadera novedad” de forma demasiado grandilocuente — por ejemplo, una fórmula de superconductores o el descubrimiento de un nuevo fármaco.
      Pero en realidad, incluso una nueva forma de amarrarse las agujetas es, “formalmente”, algo nuevo.
      Los LLM pueden resolver innumerables problemas pequeños de ese tipo, aunque quizá no sean innovaciones significativas que impresionen a los humanos.
    • Estaba haciendo una utilidad en macOS para “ver a través” de las ventanas de apps, y Claude Code me sugirió no usar ScreenCaptureKit.
      Se negó correctamente por el overhead de rendimiento y propuso un enfoque totalmente distinto.
      No era un problema extraordinariamente nuevo, pero me sorprendió como una solución bastante creativa.
      Imagen del proyecto
    • La razón por la que un LLM puede resolver un problema de multiplicación nuevo es que durante el entrenamiento vio muchísimos ejemplos y aprendió una estrategia abstracta comprimida.
      No es simple memorización, sino una operación generalizada internalizada como circuitos dentro de la red neuronal.
    • La mayoría de los inventos son el resultado de una interpolación entre tres ideas existentes. Estos sistemas son muy buenos en eso.
  • Yo pensaba que solo lo creería cuando la IA pudiera resolver por sí sola problemas difíciles, y si este resultado es real, siento que ya me volví un creyente.
    Quiero ver más casos, pero de verdad el mundo se está volviendo algo nuevo e interesante.

    • Los problemas de concursos de matemáticas y programación son fáciles de aprender porque las reglas son claras y la verificación también.
      Pero en áreas con una definición ambigua, como la calidad del código, aumentan las alucinaciones.
      Como no hay una función de valor que aprenda por sí sola al estilo AlphaGo, RL por sí sola tiene límites.
    • Más que un “mundo nuevo e interesante”, siento que desde ahora entraremos en una era de refritos interminables.
      La IA producirá contenido “bastante aceptable” sin parar, pero desaparecerá la emoción real.
      Lo bueno que los humanos se intercambiaban disminuirá, y solo se amplificará lo malo.
    • Los LLM son solo remezcladores. Solo predicen combinaciones de texto que ya existieron en el pasado; no crean por sí mismos patrones completamente nuevos.
    • Me pregunto por qué usamos “resolver problemas difíciles” como criterio para la IA.
      La mayoría de los humanos tampoco puede resolver esos problemas, y aun así la IA ya destaca en el trabajo general del conocimiento.
      Con ese criterio, en realidad estamos hablando de algo más cercano a AGI o ASI.
    • VCs famosos dijeron que DeepSeek era un “modelo supergenio” porque resolvió un problema de electromagnetismo de nivel introductorio, pero suena exagerado.
      Hace falta verificar cuál fue realmente el problema y una validación de expertos.
  • Siento que la suposición básica de que los humanos son especiales sigue siendo demasiado fuerte.
    No se considera lo suficiente que la explicación de “simplemente funciona tras muchos intentos” también podría aplicarse a los humanos.
    Incluso en comunidades que valoran el pensamiento científico, el excepcionalismo humano está profundamente arraigado.

    • El ser humano puede razonar sin experiencia consumiendo solo 20 watts. Eso sin duda es algo especial.
    • Incluso este logro solo tiene sentido porque los humanos plantearon el problema y colaboraron en la validación con la IA.
      La IA no puede fijarse metas por sí sola ni reconocer sus propios logros.
      Puede que lo obtenido a un costo enorme sea apenas un avance matemático menor.
    • Que los humanos sean especiales no es solo una creencia, sino un hecho empírico que estudian la neurociencia y la ciencia cognitiva.
      Yo soy funcionalista, pero no creo que lo que “parece inteligencia” en los LLM sea inteligencia real.
    • Para entender la singularidad humana, vale la pena revisar la teoría de la Reducción Objetiva Orquestada.
    • No es que los humanos sean especiales, sino que los modelos estadísticos casi no pueden pensar fuera del marco.
  • Ya están publicadas la conversación completa con GPT‑5.4 Pro y el informe de resultados.
    Conversación completa / Resumen de resultados

    • Tengo curiosidad por el contenido real del archivo solution template provisto.
      También me parece interesante la forma en que el usuario fue actualizando el uso de tokens a mitad del proceso para ampliar el contexto.
  • Dado que Opus 4.6 consumió unas 250 mil tokens, me dio por imaginar la cantidad de tokens como indicador de la dificultad del problema.
    Da risa pensar que el refactor de React que hice hoy equivalía a la mitad de la dificultad de un problema matemático abierto.

    • Suena a broma, pero las matemáticas son en esencia un campo muy cerrado, así que podría ser cierto.
      Hay problemas que solo han intentado entre 5 y 10 personas en todo el mundo.
      Igual que software incompleto por falta de motivación, algunos problemas matemáticos podrían seguir sin resolverse simplemente porque casi nadie los intenta.
      Aun así, que la IA haya resuelto algo así es casi un milagro.
    • La gestión del contexto es importante. Desperdiciar tokens lleva a peor rendimiento.
      Aunque el contexto crezca, el costo también sube, y el proveedor podría incluso aumentar los precios.
    • Al comparar las salidas de Opus 4.6 y GPT‑5.4 Pro, me pareció interesante que el primero mostrara una mayor variedad de intentos de verificación y flujo de pensamiento.
    • En matemáticas, una variable puede ser un token; en software, por legibilidad, se usan muchísimos más tokens.
    • La cantidad de tokens no es un indicador de complejidad. Los problemas centrados en datos consumen muchos más tokens que los problemas de razonamiento simple.
  • La capacidad de la IA está determinada por la función de costo con la que fue entrenada.
    Al final, la inteligencia es el proceso de minimizar una función de costo compleja.
    En áreas como matemáticas y programación, donde hay verificación automática, enfoques como RLVR avanzarán rápido.
    Pero en dominios con recompensas sociales o mucha incertidumbre, el progreso podría ser más lento.

    • También existe el contraargumento de que “hay problemas que no pueden expresarse como función de costo”.
      Por ejemplo, la introducción de los números complejos podría verse como resultado de una optimización de la representación.
  • Los expertos de dominio están enseñándole a los LLM su manera de resolver problemas.
    Al final, los LLM terminan imitando esos patrones de pensamiento para resolverlos.

  • Creo que hay muchos problemas que pueden resolverse remuestreando demostraciones existentes.
    Las máquinas pueden hacer con persistencia una búsqueda repetitiva que volvería loco a un humano.
    No es un gran salto, pero sí podría servir para convertir conjeturas en teoremas.

    • La pregunta es si esa demostración es significativa. La mayoría probablemente sea repetición dentro del paradigma existente.
      Es raro que abra una perspectiva completamente nueva.
      También podría ser puro desperdicio de tokens.
    • Creo que todo descubrimiento es resultado de una síntesis combinatoria. Casi nada surge de la nada absoluta.
    • Entonces, me pregunto cómo habría que diseñar un benchmark para evaluar la “verdadera novedad”.
  • En la página Open Problems de Epoch hay 15 problemas con clasificación de dificultad.
    El que se resolvió esta vez está en la categoría de “moderately interesting”, o sea, entre los más fáciles.
    Aun así, impresiona que fuera un problema público desde antes de resolverse.
    Tengo curiosidad por ver qué tan rápido resolverán también los otros 3 problemas de la misma categoría.

    • Que un LLM resuelva cualquier problema abierto ya me parece un hecho de ciencia ficción.
  • El título es un poco engañoso.
    El título real es “A Ramsey-style Problem on Hypergraphs”, y no solo lo resolvió GPT‑5.4, sino varios modelos recientes.
    Aun así, sigue siendo un logro impresionante.