- GPT-5.4 Pro resolvió un problema tipo Ramsey relacionado con hipergrafos en colaboración con Kevin Barreto y Liam Price
- Will Brian, quien propuso el problema, verificó la exactitud de la solución, y se publicaron tanto el registro completo de la conversación como el documento final de explicación de la IA
- La solución elimina la ineficiencia de la construcción previa de la cota inferior y presenta la estructura simétrica de la cota superior, logrando una consistencia poco común en la teoría de Ramsey
- Después, dentro del framework FrontierMath: Open Problems, varios modelos resolvieron el mismo problema, demostrando su validez como herramienta para verificar la capacidad de razonamiento matemático de la IA
- Este logro se considera un ejemplo de cómo la IA puede contribuir de forma real a resolver problemas matemáticos abiertos
Resolución de un problema tipo Ramsey en hipergrafos
- GPT-5.4 Pro resolvió un problema tipo Ramsey difícil relacionado con hipergrafos en colaboración con Kevin Barreto y Liam Price
- Will Brian, quien propuso el problema, verificó la exactitud de la solución
- Se publicaron el registro completo de la conversación del proceso de resolución y el documento final de explicación de GPT-5.4 Pro
- Brian evaluó que esta solución elimina la ineficiencia de la construcción previa de la cota inferior y muestra la complejidad y estructura simétrica de la construcción de la cota superior
- Como resultado, las cotas inferior y superior coinciden de manera consistente, alcanzando un nivel de coherencia poco común en problemas de teoría de Ramsey
- Tiene previsto organizar este resultado en un artículo, y podría incluir investigación adicional derivada de ideas de la IA
- Más adelante, Epoch AI completó el framework de prueba FrontierMath: Open Problems y aplicó el mismo problema a varios modelos
- Los modelos Opus 4.6 (max), Gemini 3.1 Pro y GPT-5.4 (xhigh) también lograron resolverlo
- Esto muestra que el entorno FrontierMath es válido para evaluar la capacidad de razonamiento matemático de modelos de IA
Definición del problema
- El problema se centra en mejorar la cota inferior de la sucesión (H(n)), que aparece en el estudio de la convergencia simultánea de conjuntos de series infinitas
- Que un hipergrafo ((V, \mathcal H)) contenga una partición (partition) de tamaño (n) significa que existen
(D \subseteq V), (\mathcal P \subseteq \mathcal H) tales que (|D| = n), y
cada elemento de (D) está contenido en exactamente un elemento de (\mathcal P)
- (H(n)) se define como el número máximo de vértices (k) de un hipergrafo sin vértices aislados y que no contiene ninguna partición de tamaño mayor que (n)
- Se considera que la cota inferior conocida de (H(n)) probablemente no es óptima y que puede mejorarse mediante una nueva construcción de hipergrafos
- El objetivo es encontrar un algoritmo que satisfaga (H(n) \ge c \cdot k_n) (donde (c > 1))
- (k_n) se define mediante la recurrencia (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})
Etapas de construcción del problema
-
Etapa Warm-up
- Construir un hipergrafo para valores de (n) en los que ya existe una solución conocida
- Condiciones: (|V| ≥ 64), (|H| ≤ 20), sin particiones de tamaño mayor a 20
-
Etapa Single Challenge
- Tarea de encontrar un hipergrafo bajo las mismas condiciones para valores de (n) donde no existe una solución conocida
- Condiciones: (|V| ≥ 66), (|H| ≤ 20), sin particiones de tamaño mayor a 20
-
Etapa Full Problem
- Se requiere un algoritmo general que funcione para todo (n)
- Para una entrada (n), debe generar un hipergrafo que satisfaga (H(n) ≥ c \cdot k_n)
- Cuando (n ≤ 100), debe poder ejecutarse en menos de 10 minutos en una laptop común
Evaluación de matemáticos
- Se estima que hay alrededor de 10 matemáticos familiarizados con este problema, incluidos muchos investigadores especializados en el área
- Se calcula que los matemáticos que realmente han intentado resolverlo son entre 5 y 10
- El tiempo estimado para que un experto lo resolviera es de 1 a 3 meses
- Se evalúa que, de resolverse, tendría un nivel apto para publicación en una revista académica especializada
- Debido a la riqueza del problema, es muy probable que la solución dé lugar a nueva investigación matemática
- Bajo las condiciones indicadas, la probabilidad estimada de resolver el problema es de 95–99%
1 comentarios
Comentarios en Hacker News
Me sorprende ver a tanta gente afirmar que los LLM no pueden tener verdadera creatividad
Decir simplemente “como no estaba en los datos de entrenamiento, es imposible” no basta. Ya hay muchísimos contraejemplos.
Entonces hace falta una base para explicar por qué creen que algunas tareas nuevas son posibles y otras imposibles.
Si aceptamos que la “novedad” existe en un continuo, me pregunto dónde trazan la línea y qué tipo de evidencia les haría cambiar de opinión.
Pero también hay contraargumentos. Después de ver modelos que ganaron medalla de oro en olimpiadas matemáticas, abandoné la primera idea.
Y con RL y memoria añadida, parece posible superar también la segunda limitación.
Tal vez los LLM grandes puedan internalizar información como lo hacen los humanos.
Ejemplo relacionado: post del blog de METR
Los humanos definen la “verdadera novedad” de forma demasiado grandilocuente — por ejemplo, una fórmula de superconductores o el descubrimiento de un nuevo fármaco.
Pero en realidad, incluso una nueva forma de amarrarse las agujetas es, “formalmente”, algo nuevo.
Los LLM pueden resolver innumerables problemas pequeños de ese tipo, aunque quizá no sean innovaciones significativas que impresionen a los humanos.
Se negó correctamente por el overhead de rendimiento y propuso un enfoque totalmente distinto.
No era un problema extraordinariamente nuevo, pero me sorprendió como una solución bastante creativa.
Imagen del proyecto
No es simple memorización, sino una operación generalizada internalizada como circuitos dentro de la red neuronal.
Yo pensaba que solo lo creería cuando la IA pudiera resolver por sí sola problemas difíciles, y si este resultado es real, siento que ya me volví un creyente.
Quiero ver más casos, pero de verdad el mundo se está volviendo algo nuevo e interesante.
Pero en áreas con una definición ambigua, como la calidad del código, aumentan las alucinaciones.
Como no hay una función de valor que aprenda por sí sola al estilo AlphaGo, RL por sí sola tiene límites.
La IA producirá contenido “bastante aceptable” sin parar, pero desaparecerá la emoción real.
Lo bueno que los humanos se intercambiaban disminuirá, y solo se amplificará lo malo.
La mayoría de los humanos tampoco puede resolver esos problemas, y aun así la IA ya destaca en el trabajo general del conocimiento.
Con ese criterio, en realidad estamos hablando de algo más cercano a AGI o ASI.
Hace falta verificar cuál fue realmente el problema y una validación de expertos.
Siento que la suposición básica de que los humanos son especiales sigue siendo demasiado fuerte.
No se considera lo suficiente que la explicación de “simplemente funciona tras muchos intentos” también podría aplicarse a los humanos.
Incluso en comunidades que valoran el pensamiento científico, el excepcionalismo humano está profundamente arraigado.
La IA no puede fijarse metas por sí sola ni reconocer sus propios logros.
Puede que lo obtenido a un costo enorme sea apenas un avance matemático menor.
Yo soy funcionalista, pero no creo que lo que “parece inteligencia” en los LLM sea inteligencia real.
Ya están publicadas la conversación completa con GPT‑5.4 Pro y el informe de resultados.
Conversación completa / Resumen de resultados
También me parece interesante la forma en que el usuario fue actualizando el uso de tokens a mitad del proceso para ampliar el contexto.
Dado que Opus 4.6 consumió unas 250 mil tokens, me dio por imaginar la cantidad de tokens como indicador de la dificultad del problema.
Da risa pensar que el refactor de React que hice hoy equivalía a la mitad de la dificultad de un problema matemático abierto.
Hay problemas que solo han intentado entre 5 y 10 personas en todo el mundo.
Igual que software incompleto por falta de motivación, algunos problemas matemáticos podrían seguir sin resolverse simplemente porque casi nadie los intenta.
Aun así, que la IA haya resuelto algo así es casi un milagro.
Aunque el contexto crezca, el costo también sube, y el proveedor podría incluso aumentar los precios.
La capacidad de la IA está determinada por la función de costo con la que fue entrenada.
Al final, la inteligencia es el proceso de minimizar una función de costo compleja.
En áreas como matemáticas y programación, donde hay verificación automática, enfoques como RLVR avanzarán rápido.
Pero en dominios con recompensas sociales o mucha incertidumbre, el progreso podría ser más lento.
Por ejemplo, la introducción de los números complejos podría verse como resultado de una optimización de la representación.
Los expertos de dominio están enseñándole a los LLM su manera de resolver problemas.
Al final, los LLM terminan imitando esos patrones de pensamiento para resolverlos.
Creo que hay muchos problemas que pueden resolverse remuestreando demostraciones existentes.
Las máquinas pueden hacer con persistencia una búsqueda repetitiva que volvería loco a un humano.
No es un gran salto, pero sí podría servir para convertir conjeturas en teoremas.
Es raro que abra una perspectiva completamente nueva.
También podría ser puro desperdicio de tokens.
En la página Open Problems de Epoch hay 15 problemas con clasificación de dificultad.
El que se resolvió esta vez está en la categoría de “moderately interesting”, o sea, entre los más fáciles.
Aun así, impresiona que fuera un problema público desde antes de resolverse.
Tengo curiosidad por ver qué tan rápido resolverán también los otros 3 problemas de la misma categoría.
El título es un poco engañoso.
El título real es “A Ramsey-style Problem on Hypergraphs”, y no solo lo resolvió GPT‑5.4, sino varios modelos recientes.
Aun así, sigue siendo un logro impresionante.