- Claude Opus 4.6 de Anthropic resolvió el problema de descomposición en ciclos hamiltonianos dirigidos en el que Donald Knuth había estado trabajando durante varias semanas
- El problema consiste en encontrar una descomposición en tres ciclos hamiltonianos de un grafo dirigido con (m^3) vértices, y Claude lo resolvió por completo para m impar
- Claude fue aplicando por etapas diversas estrategias de búsqueda como “descomposición por fibras”, patrones serpenteantes 3D, búsqueda en profundidad (DFS) y recocido simulado
- Finalmente derivó una solución general en forma de programa Python, y Filip Stappers la verificó para todos los m impares de 3 a 101, confirmando la descomposición completa
- Knuth evalúa este resultado como un avance revolucionario en razonamiento automatizado y resolución creativa de problemas, y aclara que el caso de m par sigue sin resolverse
Antecedentes y definición del problema
- El tema de investigación trata sobre ciclos hamiltonianos dirigidos, y está previsto que se incluya en un futuro volumen del libro de Knuth The Art of Computer Programming
- El grafo está compuesto por (m^3) vértices (ijk), y desde cada vértice salen tres aristas: (i+jk), (ij+k), (ijk+)
- El objetivo es encontrar una solución general que, para todo (m>2), descomponga estas aristas en tres ciclos dirigidos de longitud (m^3)
Proceso de exploración de Claude
- Claude Opus 4.6 es un modelo de razonamiento híbrido de Anthropic; Filip Stappers le planteó el problema y le indicó que documentara el proceso
- En la etapa inicial, Claude reformuló el problema como uno de grafos funcionales y asignación de permutaciones, e intentó enfoques con funciones lineales y cuadráticas, pero fracasó
- Después fue probando sucesivamente búsqueda DFS, análisis de patrones serpenteantes 2D y patrones basados en código Gray 3D
- Luego introdujo el enfoque de “descomposición por fibras”, analizando una estructura estratificada con base en (s = (i+j+k) \mod m), y mediante recocido simulado (SA) encontró soluciones parciales
Descubrimiento y verificación de la solución
- En el paso 31 de la exploración, Claude generó un programa en Python que usa una regla por fibra dependiente de una sola coordenada
- Este programa genera tres ciclos hamiltonianos completos para m=3,5,7,9,11
- Filip Stappers lo probó para todos los m impares de 3 a 101, confirmando la descomposición completa
- Knuth lo simplificó y lo presentó en código C, y además demostró matemáticamente que cada ciclo tiene en efecto longitud (m^3)
Generalización y análisis matemático
- Se confirmó que algunos de los ciclos hamiltonianos para (m=3) pueden generalizarse a todo m impar
- De los 11,502 ciclos en (m=3), 1,012 se generalizan a (m=5), y 996 se generalizan hasta (m=7)
- Estos 996 pueden generalizarse para todo m impar > 1
- La descomposición “tipo Claude” se define mediante reglas simples que dependen solo de los valores frontera de i, j y s (0 o m−1)
- Teorema: para que una descomposición “tipo Claude” sea válida para todo m impar > 1, los tres ciclos en m=3 deben ser ciclos hamiltonianos generalizables
- Según los cálculos, 760 descomposiciones tipo Claude son válidas para todo m impar
El caso no resuelto de m par y la conclusión
- El caso de m par sigue abierto
- Investigaciones previas demostraron que m=2 es imposible
- Claude encontró soluciones parciales para m=4,6,8, pero no logró generalizarlas
- Durante la exploración de m par, Claude mostró errores y comportamiento anómalo, por lo que la búsqueda fue interrumpida
- Knuth lo valora como un logro histórico del razonamiento automatizado basado en IA, y menciona que es un avance digno del nombre de Claude Shannon
Apéndice: reglas de los otros dos ciclos
- Segundo ciclo (c=1):
- Si (s=0), aumenta j; si (0<s<m−1), aumenta i; cuando (s=m−1), si i>0 aumenta k, y si i=0 aumenta j
- Tercer ciclo (c=2):
- Cuando (s=0), si j<m−1 aumenta i, y si j=m−1 aumenta k
- Cuando (0<s<m−1), si i<m−1 aumenta k, y si i=m−1 aumenta j
- Cuando (s=m−1), aumenta i
- Se especifica el orden de los vértices cuando s=0 en cada ciclo, lo que permite demostrar la estructura del ciclo completo
1 comentarios
Comentarios en Hacker News
Es interesante pensar en qué áreas de problemas se puede aplicar la escalabilidad de RL
Antes había que depender de la cognición humana, pero ahora estos patrones están incorporados en una distribución de probabilidad, así que cualquiera puede acceder a ellos
Aun así, queda la duda de si los modelos podrán mantenerse al día cuando la frontera de la ciencia siga expandiéndose
Si Anthropic quiere mantener a Claude actualizado en 2030, necesitará (a) aprendizaje continuo en un modelo fijo o (b) entrenamiento continuo, y ninguna de las dos cosas es fácil
Después del punto de corte de conocimiento, se quedan para siempre en ese momento
Incluso se puede imaginar un modelo que ofrezca inferencia gratuita a investigadores a cambio de usar ese proceso de razonamiento (trace) como datos de entrenamiento
Modelos como Qwen3-next, Qwen3.5 y Nemotron 3 Nano soportan ventanas de un millón de tokens con atención híbrida, reduciendo el costo de memoria
Los bucles de retroalimentación en tiempo real mediante validación humana, ejecución de código y búsqueda funcionan como señales de entrenamiento para los modelos
Es medio en broma, pero no es algo completamente imposible
Esto me recordó la conversación sobre GPT-4 entre Wolfram y Knuth de hace tiempo
Knuth era escéptico en ese entonces, pero al ver modelos recientes como Opus 4.6 parece haberse suavizado
Es admirable cambiar de opinión según la nueva evidencia
La conversación relacionada puede verse aquí
Y también es la esencia del pensamiento científico
Siento que la introducción del texto de Knuth es algo susceptible de malinterpretación
Da la impresión de que Claude resolvió directamente el problema, pero en realidad Claude generó ejemplos y Knuth los generalizó hasta convertirlos en una prueba
Los LLMs son débiles para marcar la dirección, pero una vez que se les da una, son muy buenos para la exploración profunda
Si se les deja solos se van por cualquier lado, pero con una persona guiando se vuelven excelentes compañeros
Claude cumplió el papel de penetrar en el núcleo del problema, y el humano solo lo refinó
Ordenar la prueba es solo una tarea secundaria
Me pareció interesante la parte donde Claude se detuvo en el caso par
Probablemente usaron claude.ai o claude code, y parece que entró en un exceso de contexto (dumb zone)
Algo como mostrar un gráfico de uso de contexto al estilo Copilot, para que el usuario lo note, sería útil
Alguien hizo que Claude resolviera el famoso rompecabezas de pentominós popularizado por Arthur C. Clarke
Al representar el tablero y las piezas con enteros de 64 bits, generó un programa en C# que lo resolvía rápido, pero en el caso 20x3 dio una respuesta incorrecta por un mapeo equivocado
Es interesante porque es un error muy humano
En resumen, Knuth planteó el problema y un amigo hizo unas 30 rondas de exploración con Claude
Claude creó un programa en Python que resolvía los casos impares, y Knuth demostró ese enfoque
El caso par sigue siendo un problema sin resolver
En realidad, Claude se detenía o cometía errores con frecuencia, y la persona solo le hacía algún recordatorio de vez en cuando
No está claro de quién salió la idea central
Hoy en día realmente es una época muy divertida para trabajar con problemas sin resolver
Dan ganas de volver a explorar investigaciones de hace 10 años junto con Claude
Las fortalezas de los LLMs parecen ser tres: conocimiento vasto, capacidad de conectar cosas y ensayo y error incansable
Cuando esas tres cosas se juntan, a veces salen resultados sorprendentes
Quizá hasta una prueba de P≠NP esté en algún vínculo tenue que los humanos no hemos visto
El LLM es solo un componente dentro de eso
Si todo lo demás es igual, esa puede ser la diferencia decisiva
Todavía es difícil crear conexiones completamente nuevas
Me pregunto si realmente es correcto decir que “los LLMs son solo máquinas para predecir la siguiente palabra”
Si fuera así, ¿cómo se explica esta resolución de problemas? ¿Es esto ‘pensar’?
La expresión “la palabra más probable” es una simplificación excesiva
Al final, la “capacidad de predecir bien lo que va a pasar después” podría ser en sí una definición de inteligencia
Gracias a RLHF recibe recompensas no por predecir sin más, sino por dar respuestas útiles
Por eso aparecen con demasiada frecuencia expresiones como “delve”
Sobre eso, ver el documento de AI SIGNS
Los LLMs están aprendiendo esa distribución
Reducirlo a una burla simplista es no entender la esencia de la tecnología
Es interesante que sea un informe del propio Knuth
Es momento de leerlo y entenderlo directamente, sin ayuda de un LLM