Los ciclos de Claude [PDF]

(www-cs-faculty.stanford.edu)

4 puntos por GN⁺ 2026-03-04 | 1 comentarios | Compartir por WhatsApp

Claude Opus 4.6 de Anthropic resolvió el problema de descomposición en ciclos hamiltonianos dirigidos en el que Donald Knuth había estado trabajando durante varias semanas
El problema consiste en encontrar una descomposición en tres ciclos hamiltonianos de un grafo dirigido con (m^3) vértices, y Claude lo resolvió por completo para m impar
Claude fue aplicando por etapas diversas estrategias de búsqueda como “descomposición por fibras”, patrones serpenteantes 3D, búsqueda en profundidad (DFS) y recocido simulado
Finalmente derivó una solución general en forma de programa Python, y Filip Stappers la verificó para todos los m impares de 3 a 101, confirmando la descomposición completa
Knuth evalúa este resultado como un avance revolucionario en razonamiento automatizado y resolución creativa de problemas, y aclara que el caso de m par sigue sin resolverse

Antecedentes y definición del problema

El tema de investigación trata sobre ciclos hamiltonianos dirigidos, y está previsto que se incluya en un futuro volumen del libro de Knuth The Art of Computer Programming
El grafo está compuesto por (m^3) vértices (ijk), y desde cada vértice salen tres aristas: (i+jk), (ij+k), (ijk+)
El objetivo es encontrar una solución general que, para todo (m>2), descomponga estas aristas en tres ciclos dirigidos de longitud (m^3)

Proceso de exploración de Claude

Claude Opus 4.6 es un modelo de razonamiento híbrido de Anthropic; Filip Stappers le planteó el problema y le indicó que documentara el proceso
En la etapa inicial, Claude reformuló el problema como uno de grafos funcionales y asignación de permutaciones, e intentó enfoques con funciones lineales y cuadráticas, pero fracasó
Después fue probando sucesivamente búsqueda DFS, análisis de patrones serpenteantes 2D y patrones basados en código Gray 3D
Luego introdujo el enfoque de “descomposición por fibras”, analizando una estructura estratificada con base en (s = (i+j+k) \mod m), y mediante recocido simulado (SA) encontró soluciones parciales

Descubrimiento y verificación de la solución

En el paso 31 de la exploración, Claude generó un programa en Python que usa una regla por fibra dependiente de una sola coordenada
Este programa genera tres ciclos hamiltonianos completos para m=3,5,7,9,11
Filip Stappers lo probó para todos los m impares de 3 a 101, confirmando la descomposición completa
Knuth lo simplificó y lo presentó en código C, y además demostró matemáticamente que cada ciclo tiene en efecto longitud (m^3)

Generalización y análisis matemático

Se confirmó que algunos de los ciclos hamiltonianos para (m=3) pueden generalizarse a todo m impar
- De los 11,502 ciclos en (m=3), 1,012 se generalizan a (m=5), y 996 se generalizan hasta (m=7)
- Estos 996 pueden generalizarse para todo m impar > 1
La descomposición “tipo Claude” se define mediante reglas simples que dependen solo de los valores frontera de i, j y s (0 o m−1)
Teorema: para que una descomposición “tipo Claude” sea válida para todo m impar > 1, los tres ciclos en m=3 deben ser ciclos hamiltonianos generalizables
Según los cálculos, 760 descomposiciones tipo Claude son válidas para todo m impar

El caso no resuelto de m par y la conclusión

El caso de m par sigue abierto
- Investigaciones previas demostraron que m=2 es imposible
- Claude encontró soluciones parciales para m=4,6,8, pero no logró generalizarlas
Durante la exploración de m par, Claude mostró errores y comportamiento anómalo, por lo que la búsqueda fue interrumpida
Knuth lo valora como un logro histórico del razonamiento automatizado basado en IA, y menciona que es un avance digno del nombre de Claude Shannon

Apéndice: reglas de los otros dos ciclos

Segundo ciclo (c=1):
- Si (s=0), aumenta j; si (0<s<m−1), aumenta i; cuando (s=m−1), si i>0 aumenta k, y si i=0 aumenta j
Tercer ciclo (c=2):
- Cuando (s=0), si j<m−1 aumenta i, y si j=m−1 aumenta k
- Cuando (0<s<m−1), si i<m−1 aumenta k, y si i=m−1 aumenta j
- Cuando (s=m−1), aumenta i
Se especifica el orden de los vértices cuando s=0 en cada ciclo, lo que permite demostrar la estructura del ciclo completo

1 comentarios

GN⁺ 2026-03-04

Comentarios en Hacker News

Es interesante pensar en qué áreas de problemas se puede aplicar la escalabilidad de RL
Antes había que depender de la cognición humana, pero ahora estos patrones están incorporados en una distribución de probabilidad, así que cualquiera puede acceder a ellos
Aun así, queda la duda de si los modelos podrán mantenerse al día cuando la frontera de la ciencia siga expandiéndose
Si Anthropic quiere mantener a Claude actualizado en 2030, necesitará (a) aprendizaje continuo en un modelo fijo o (b) entrenamiento continuo, y ninguna de las dos cosas es fácil
- Los modelos de pesos abiertos son como una especie de cápsula del tiempo
  Después del punto de corte de conocimiento, se quedan para siempre en ese momento
- Si se permitiera compartir datos, los resultados de inferencia de hoy podrían convertirse en los datos de entrenamiento de mañana
  Incluso se puede imaginar un modelo que ofrezca inferencia gratuita a investigadores a cambio de usar ese proceso de razonamiento (trace) como datos de entrenamiento
- Por lo que dicen investigadores últimamente, parece que la arquitectura de los modelos avanzará hacia una gran expansión de la ventana de contexto
  Modelos como Qwen3-next, Qwen3.5 y Nemotron 3 Nano soportan ventanas de un millón de tokens con atención híbrida, reduciendo el costo de memoria
- La mayor parte de la investigación y el aprendizaje ya se hace por medio de LLMs y agentes de código
  Los bucles de retroalimentación en tiempo real mediante validación humana, ejecución de código y búsqueda funcionan como señales de entrenamiento para los modelos
- En 2030, quizá más bien Claude mantenga actualizado a Anthropic
  Es medio en broma, pero no es algo completamente imposible
Esto me recordó la conversación sobre GPT-4 entre Wolfram y Knuth de hace tiempo
Knuth era escéptico en ese entonces, pero al ver modelos recientes como Opus 4.6 parece haberse suavizado
Es admirable cambiar de opinión según la nueva evidencia
La conversación relacionada puede verse aquí
- Actualizar la probabilidad previa (prior) según nueva evidencia es precisamente el encanto de la estadística bayesiana
  Y también es la esencia del pensamiento científico
Siento que la introducción del texto de Knuth es algo susceptible de malinterpretación
Da la impresión de que Claude resolvió directamente el problema, pero en realidad Claude generó ejemplos y Knuth los generalizó hasta convertirlos en una prueba
- Yo también hice un experimento parecido con Claude, y la sinergia entre humanos y LLMs es realmente grande
  Los LLMs son débiles para marcar la dirección, pero una vez que se les da una, son muy buenos para la exploración profunda
  Si se les deja solos se van por cualquier lado, pero con una persona guiando se vuelven excelentes compañeros
- No creo que Knuth lo haya sobrevalorado
  Claude cumplió el papel de penetrar en el núcleo del problema, y el humano solo lo refinó
- También se puede considerar que Claude hizo la ‘resolución’ de la que habla Knuth
  Ordenar la prueba es solo una tarea secundaria
- La capacidad de volver a intentos anteriores para reflexionar y corregir sí parece una clara señal de inteligencia
Me pareció interesante la parte donde Claude se detuvo en el caso par
Probablemente usaron claude.ai o claude code, y parece que entró en un exceso de contexto (dumb zone)
- Estaría bueno poder visualizar esa dumb zone
  Algo como mostrar un gráfico de uso de contexto al estilo Copilot, para que el usuario lo note, sería útil
- Al final, si no se hace compresión de contexto (compacting), los resultados salen desastrosos
- Como mencionan un ‘plan document’, parece que usaron un documento para administrar la sesión
- También había gente preguntándose qué es exactamente la dumb zone
Alguien hizo que Claude resolviera el famoso rompecabezas de pentominós popularizado por Arthur C. Clarke
Al representar el tablero y las piezas con enteros de 64 bits, generó un programa en C# que lo resolvía rápido, pero en el caso 20x3 dio una respuesta incorrecta por un mapeo equivocado
Es interesante porque es un error muy humano
En resumen, Knuth planteó el problema y un amigo hizo unas 30 rondas de exploración con Claude
Claude creó un programa en Python que resolvía los casos impares, y Knuth demostró ese enfoque
El caso par sigue siendo un problema sin resolver
- Pero la frase de Knuth sobre “careful human guidance” parece un poco exagerada
  En realidad, Claude se detenía o cometía errores con frecuencia, y la persona solo le hacía algún recordatorio de vez en cuando
- Parece que lo que Knuth quería enfatizar es que la prueba formal sigue siendo tarea humana
  No está claro de quién salió la idea central
Hoy en día realmente es una época muy divertida para trabajar con problemas sin resolver
Dan ganas de volver a explorar investigaciones de hace 10 años junto con Claude
Las fortalezas de los LLMs parecen ser tres: conocimiento vasto, capacidad de conectar cosas y ensayo y error incansable
Cuando esas tres cosas se juntan, a veces salen resultados sorprendentes
Quizá hasta una prueba de P≠NP esté en algún vínculo tenue que los humanos no hemos visto
- En realidad, el último punto quizá no sea tanto una característica del LLM en sí, sino de un bucle de agente
  El LLM es solo un componente dentro de eso
- Aun así, la exploración iterativa sin cansancio sí es una gran ventaja frente a los humanos
  Si todo lo demás es igual, esa puede ser la diferencia decisiva
- Coincido por completo con la idea de que al combinar esas tres cosas salen resultados geniales
- Pero da miedo pensar que esta capacidad pueda usarse en sistemas de vigilancia
- La ‘capacidad de conectar cosas’ en realidad parece limitada a conexiones que ya existen en los datos de entrenamiento
  Todavía es difícil crear conexiones completamente nuevas
Me pregunto si realmente es correcto decir que “los LLMs son solo máquinas para predecir la siguiente palabra”
Si fuera así, ¿cómo se explica esta resolución de problemas? ¿Es esto ‘pensar’?
- Si uno pudiera predecir perfectamente la siguiente palabra que diría Einstein, eso ya sería implementar inteligencia
  La expresión “la palabra más probable” es una simplificación excesiva
- Esa explicación aplica al modelo base, pero modelos como Opus 4.6 además tienen RLHF y entrenamiento adicional encima
  Al final, la “capacidad de predecir bien lo que va a pasar después” podría ser en sí una definición de inteligencia
- El modelo base aprende de forma natural patrones de resolución de problemas al aprender el patrón web de “Answer:”
  Gracias a RLHF recibe recompensas no por predecir sin más, sino por dar respuestas útiles
  Por eso aparecen con demasiada frecuencia expresiones como “delve”
  Sobre eso, ver el documento de AI SIGNS
- Al final sigue extrayendo palabras de una distribución de probabilidad, pero esa distribución en sí es el núcleo de la inteligencia
  Los LLMs están aprendiendo esa distribución
- Cuando el mecanismo simple de “la palabra más probable” se combina con todo el conocimiento acumulado por la humanidad, adquiere un poder enorme
  Reducirlo a una burla simplista es no entender la esencia de la tecnología
Es interesante que sea un informe del propio Knuth
Es momento de leerlo y entenderlo directamente, sin ayuda de un LLM
- Como no tengo tiempo, fui a buscar este enlace con un resumen que hizo alguien

Los ciclos de Claude [PDF]

Antecedentes y definición del problema

Proceso de exploración de Claude

Descubrimiento y verificación de la solución

Generalización y análisis matemático

El caso no resuelto de m par y la conclusión

Apéndice: reglas de los otros dos ciclos

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News