4 puntos por GN⁺ 2026-03-04 | 1 comentarios | Compartir por WhatsApp
  • Claude Opus 4.6 de Anthropic resolvió el problema de descomposición en ciclos hamiltonianos dirigidos en el que Donald Knuth había estado trabajando durante varias semanas
  • El problema consiste en encontrar una descomposición en tres ciclos hamiltonianos de un grafo dirigido con (m^3) vértices, y Claude lo resolvió por completo para m impar
  • Claude fue aplicando por etapas diversas estrategias de búsqueda como “descomposición por fibras”, patrones serpenteantes 3D, búsqueda en profundidad (DFS) y recocido simulado
  • Finalmente derivó una solución general en forma de programa Python, y Filip Stappers la verificó para todos los m impares de 3 a 101, confirmando la descomposición completa
  • Knuth evalúa este resultado como un avance revolucionario en razonamiento automatizado y resolución creativa de problemas, y aclara que el caso de m par sigue sin resolverse

Antecedentes y definición del problema

  • El tema de investigación trata sobre ciclos hamiltonianos dirigidos, y está previsto que se incluya en un futuro volumen del libro de Knuth The Art of Computer Programming
  • El grafo está compuesto por (m^3) vértices (ijk), y desde cada vértice salen tres aristas: (i+jk), (ij+k), (ijk+)
  • El objetivo es encontrar una solución general que, para todo (m>2), descomponga estas aristas en tres ciclos dirigidos de longitud (m^3)

Proceso de exploración de Claude

  • Claude Opus 4.6 es un modelo de razonamiento híbrido de Anthropic; Filip Stappers le planteó el problema y le indicó que documentara el proceso
  • En la etapa inicial, Claude reformuló el problema como uno de grafos funcionales y asignación de permutaciones, e intentó enfoques con funciones lineales y cuadráticas, pero fracasó
  • Después fue probando sucesivamente búsqueda DFS, análisis de patrones serpenteantes 2D y patrones basados en código Gray 3D
  • Luego introdujo el enfoque de “descomposición por fibras”, analizando una estructura estratificada con base en (s = (i+j+k) \mod m), y mediante recocido simulado (SA) encontró soluciones parciales

Descubrimiento y verificación de la solución

  • En el paso 31 de la exploración, Claude generó un programa en Python que usa una regla por fibra dependiente de una sola coordenada
  • Este programa genera tres ciclos hamiltonianos completos para m=3,5,7,9,11
  • Filip Stappers lo probó para todos los m impares de 3 a 101, confirmando la descomposición completa
  • Knuth lo simplificó y lo presentó en código C, y además demostró matemáticamente que cada ciclo tiene en efecto longitud (m^3)

Generalización y análisis matemático

  • Se confirmó que algunos de los ciclos hamiltonianos para (m=3) pueden generalizarse a todo m impar
    • De los 11,502 ciclos en (m=3), 1,012 se generalizan a (m=5), y 996 se generalizan hasta (m=7)
    • Estos 996 pueden generalizarse para todo m impar > 1
  • La descomposición “tipo Claude” se define mediante reglas simples que dependen solo de los valores frontera de i, j y s (0 o m−1)
  • Teorema: para que una descomposición “tipo Claude” sea válida para todo m impar > 1, los tres ciclos en m=3 deben ser ciclos hamiltonianos generalizables
  • Según los cálculos, 760 descomposiciones tipo Claude son válidas para todo m impar

El caso no resuelto de m par y la conclusión

  • El caso de m par sigue abierto
    • Investigaciones previas demostraron que m=2 es imposible
    • Claude encontró soluciones parciales para m=4,6,8, pero no logró generalizarlas
  • Durante la exploración de m par, Claude mostró errores y comportamiento anómalo, por lo que la búsqueda fue interrumpida
  • Knuth lo valora como un logro histórico del razonamiento automatizado basado en IA, y menciona que es un avance digno del nombre de Claude Shannon

Apéndice: reglas de los otros dos ciclos

  • Segundo ciclo (c=1):
    • Si (s=0), aumenta j; si (0<s<m−1), aumenta i; cuando (s=m−1), si i>0 aumenta k, y si i=0 aumenta j
  • Tercer ciclo (c=2):
    • Cuando (s=0), si j<m−1 aumenta i, y si j=m−1 aumenta k
    • Cuando (0<s<m−1), si i<m−1 aumenta k, y si i=m−1 aumenta j
    • Cuando (s=m−1), aumenta i
  • Se especifica el orden de los vértices cuando s=0 en cada ciclo, lo que permite demostrar la estructura del ciclo completo

1 comentarios

 
GN⁺ 2026-03-04
Comentarios en Hacker News
  • Es interesante pensar en qué áreas de problemas se puede aplicar la escalabilidad de RL
    Antes había que depender de la cognición humana, pero ahora estos patrones están incorporados en una distribución de probabilidad, así que cualquiera puede acceder a ellos
    Aun así, queda la duda de si los modelos podrán mantenerse al día cuando la frontera de la ciencia siga expandiéndose
    Si Anthropic quiere mantener a Claude actualizado en 2030, necesitará (a) aprendizaje continuo en un modelo fijo o (b) entrenamiento continuo, y ninguna de las dos cosas es fácil

    • Los modelos de pesos abiertos son como una especie de cápsula del tiempo
      Después del punto de corte de conocimiento, se quedan para siempre en ese momento
    • Si se permitiera compartir datos, los resultados de inferencia de hoy podrían convertirse en los datos de entrenamiento de mañana
      Incluso se puede imaginar un modelo que ofrezca inferencia gratuita a investigadores a cambio de usar ese proceso de razonamiento (trace) como datos de entrenamiento
    • Por lo que dicen investigadores últimamente, parece que la arquitectura de los modelos avanzará hacia una gran expansión de la ventana de contexto
      Modelos como Qwen3-next, Qwen3.5 y Nemotron 3 Nano soportan ventanas de un millón de tokens con atención híbrida, reduciendo el costo de memoria
    • La mayor parte de la investigación y el aprendizaje ya se hace por medio de LLMs y agentes de código
      Los bucles de retroalimentación en tiempo real mediante validación humana, ejecución de código y búsqueda funcionan como señales de entrenamiento para los modelos
    • En 2030, quizá más bien Claude mantenga actualizado a Anthropic
      Es medio en broma, pero no es algo completamente imposible
  • Esto me recordó la conversación sobre GPT-4 entre Wolfram y Knuth de hace tiempo
    Knuth era escéptico en ese entonces, pero al ver modelos recientes como Opus 4.6 parece haberse suavizado
    Es admirable cambiar de opinión según la nueva evidencia
    La conversación relacionada puede verse aquí

    • Actualizar la probabilidad previa (prior) según nueva evidencia es precisamente el encanto de la estadística bayesiana
      Y también es la esencia del pensamiento científico
  • Siento que la introducción del texto de Knuth es algo susceptible de malinterpretación
    Da la impresión de que Claude resolvió directamente el problema, pero en realidad Claude generó ejemplos y Knuth los generalizó hasta convertirlos en una prueba

    • Yo también hice un experimento parecido con Claude, y la sinergia entre humanos y LLMs es realmente grande
      Los LLMs son débiles para marcar la dirección, pero una vez que se les da una, son muy buenos para la exploración profunda
      Si se les deja solos se van por cualquier lado, pero con una persona guiando se vuelven excelentes compañeros
    • No creo que Knuth lo haya sobrevalorado
      Claude cumplió el papel de penetrar en el núcleo del problema, y el humano solo lo refinó
    • También se puede considerar que Claude hizo la ‘resolución’ de la que habla Knuth
      Ordenar la prueba es solo una tarea secundaria
    • La capacidad de volver a intentos anteriores para reflexionar y corregir sí parece una clara señal de inteligencia
  • Me pareció interesante la parte donde Claude se detuvo en el caso par
    Probablemente usaron claude.ai o claude code, y parece que entró en un exceso de contexto (dumb zone)

    • Estaría bueno poder visualizar esa dumb zone
      Algo como mostrar un gráfico de uso de contexto al estilo Copilot, para que el usuario lo note, sería útil
    • Al final, si no se hace compresión de contexto (compacting), los resultados salen desastrosos
    • Como mencionan un ‘plan document’, parece que usaron un documento para administrar la sesión
    • También había gente preguntándose qué es exactamente la dumb zone
  • Alguien hizo que Claude resolviera el famoso rompecabezas de pentominós popularizado por Arthur C. Clarke
    Al representar el tablero y las piezas con enteros de 64 bits, generó un programa en C# que lo resolvía rápido, pero en el caso 20x3 dio una respuesta incorrecta por un mapeo equivocado
    Es interesante porque es un error muy humano

  • En resumen, Knuth planteó el problema y un amigo hizo unas 30 rondas de exploración con Claude
    Claude creó un programa en Python que resolvía los casos impares, y Knuth demostró ese enfoque
    El caso par sigue siendo un problema sin resolver

    • Pero la frase de Knuth sobre “careful human guidance” parece un poco exagerada
      En realidad, Claude se detenía o cometía errores con frecuencia, y la persona solo le hacía algún recordatorio de vez en cuando
    • Parece que lo que Knuth quería enfatizar es que la prueba formal sigue siendo tarea humana
      No está claro de quién salió la idea central
  • Hoy en día realmente es una época muy divertida para trabajar con problemas sin resolver
    Dan ganas de volver a explorar investigaciones de hace 10 años junto con Claude

  • Las fortalezas de los LLMs parecen ser tres: conocimiento vasto, capacidad de conectar cosas y ensayo y error incansable
    Cuando esas tres cosas se juntan, a veces salen resultados sorprendentes
    Quizá hasta una prueba de P≠NP esté en algún vínculo tenue que los humanos no hemos visto

    • En realidad, el último punto quizá no sea tanto una característica del LLM en sí, sino de un bucle de agente
      El LLM es solo un componente dentro de eso
    • Aun así, la exploración iterativa sin cansancio sí es una gran ventaja frente a los humanos
      Si todo lo demás es igual, esa puede ser la diferencia decisiva
    • Coincido por completo con la idea de que al combinar esas tres cosas salen resultados geniales
    • Pero da miedo pensar que esta capacidad pueda usarse en sistemas de vigilancia
    • La ‘capacidad de conectar cosas’ en realidad parece limitada a conexiones que ya existen en los datos de entrenamiento
      Todavía es difícil crear conexiones completamente nuevas
  • Me pregunto si realmente es correcto decir que “los LLMs son solo máquinas para predecir la siguiente palabra”
    Si fuera así, ¿cómo se explica esta resolución de problemas? ¿Es esto ‘pensar’?

    • Si uno pudiera predecir perfectamente la siguiente palabra que diría Einstein, eso ya sería implementar inteligencia
      La expresión “la palabra más probable” es una simplificación excesiva
    • Esa explicación aplica al modelo base, pero modelos como Opus 4.6 además tienen RLHF y entrenamiento adicional encima
      Al final, la “capacidad de predecir bien lo que va a pasar después” podría ser en sí una definición de inteligencia
    • El modelo base aprende de forma natural patrones de resolución de problemas al aprender el patrón web de “Answer:”
      Gracias a RLHF recibe recompensas no por predecir sin más, sino por dar respuestas útiles
      Por eso aparecen con demasiada frecuencia expresiones como “delve”
      Sobre eso, ver el documento de AI SIGNS
    • Al final sigue extrayendo palabras de una distribución de probabilidad, pero esa distribución en sí es el núcleo de la inteligencia
      Los LLMs están aprendiendo esa distribución
    • Cuando el mecanismo simple de “la palabra más probable” se combina con todo el conocimiento acumulado por la humanidad, adquiere un poder enorme
      Reducirlo a una burla simplista es no entender la esencia de la tecnología
  • Es interesante que sea un informe del propio Knuth
    Es momento de leerlo y entenderlo directamente, sin ayuda de un LLM