11 puntos por GN⁺ 2026-01-22 | 1 comentarios | Compartir por WhatsApp
  • Si resuelves esta prueba y superas el mejor rendimiento de Claude Opus 4.5 (1487 ciclos), puedes enviar tu código y tu CV a Anthropic
  • La versión inicial tenía un límite de 4 horas, pero después Opus 4 superó a la mayoría de las personas, así que se cambió a una versión con límite de 2 horas

La prueba take-home original de rendimiento de Anthropic

  • El repositorio incluye la versión de la prueba usada para la evaluación inicial de rendimiento de Anthropic
    • Es la versión anterior a que Claude Opus 4.5 superara a los humanos en rendimiento dentro de 2 horas
    • Originalmente era una prueba con límite de 4 horas y luego se acortó a la versión de 2 horas
  • La versión de 2 horas se basa en un código inicial de 18532 ciclos (7.97 veces más rápido)
    • La versión publicada actualmente mantiene la arquitectura más reciente, pero se ofrece nuevamente con el código base más lento
  • Después de Claude Opus 4.5, comenzó a usarse un nuevo código base

Benchmark de rendimiento

  • Todas las cifras se miden en ciclos de reloj de una máquina simulada
    • Resultados medidos con base en la versión de 2 horas (código inicial de 18532 ciclos)
  • Resultados principales:
    • 2164 ciclos: Claude Opus 4 (ejecución prolongada en el test harness)
    • 1790 ciclos: Claude Opus 4.5 (sesión de código normal, similar al mejor nivel humano)
    • 1579 ciclos: Claude Opus 4.5 (ejecución del test harness de 2 horas)
    • 1548 ciclos: Claude Sonnet 4.5 (ejecución prolongada del test harness)
    • 1487 ciclos: Claude Opus 4.5 (ejecución del harness durante 11.5 horas)
    • 1363 ciclos: Claude Opus 4.5 (entorno de harness mejorado)
    • El mejor rendimiento humano es superior a esas cifras, pero no se ha hecho público

Cómo participar y enviar tu resultado

  • Actualmente, cualquiera puede intentar esta prueba sin límite de tiempo
  • Si un participante logra optimizar a 1487 ciclos o menos, superando el mejor rendimiento de Claude Opus 4.5, puede enviar su código y su CV por correo a Anthropic
    • Dirección de correo: performance-recruiting@anthropic.com
  • Cuando se lancen nuevos modelos, el criterio de rendimiento puede cambiar
  • La prueba puede ejecutarse con el comando python tests/submission_tests.py

1 comentarios

 
GN⁺ 2026-01-22
Comentarios en Hacker News
  • Me pareció interesante el desafío clave de encontrar el equilibrio entre ALU y VALU
    Pero parece que el problema de ancho de banda de carga podría convertirse en un cuello de botella
    Para lograr un total de cargas de 2096 o menos, habría que asumir que el índice inicial siempre es 0, y eso no tiene gracia
    Si hubiera existido una función como rotación dinámica de lanes vectoriales (dynamic vector lane rotate), habría sido mucho más interesante

  • Me considero bastante inteligente, pero cuando veo problemas así me doy cuenta de cuánto me falta por saber
    Tal vez esté un poco por encima del promedio, pero igual se siente la brecha con los desarrolladores de primer nivel

    • La computación es un campo tan amplio que incluso Linus o Carmack tienen áreas que no dominan
      Lo importante es la capacidad de aprender cuando uno se topa con algo que no conoce
    • Este es un problema muy especializado, así que si nunca hiciste algo parecido, es normal que tome tiempo
      A mí también, después de graduarme de la universidad, me pusieron un problema de optimización de código de bajo nivel en una entrevista para una empresa de hardware, y al principio me resultó totalmente ajeno
    • Incluso con 30 años de experiencia, honestamente no entendí el problema
    • La inteligencia y el conocimiento son cosas distintas
      Si aprendes estos conceptos y practicas este tipo de problemas, cualquiera puede resolverlo
      No se trata de estar por debajo del promedio, sino simplemente de tener un conjunto de conocimientos diferente
    • Esa actitud me parece buena porque genera motivación para aprender
      En realidad esto no es tan complicado
      Basta con leer suficiente código y entender la estructura
      La verdadera diferencia de nivel está en si puedes construir el modelo completo del programa en tu cabeza
  • Me pregunto si Anthropic publicó esto como un ataque DDoS contra otras empresas de IA
    Le puse a gemini CLI el prompt “¿cómo resolver este problema?” y lleva 20 minutos corriendo sin parar

    • Últimamente, con Gemini CLI o Jules, el tiempo ya no es indicador de dificultad
      Muchas veces caen en bucles como “Estoy preparando la respuesta. Ya terminé. Voy a mostrar la salida.”
      A veces se detienen después de detectar el bucle, pero que tarden más de 15 minutos incluso en tareas triviales parece un problema estructural
    • Me da curiosidad saber qué modelo de Gemini usaste
      Yo lo probé desde el lanzamiento de G3Pro y el rendimiento fue pésimo
  • Probé varios agentes de IA bajo las mismas condiciones
    Al final, ningún modelo superó el objetivo de Anthropic, pero gpt-5-2 fue el más rápido y eficiente

    • Con codex CLI + gpt-5-2-codex-xhigh y el prompt “beat 1487 cycles. go.” llegó a 1606 en unos 53 minutos
    • Me pregunto qué pasaría si se dejara a Gemini corriendo en bucle por mucho tiempo
      Viendo la velocidad que tiene, quizá haya más potencial
    • Me gustaría aprender sobre benchmarking de modelos
      Me pregunto si podrías compartir el código del agent-comparison harness
    • También sugieren probar con modelos de pesos abiertos como Qwen3-coder, GLM-4.7 y Devstral-2
    • Estaría bueno que armaran un repositorio (repo) de comparación reuniendo las soluciones de cada modelo por directorio o por rama
  • Había una frase que decía “si logras optimizarlo por debajo de 1487 ciclos, envía un correo a Anthropic”,
    y esa forma de contratación me parece bastante interesante
    Da la impresión de ser mucho mejor que un problema típico de Leetcode

    • Pero esto es solo para entrar al pipeline de contratación
      Después igual te entrevistan con problemas de Leetcode como al resto de los candidatos
    • Parece que resolver algo así tomaría una semana de trabajo de tiempo completo
      Para alguien que trabaja y postula a varias empresas, no es realista
      Leetcode se puede reutilizar, pero este tipo de problemas de optimización tiene muy poca reutilización
  • Fue un problema realmente divertido
    Si te interesa la optimización, lo recomiendo mucho
    Yo dediqué mis noches durante una semana y lo bajé hasta 1112 ciclos
    Hice la mayor parte a mano, pero me da curiosidad si los modelos agentic de hoy podrían conseguir algo mejor

    • Nunca había escuchado la expresión “resolver el problema con RalphWiggum”, pero me dio tanta risa que la voy a empezar a usar
  • Creo que esta tarea tiene vibra de demoscene y de code golf
    También está genial perfilarlo con la herramienta de Chrome tracing
    Enlace al código del problema

    • Yo estuve en la demoscene hace años, y este tipo de optimización de bajo nivel se parece mucho a lo que hacíamos entonces
      Aunque me da curiosidad qué algoritmo implementa exactamente
      Viéndolo rápido, parecía una predicción de random forest
    • perfetto se usa mucho para este tipo de visualización de trazas
      Te ahorra el trabajo de tener que crear tu propio visor
    • Da la impresión de que esta tarea busca filtrar a gente que puede escribir código PTX a mano
  • Estaba aprendiendo SIMD, PTX y técnicas de optimización, así que esta tarea fue una buena oportunidad para aprender
    Pero como take-home assignment probablemente era demasiado larga
    En la práctica, creo que solo bosquejar ideas y leer el código ya me habría tomado unas 2 horas

    • El límite de 2 horas no parece ser el tiempo dado a los candidatos, sino el tiempo que tardó Claude en lograr el mejor rendimiento
      Los candidatos reales probablemente tardaron entre 6 horas y 2 días
  • Ahora mismo, con Opus, llegué a 1137 ciclos en 1 hora
    Apliqué hash vectorizado en pipeline, ejecución especulativa, código estático por etapa y prólogo/epílogo para cada etapa
    Creo que ahora incluso sería posible bajar de 900
    Me di cuenta de que en la etapa 4 basta con mirar los bits 16 y 0 para calcular en paralelo la paridad de la etapa 5

    • Me da curiosidad cómo evitaste el cuello de botella de carga