- Si resuelves esta prueba y superas el mejor rendimiento de Claude Opus 4.5 (1487 ciclos), puedes enviar tu código y tu CV a Anthropic
- La versión inicial tenía un límite de 4 horas, pero después Opus 4 superó a la mayoría de las personas, así que se cambió a una versión con límite de 2 horas
La prueba take-home original de rendimiento de Anthropic
- El repositorio incluye la versión de la prueba usada para la evaluación inicial de rendimiento de Anthropic
- Es la versión anterior a que Claude Opus 4.5 superara a los humanos en rendimiento dentro de 2 horas
- Originalmente era una prueba con límite de 4 horas y luego se acortó a la versión de 2 horas
- La versión de 2 horas se basa en un código inicial de 18532 ciclos (7.97 veces más rápido)
- La versión publicada actualmente mantiene la arquitectura más reciente, pero se ofrece nuevamente con el código base más lento
- Después de Claude Opus 4.5, comenzó a usarse un nuevo código base
Benchmark de rendimiento
- Todas las cifras se miden en ciclos de reloj de una máquina simulada
- Resultados medidos con base en la versión de 2 horas (código inicial de 18532 ciclos)
- Resultados principales:
- 2164 ciclos: Claude Opus 4 (ejecución prolongada en el test harness)
- 1790 ciclos: Claude Opus 4.5 (sesión de código normal, similar al mejor nivel humano)
- 1579 ciclos: Claude Opus 4.5 (ejecución del test harness de 2 horas)
- 1548 ciclos: Claude Sonnet 4.5 (ejecución prolongada del test harness)
- 1487 ciclos: Claude Opus 4.5 (ejecución del harness durante 11.5 horas)
- 1363 ciclos: Claude Opus 4.5 (entorno de harness mejorado)
- El mejor rendimiento humano es superior a esas cifras, pero no se ha hecho público
Cómo participar y enviar tu resultado
- Actualmente, cualquiera puede intentar esta prueba sin límite de tiempo
- Si un participante logra optimizar a 1487 ciclos o menos, superando el mejor rendimiento de Claude Opus 4.5, puede enviar su código y su CV por correo a Anthropic
- Dirección de correo: performance-recruiting@anthropic.com
- Cuando se lancen nuevos modelos, el criterio de rendimiento puede cambiar
- La prueba puede ejecutarse con el comando
python tests/submission_tests.py
1 comentarios
Comentarios en Hacker News
Me pareció interesante el desafío clave de encontrar el equilibrio entre ALU y VALU
Pero parece que el problema de ancho de banda de carga podría convertirse en un cuello de botella
Para lograr un total de cargas de 2096 o menos, habría que asumir que el índice inicial siempre es 0, y eso no tiene gracia
Si hubiera existido una función como rotación dinámica de lanes vectoriales (dynamic vector lane rotate), habría sido mucho más interesante
Me considero bastante inteligente, pero cuando veo problemas así me doy cuenta de cuánto me falta por saber
Tal vez esté un poco por encima del promedio, pero igual se siente la brecha con los desarrolladores de primer nivel
Lo importante es la capacidad de aprender cuando uno se topa con algo que no conoce
A mí también, después de graduarme de la universidad, me pusieron un problema de optimización de código de bajo nivel en una entrevista para una empresa de hardware, y al principio me resultó totalmente ajeno
Si aprendes estos conceptos y practicas este tipo de problemas, cualquiera puede resolverlo
No se trata de estar por debajo del promedio, sino simplemente de tener un conjunto de conocimientos diferente
En realidad esto no es tan complicado
Basta con leer suficiente código y entender la estructura
La verdadera diferencia de nivel está en si puedes construir el modelo completo del programa en tu cabeza
Me pregunto si Anthropic publicó esto como un ataque DDoS contra otras empresas de IA
Le puse a gemini CLI el prompt “¿cómo resolver este problema?” y lleva 20 minutos corriendo sin parar
Muchas veces caen en bucles como “Estoy preparando la respuesta. Ya terminé. Voy a mostrar la salida.”
A veces se detienen después de detectar el bucle, pero que tarden más de 15 minutos incluso en tareas triviales parece un problema estructural
Yo lo probé desde el lanzamiento de G3Pro y el rendimiento fue pésimo
Probé varios agentes de IA bajo las mismas condiciones
Al final, ningún modelo superó el objetivo de Anthropic, pero gpt-5-2 fue el más rápido y eficiente
Viendo la velocidad que tiene, quizá haya más potencial
Me pregunto si podrías compartir el código del agent-comparison harness
Había una frase que decía “si logras optimizarlo por debajo de 1487 ciclos, envía un correo a Anthropic”,
y esa forma de contratación me parece bastante interesante
Da la impresión de ser mucho mejor que un problema típico de Leetcode
Después igual te entrevistan con problemas de Leetcode como al resto de los candidatos
Para alguien que trabaja y postula a varias empresas, no es realista
Leetcode se puede reutilizar, pero este tipo de problemas de optimización tiene muy poca reutilización
Fue un problema realmente divertido
Si te interesa la optimización, lo recomiendo mucho
Yo dediqué mis noches durante una semana y lo bajé hasta 1112 ciclos
Hice la mayor parte a mano, pero me da curiosidad si los modelos agentic de hoy podrían conseguir algo mejor
Creo que esta tarea tiene vibra de demoscene y de code golf
También está genial perfilarlo con la herramienta de Chrome tracing
Enlace al código del problema
Aunque me da curiosidad qué algoritmo implementa exactamente
Viéndolo rápido, parecía una predicción de random forest
Te ahorra el trabajo de tener que crear tu propio visor
Estaba aprendiendo SIMD, PTX y técnicas de optimización, así que esta tarea fue una buena oportunidad para aprender
Pero como take-home assignment probablemente era demasiado larga
En la práctica, creo que solo bosquejar ideas y leer el código ya me habría tomado unas 2 horas
Los candidatos reales probablemente tardaron entre 6 horas y 2 días
Ahora mismo, con Opus, llegué a 1137 ciclos en 1 hora
Apliqué hash vectorizado en pipeline, ejecución especulativa, código estático por etapa y prólogo/epílogo para cada etapa
Creo que ahora incluso sería posible bajar de 900
Me di cuenta de que en la etapa 4 basta con mirar los bits 16 y 0 para calcular en paralelo la paridad de la etapa 5