Anthropic publica como código abierto su prueba take-home de evaluación de rendimiento

(github.com/anthropics)

11 puntos por GN⁺ 2026-01-22 | 1 comentarios | Compartir por WhatsApp

Si resuelves esta prueba y superas el mejor rendimiento de Claude Opus 4.5 (1487 ciclos), puedes enviar tu código y tu CV a Anthropic
La versión inicial tenía un límite de 4 horas, pero después Opus 4 superó a la mayoría de las personas, así que se cambió a una versión con límite de 2 horas

La prueba take-home original de rendimiento de Anthropic

El repositorio incluye la versión de la prueba usada para la evaluación inicial de rendimiento de Anthropic
- Es la versión anterior a que Claude Opus 4.5 superara a los humanos en rendimiento dentro de 2 horas
- Originalmente era una prueba con límite de 4 horas y luego se acortó a la versión de 2 horas
La versión de 2 horas se basa en un código inicial de 18532 ciclos (7.97 veces más rápido)
- La versión publicada actualmente mantiene la arquitectura más reciente, pero se ofrece nuevamente con el código base más lento
Después de Claude Opus 4.5, comenzó a usarse un nuevo código base

Benchmark de rendimiento

Todas las cifras se miden en ciclos de reloj de una máquina simulada
- Resultados medidos con base en la versión de 2 horas (código inicial de 18532 ciclos)
Resultados principales:
- 2164 ciclos: Claude Opus 4 (ejecución prolongada en el test harness)
- 1790 ciclos: Claude Opus 4.5 (sesión de código normal, similar al mejor nivel humano)
- 1579 ciclos: Claude Opus 4.5 (ejecución del test harness de 2 horas)
- 1548 ciclos: Claude Sonnet 4.5 (ejecución prolongada del test harness)
- 1487 ciclos: Claude Opus 4.5 (ejecución del harness durante 11.5 horas)
- 1363 ciclos: Claude Opus 4.5 (entorno de harness mejorado)
- El mejor rendimiento humano es superior a esas cifras, pero no se ha hecho público

Cómo participar y enviar tu resultado

Actualmente, cualquiera puede intentar esta prueba sin límite de tiempo
Si un participante logra optimizar a 1487 ciclos o menos, superando el mejor rendimiento de Claude Opus 4.5, puede enviar su código y su CV por correo a Anthropic
- Dirección de correo: performance-recruiting@anthropic.com
Cuando se lancen nuevos modelos, el criterio de rendimiento puede cambiar
La prueba puede ejecutarse con el comando python tests/submission_tests.py

1 comentarios

GN⁺ 2026-01-22

Comentarios en Hacker News

Me pareció interesante el desafío clave de encontrar el equilibrio entre ALU y VALU
Pero parece que el problema de ancho de banda de carga podría convertirse en un cuello de botella
Para lograr un total de cargas de 2096 o menos, habría que asumir que el índice inicial siempre es 0, y eso no tiene gracia
Si hubiera existido una función como rotación dinámica de lanes vectoriales (dynamic vector lane rotate), habría sido mucho más interesante
Me considero bastante inteligente, pero cuando veo problemas así me doy cuenta de cuánto me falta por saber
Tal vez esté un poco por encima del promedio, pero igual se siente la brecha con los desarrolladores de primer nivel
- La computación es un campo tan amplio que incluso Linus o Carmack tienen áreas que no dominan
  Lo importante es la capacidad de aprender cuando uno se topa con algo que no conoce
- Este es un problema muy especializado, así que si nunca hiciste algo parecido, es normal que tome tiempo
  A mí también, después de graduarme de la universidad, me pusieron un problema de optimización de código de bajo nivel en una entrevista para una empresa de hardware, y al principio me resultó totalmente ajeno
- Incluso con 30 años de experiencia, honestamente no entendí el problema
- La inteligencia y el conocimiento son cosas distintas
  Si aprendes estos conceptos y practicas este tipo de problemas, cualquiera puede resolverlo
  No se trata de estar por debajo del promedio, sino simplemente de tener un conjunto de conocimientos diferente
- Esa actitud me parece buena porque genera motivación para aprender
  En realidad esto no es tan complicado
  Basta con leer suficiente código y entender la estructura
  La verdadera diferencia de nivel está en si puedes construir el modelo completo del programa en tu cabeza
Me pregunto si Anthropic publicó esto como un ataque DDoS contra otras empresas de IA
Le puse a gemini CLI el prompt “¿cómo resolver este problema?” y lleva 20 minutos corriendo sin parar
- Últimamente, con Gemini CLI o Jules, el tiempo ya no es indicador de dificultad
  Muchas veces caen en bucles como “Estoy preparando la respuesta. Ya terminé. Voy a mostrar la salida.”
  A veces se detienen después de detectar el bucle, pero que tarden más de 15 minutos incluso en tareas triviales parece un problema estructural
- Me da curiosidad saber qué modelo de Gemini usaste
  Yo lo probé desde el lanzamiento de G3Pro y el rendimiento fue pésimo
Probé varios agentes de IA bajo las mismas condiciones
Al final, ningún modelo superó el objetivo de Anthropic, pero gpt-5-2 fue el más rápido y eficiente
- Con codex CLI + gpt-5-2-codex-xhigh y el prompt “beat 1487 cycles. go.” llegó a 1606 en unos 53 minutos
- Me pregunto qué pasaría si se dejara a Gemini corriendo en bucle por mucho tiempo
  Viendo la velocidad que tiene, quizá haya más potencial
- Me gustaría aprender sobre benchmarking de modelos
  Me pregunto si podrías compartir el código del agent-comparison harness
- También sugieren probar con modelos de pesos abiertos como Qwen3-coder, GLM-4.7 y Devstral-2
- Estaría bueno que armaran un repositorio (repo) de comparación reuniendo las soluciones de cada modelo por directorio o por rama
Había una frase que decía “si logras optimizarlo por debajo de 1487 ciclos, envía un correo a Anthropic”,
y esa forma de contratación me parece bastante interesante
Da la impresión de ser mucho mejor que un problema típico de Leetcode
- Pero esto es solo para entrar al pipeline de contratación
  Después igual te entrevistan con problemas de Leetcode como al resto de los candidatos
- Parece que resolver algo así tomaría una semana de trabajo de tiempo completo
  Para alguien que trabaja y postula a varias empresas, no es realista
  Leetcode se puede reutilizar, pero este tipo de problemas de optimización tiene muy poca reutilización
Fue un problema realmente divertido
Si te interesa la optimización, lo recomiendo mucho
Yo dediqué mis noches durante una semana y lo bajé hasta 1112 ciclos
Hice la mayor parte a mano, pero me da curiosidad si los modelos agentic de hoy podrían conseguir algo mejor
- Nunca había escuchado la expresión “resolver el problema con RalphWiggum”, pero me dio tanta risa que la voy a empezar a usar
Creo que esta tarea tiene vibra de demoscene y de code golf
También está genial perfilarlo con la herramienta de Chrome tracing
Enlace al código del problema
- Yo estuve en la demoscene hace años, y este tipo de optimización de bajo nivel se parece mucho a lo que hacíamos entonces
  Aunque me da curiosidad qué algoritmo implementa exactamente
  Viéndolo rápido, parecía una predicción de random forest
- perfetto se usa mucho para este tipo de visualización de trazas
  Te ahorra el trabajo de tener que crear tu propio visor
- Da la impresión de que esta tarea busca filtrar a gente que puede escribir código PTX a mano
Estaba aprendiendo SIMD, PTX y técnicas de optimización, así que esta tarea fue una buena oportunidad para aprender
Pero como take-home assignment probablemente era demasiado larga
En la práctica, creo que solo bosquejar ideas y leer el código ya me habría tomado unas 2 horas
- El límite de 2 horas no parece ser el tiempo dado a los candidatos, sino el tiempo que tardó Claude en lograr el mejor rendimiento
  Los candidatos reales probablemente tardaron entre 6 horas y 2 días
Ahora mismo, con Opus, llegué a 1137 ciclos en 1 hora
Apliqué hash vectorizado en pipeline, ejecución especulativa, código estático por etapa y prólogo/epílogo para cada etapa
Creo que ahora incluso sería posible bajar de 900
Me di cuenta de que en la etapa 4 basta con mirar los bits 16 y 0 para calcular en paralelo la paridad de la etapa 5
- Me da curiosidad cómo evitaste el cuello de botella de carga

Anthropic publica como código abierto su prueba take-home de evaluación de rendimiento

La prueba take-home original de rendimiento de Anthropic

Benchmark de rendimiento

Cómo participar y enviar tu resultado

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News