- Se lanzó en vista previa de investigación una función de Code Review que asigna un equipo multiagente a cada PR para detectar en profundidad errores que a las personas les resulta fácil pasar por alto
- Como la producción de código por ingeniero en Anthropic aumentó un 200% durante el último año, la revisión de código se convirtió en un cuello de botella, y muchos PR terminaban recibiendo una lectura superficial en lugar de una revisión profunda
- Antes de adoptarlo, solo el 16% de los PR recibía comentarios de revisión realmente sustanciales, pero después de implementarlo la cifra subió al 54%; la aprobación del PR sigue estando a cargo de personas
- En los PR grandes (más de 1,000 líneas), el 84% incluye hallazgos y se reportan en promedio 7.5 problemas, con una tasa de falsos positivos menor al 1%
- El costo de revisión, medido por uso de tokens, es de $15 a $25 en promedio por PR, y ofrece funciones de control de costos como límite mensual por organización y controles por repositorio
El problema del cuello de botella en la revisión de código
- Como la producción de código por ingeniero en Anthropic aumentó un 200% durante el último año, la revisión de código emergió como un cuello de botella en el proceso de desarrollo
- En empresas clientes también se repetía la misma queja cada semana: con los desarrolladores sobrecargados, muchos PR se quedaban en una revisión por encima en lugar de una revisión profunda
- Se desarrolló como una opción más exhaustiva y más costosa que la actual Claude Code GitHub Action de código abierto, con el objetivo de asignar un revisor confiable a todos los PR
- Antes de adoptarlo, solo el 16% de los PR recibía comentarios de revisión realmente sustanciales, pero después de implementarlo la cifra subió al 54%
- La aprobación del PR sigue estando a cargo de personas, y la función busca cerrar la brecha para que los revisores puedan cubrir adecuadamente el código que realmente se envía a producción
Cómo funciona
- Cuando se abre un PR, se despacha un equipo de agentes para buscar errores en paralelo
- Cada agente valida los errores para filtrar falsos positivos y los clasifica según su nivel de gravedad
- Los resultados se entregan en el PR como un único comentario de resumen de alta señal y comentarios en línea sobre errores específicos
- La escala de la revisión se ajusta automáticamente según el tamaño del PR: los cambios grandes y complejos reciben más agentes y un análisis más profundo, mientras que los cambios menores pasan por una ruta más ligera
- En las pruebas, el tiempo promedio de revisión fue de aproximadamente 20 minutos
Casos reales de uso
- Tras varios meses de operación interna, en los PR grandes (más de 1,000 líneas) el 84% incluía hallazgos y se reportaban en promedio 7.5 problemas
- En los PR pequeños (menos de 50 líneas), el 31% incluía hallazgos y se reportaban en promedio 0.5 problemas
- Los ingenieros suelen estar de acuerdo con los hallazgos, y la proporción marcada como falso positivo es menor al 1%
- En un caso, un cambio de una sola línea en un servicio de producción parecía un diff que normalmente habría recibido una aprobación rápida, pero Code Review lo marcó como crítico
- Ese cambio implicaba un modo de falla que podía romper la autenticación del servicio; en el diff era fácil leerlo por encima y dejarlo pasar, pero una vez señalado el problema resultaba evidente
- Se corrigió antes del merge, y el ingeniero compartió que por sí solo no lo habría detectado
- En el middleware de código abierto de TrueNAS, Code Review encontró un error preexistente en código adyacente dentro de un PR de refactorización de cifrado de ZFS
- Un problema de incompatibilidad de tipos que borraba silenciosamente la caché de claves de cifrado en cada sincronización
- Era un problema latente en el código tocado por el PR, del tipo que un revisor humano que examina el conjunto de cambios probablemente no buscaría de inmediato
Costos y controles
- Está optimizado para profundidad, por lo que su costo es mayor que el de soluciones más ligeras como Claude Code GitHub Action
- La revisión se cobra según uso de tokens y promedia entre $15 y $25 según el tamaño y la complejidad del PR
- Opciones de control de costos y uso para administradores:
- Límite mensual por organización: permite definir el gasto total mensual para todas las revisiones
- Control por repositorio: permite habilitar revisiones solo en los repositorios seleccionados
- Panel de análisis: permite seguir la cantidad de PR revisados, la tasa de aceptación y el costo total de revisión
Cómo empezar
- Disponible como vista previa de investigación (beta) para los planes Team y Enterprise
- Los administradores pueden activar Code Review en la configuración de Claude Code, instalar la GitHub App y luego seleccionar los repositorios donde se ejecutarán las revisiones
- Una vez activado, para los desarrolladores la revisión se ejecuta automáticamente en los nuevos PR, sin configuración adicional
8 comentarios
Últimamente, la velocidad de lanzamientos de Anthropic está de locos.
Mientras mejoran sus herramientas de desarrollo, parece que ya completaron un flywheel que también acelera su propio desarrollo con eso mismo.
Se siente muchísimo ese ambiente de startup que saca algo nuevo todos los días.
Seguro le está metiendo muchísima presión a OpenAI.
Se nota que están trabajando con muchísima emoción.
Si solo bajaran el costo, creo que estaría bien.
Generar código con Claude y revisar código con Claude...
Parece que el plan personal no es compatible. ¿Será que tampoco lo estará más adelante?
Parece que empezó la mejora recursiva.
Profesores Claude, ¿no creen que esto ya va demasiado rápido, humanamente hablando...? snif
Claude: porque... no es humano;;;;