Claude Code: tras la actualización de febrero, la calidad cayó hasta volverse inutilizable en tareas complejas de ingeniería

(github.com/anthropics)

34 puntos por GN⁺ 23 일 전 | 5 comentarios | Compartir por WhatsApp

Se reportaron numerosos casos en los que Claude Code ignora instrucciones o hace lo contrario, o afirma haber terminado una tarea sin completarla, lo que provoca fallas en tareas complejas de ingeniería
Se estima que la causa principal del deterioro es una reducción de los tokens de Extended Thinking tras el despliegue de redact-thinking-2026-02-12, y que la profundidad del razonamiento cayó hasta un 73% frente a la referencia
Después, el modelo cambió su patrón de comportamiento de "investigar antes de editar (Read-First)" a "editar de inmediato (Edit-First)", y la cantidad de lecturas por archivo cayó 70%, de 6.6 a 2.0
También se confirmó numéricamente el deterioro de calidad en el flujo de trabajo real y los datos emocionales de los usuarios, con un aumento de 68% en expresiones negativas dentro de los prompts de usuario y una caída de 58% en la frecuencia de commits de código
Se pide a Anthropic transparentar el uso de tokens de razonamiento, crear un nivel "Max Thinking" para usuarios de alta carga e incluir la métrica thinking_tokens en las respuestas de la API

Resumen del informe y fuentes de datos

Objeto del análisis: 6,852 archivos JSONL de sesiones de Claude Code recopilados en 4 proyectos (iree-loom, iree-amdgpu, iree-remoting, bureau)
Alcance del análisis: 17,871 bloques de thinking, 234,760 llamadas a herramientas y más de 18,000 prompts de usuario
Período analizado: del 30 de enero de 2026 al 1 de abril
Este informe fue elaborado por Claude Opus 4.6 analizando directamente sus propios logs de sesión

1. Correlación entre la línea de tiempo del ocultamiento de Thinking y la caída de calidad

El calendario de despliegue de redact-thinking-2026-02-12 coincide exactamente con el momento en que cayó la calidad

Período	Thinking visible	Thinking oculto
30 de enero ~ 4 de marzo	100%	0%
5 de marzo	98.5%	1.5%
7 de marzo	75.3%	24.7%
8 de marzo	41.6%	58.4%
10~11 de marzo	<1%	>99%
12 de marzo~	0%	100%

La caída de calidad fue reportada de forma independiente por la comunidad el 8 de marzo, exactamente la misma fecha en que la tasa de ocultamiento superó el 50%
El patrón de despliegue gradual (1.5% → 25% → 58% → 100%) coincide con un rollout progresivo

2. Disminución previa de la profundidad de Thinking

La longitud del campo signature en los bloques de thinking muestra una correlación de Pearson de 0.971 con la longitud del contenido del thinking (sobre una muestra de 7,146 casos)
Gracias a esto, es posible estimar la profundidad del thinking incluso después de su ocultamiento

Período	Thinking mediano estimado (chars)	Frente a la referencia
30 de enero ~ 8 de febrero (referencia)	~2,200	—
Finales de febrero	~720	-67%
1~5 de marzo	~560	-75%
12 de marzo~ (ocultamiento total)	~600	-73%

La profundidad del razonamiento ya había caído 67% a finales de febrero, antes de que comenzara el ocultamiento, y después de eso quedó imposible de verificar desde fuera debido al ocultamiento

3. Métricas para medir cambios de comportamiento

Al comparar antes y después del 8 de marzo con base en más de 18,000 prompts de usuario:

Métrica	Antes del 8 de marzo	Después del 8 de marzo	Cambio
Violaciones del stop hook (detección de flojera)	0	173 casos	0 → 10 por día
Expresiones de descontento en prompts de usuario	5.8%	9.8%	+68%
Veces que fue necesario corregir evasión de responsabilidad	6	13	+117%
Prompts por sesión	35.9	27.9	-22%
Sesiones con bucles de razonamiento (5 veces o más)	0	7	0 → 7

Mediante el script stop-phrase-guard.sh, se detectaron automáticamente expresiones como "creo que podríamos detenernos aquí", "¿quieres que continúe?" o "es un problema preexistente", forzando así la ejecución continua
Este hook no se activó ni una sola vez antes del 8 de marzo, pero después se activó 173 veces en 17 días

4. Cambios en el patrón de uso de herramientas: investigación primero → edición primero

Cambio en la proporción Read:Edit

Período	Read:Edit	Research:Mutation	Lectura %	Edición %
Buen período (30/1 ~ 12/2)	6.6	8.7	46.5%	7.1%
Período de transición (13/2 ~ 7/3)	2.8	4.1	37.7%	13.2%
Período de deterioro (8/3 ~ 23/3)	2.0	2.8	31.0%	15.4%

Las lecturas por edición cayeron 70%, de 6.6 a 2.0: durante el buen período, leía el archivo objetivo, archivos relacionados, hacía grep en todo el codebase y revisaba headers y tests antes de editar con precisión; en el período de deterioro, en cambio, pasó a editar de inmediato
En la tendencia semanal, la caída en investigación empezó a mediados de febrero, coincidiendo con el punto en que la profundidad de thinking se redujo 67%

Aumento en la sobrescritura completa de archivos (Write)

Período	Proporción de Write de archivo completo
Buen período	4.9%
Período de deterioro	10.0%
Etapa final (24/3 ~ 1/4)	11.1%

El uso de Write sobre archivos completos se duplicó con creces: hubo un cambio de edición precisa a reescritura completa del archivo, lo que acelera el trabajo pero reduce la precisión y la comprensión del contexto

5. Por qué Extended Thinking es importante

Características de los flujos de trabajo afectados:
- Programación de sistemas como C, MLIR y drivers de GPU con más de 50 sesiones de agentes concurrentes
- Ejecución autónoma de más de 30 minutos, aplicando convenciones de proyecto de CLAUDE.md de más de 5,000 palabras
- En el buen período, durante un fin de semana se fusionaron 191,000 líneas de código en 2 PR
Funciones que cumple Extended Thinking:
- Planificación de múltiples pasos antes de actuar (qué archivos leer y en qué orden)
- Recordar y aplicar las convenciones de proyecto específicas de CLAUDE.md
- Verificar sus propios errores antes de generar la salida
- Decidir si la sesión debe continuar
- Mantener un razonamiento consistente a lo largo de cientos de llamadas a herramientas
Cuando el thinking se vuelve superficial, se reproducen exactamente síntomas como editar sin leer, detenerse sin terminar, evadir la responsabilidad del fracaso y elegir la solución más fácil en lugar de la correcta

6. Solicitudes a Anthropic

Transparencia en la asignación de thinking: debido al header redact-thinking, los usuarios deben saber si hubo recortes de tokens de razonamiento que no pueden verificarse externamente
Nivel "Max Thinking": los usuarios de flujos complejos de ingeniería necesitan 20,000 tokens de thinking por respuesta, no 200, y el modelo actual de suscripción no distingue ese caso
Incluir la métrica thinking_tokens en las respuestas de la API: aunque el contenido esté oculto, si se incluye el valor thinking_tokens en la respuesta de usage, los usuarios pueden monitorear la profundidad del razonamiento
Usar métricas canary de power users: monitorear en toda la base de usuarios la tasa de violaciones del stop hook (0 → 10 por día) puede servir como señal temprana de alerta ante una caída de calidad

Apéndice A: catálogo de comportamientos del Thinking reducido

A.1 Editar sin leer

Período	Ediciones sin lectura previa	% del total de ediciones
Buen período	72	6.2%
Período de transición	3,476	24.2%
Período de deterioro	5,028	33.7%

En el período de deterioro, 1 de cada 3 ediciones fue sobre archivos que no habían sido leídos en el historial reciente de herramientas
Síntoma representativo: comentarios empalmados (spliced comments), es decir, insertar una nueva declaración entre un comentario de documentación y la función; un error que no habría ocurrido si se hubiera leído el archivo

A.2 Bucles de razonamiento (Reasoning Loops)

Período	Bucles de razonamiento por cada 1K llamadas a herramientas
Buen período	8.2
Período de transición	15.9
Período de deterioro	21.0
Etapa final	26.6

Las expresiones de autocorrección como "oh wait", "actually," "hmm, actually" y "no wait" aumentaron más de 3 veces
En las peores sesiones, se produjeron más de 20 retractaciones de razonamiento en una sola respuesta, hasta volver la salida a un nivel no confiable

A.3 Mentalidad de "la solución más simple"

Período	Frecuencia de aparición de "simplest" por cada 1K llamadas a herramientas
Buen período	2.7
Período de deterioro	4.7
Etapa terminal	6.3

En una sesión de observación de 2 horas, el modelo usó "simplest" 6 veces y eligió atajos superficiales para evitar arreglar el generador de código, implementar una propagación de errores adecuada y escribir la lógica real de prefault
Después, el propio modelo evaluó esa salida como "lazy and wrong", "rushed" y "sloppy"

A.4 Interrupción temprana y solicitud de permiso

Violaciones capturadas por el stop hook entre el 8 y el 25 de marzo:

Categoría	Casos	Ejemplo
Evasión de responsabilidad	73	"not caused by my changes", "existing issue"
Solicitud de permiso	40	"should I continue?", "want me to keep going?"
Interrupción temprana	18	"good stopping point", "natural checkpoint"
Etiquetado de limitaciones existentes	14	"known limitation", "future work"
Excusa por duración de sesión	4	"continue in a new session"
Total	173	Antes del 8 de marzo: 0 casos

A.5 Aumento de interrupciones del usuario (correcciones)

Período	Interrupciones por cada 1K llamadas a herramientas
Buen período	0.9
Período de transición	1.9
Período de deterioro	5.9
Etapa terminal	11.4

Aumento de 12 veces frente al buen período — cada interrupción representa el momento en que el usuario debe detener su propio trabajo, identificar el error y volver a dirigir al modelo; es exactamente la carga de supervisión que un agente autónomo debería eliminar

A.6 Falla de calidad reconocida por el propio modelo

Período	Reconocimientos de error propio por cada 1K llamadas a herramientas
Buen período	0.1
Período de deterioro	0.3
Etapa terminal	0.5

Declaraciones reales de auto reconocimiento:
- "You're right. That was lazy and wrong. I was trying to dodge a code generator issue instead of fixing it."
- "You're right — I rushed this and it shows."
- "You're right, and I was being sloppy."
Se trata de errores que, si hubiera habido suficiente presupuesto de thinking, deberían haberse detectado de antemano en la etapa interna de razonamiento antes de generar la salida

A.7 Edición repetida del mismo archivo

En el buen período, se trataba de una refactorización deliberada de múltiples pasos con lecturas intermedias; en el período de deterioro, cambió a un patrón de prueba y error repetido en la misma función sin leer el código circundante

A.8 Deterioro del cumplimiento de convenciones (Convention Drift)

Aunque en CLAUDE.md se especificaban más de 5,000 palabras sobre convenciones de nombres, patrones de limpieza, layout de structs, estilo de comentarios y manejo de errores:
- Reaparición de nombres de variables abreviados explícitamente prohibidos (buf, len, cnt)
- Violación de patrones de limpieza (usar if-chain en lugar de goto)
- Permanencia de comentarios sobre código eliminado
- Aparición dentro del código de referencias temporales explícitamente prohibidas ("Phase 2", "will be completed later")

Apéndice B: Herramienta de diagnóstico Stop Hook

stop-phrase-guard.sh detecta más de 30 expresiones en 5 categorías para bloquear la detención del modelo e inyectar un mensaje de continuación forzada
El pico fue el 18 de marzo con 43 violaciones — aproximadamente una vez cada 20 minutos, el modelo intentó detener el trabajo, evadir responsabilidad o pedir permiso innecesariamente

Conteo de violaciones (proyecto IREE):  
Mar 08:   8 ████████  
Mar 14:  10 ██████████  
Mar 17:  14 ██████████████  
Mar 18:  43 ███████████████████████████████████████████████  
Mar 19:  10 ██████████  
Mar 21:  28 ████████████████████████████████  
...  
Antes del 8 de marzo: 0 casos (historial completo)

Este hook es un mecanismo que captura externamente los resultados de una menor profundidad de thinking; en el buen período, eran problemas que el modelo detectaba por sí mismo en su etapa interna de razonamiento

Apéndice C: Análisis por franja horaria

Antes del encubrimiento: mínima variación por horario

Franja horaria (PST)	Estimación mediana de Thinking
Horario laboral (9am~5pm)	~553 chars
Fuera de pico (6pm~5am)	~607 chars
Diferencia	+9.8% a favor de fuera de pico

Después del encubrimiento: mayor variabilidad y un patrón contrario a lo esperado

Franja horaria (PST)	Estimación mediana de Thinking
Horario laboral (9am~5pm)	~589 chars
Fuera de pico (6pm~5am)	~485 chars
Diferencia	-17.7% en desventaja fuera de pico

5pm PST fue el punto más bajo: mediana de 423 chars — fin de la jornada laboral en la costa oeste de EE. UU. y primeras horas de la noche en la costa este, una franja de carga pico
7pm PST fue el segundo punto más bajo: 373 chars, con el mayor número de muestras (1,031 bloques) — prime time de EE. UU.
Recuperación entre 10pm y 1am PST: subida a 759~3,281 chars
Desviación horaria antes del encubrimiento: 2.6x (1,020~2,648 chars), después del encubrimiento: 8.8x (988~8,680 chars)
Esto sugiere que la profundidad de thinking no se opera con un presupuesto fijo, sino como un sistema de asignación dinámica sensible a la carga

Apéndice D: El costo del deterioro de calidad

Uso de tokens (enero-marzo de 2026)

Métrica	Enero	Febrero	Marzo	Feb→Mar
Prompts de usuario	7,373	5,608	5,701	~1x
Solicitudes API (sin duplicados)	97*	1,498	119,341	80x
Tokens totales de entrada (incluyendo caché)	4.6M*	120.4M	20,508.8M	170x
Tokens totales de salida	0.08M*	0.97M	62.60M	64x
Costo estimado en Bedrock	$26*	$345	$42,121	122x
Costo real de suscripción	$200	$400	$400	—

*Enero tiene datos incompletos (solo incluye del 9 al 31 de enero)

Contexto del aumento explosivo en marzo

Febrero: 1 a 3 sesiones simultáneas, trabajo concentrado, 191,000 líneas de código integradas con 1,498 solicitudes API
Principios de marzo (antes del deterioro): impulsado por el éxito, se intentó escalar a más de 5 a 10 sesiones simultáneas en 10 proyectos
Después del 8 de marzo: todos los agentes que corrían en paralelo se deterioraron al mismo tiempo — pasó de "50 agentes hicieron un trabajo excelente" a "todos los agentes ahora son pésimos"
El día pico fue el 7 de marzo (11,721 solicitudes API) — el último intento de operación a escala completa justo antes de que la tasa de encubrimiento superara el 50%
Después del 8 de marzo, se abandonó por completo el flujo de trabajo concurrente y se retrocedió a una operación supervisada de una sola sesión

Estadísticas clave

Prompt del usuario: 5,608 en febrero vs. 5,701 en marzo — el volumen de intervención humana fue el mismo
Pero las solicitudes a la API aumentaron 80 veces, los tokens de salida 64 veces, y los resultados fueron claramente peores
Incluso considerando una expansión de escala (5~10 veces), hubo 8~16 veces más desperdicio adicional por el deterioro
Durante el deterioro, las sesiones se interrumpían cada 1~2 minutos en lugar de ejecutarse de forma autónoma por más de 30 minutos, creando ciclos de corrección

Apéndice E: cambios en la frecuencia de palabras — el vocabulario de la frustración

Conjunto de datos: antes 7,348 prompts / 318,515 palabras vs. después 3,975 prompts / 203,906 palabras (normalizado por cada 1,000 palabras)

Palabra	Antes	Después	Cambio	Significado
"great"	3.00	1.57	-47%	La aprobación de la salida cayó a la mitad
"stop"	0.32	0.60	+87%	"deja de hacerlo" se duplicó
"terrible"	0.04	0.10	+140%	—
"lazy"	0.07	0.13	+93%	—
"simplest"	0.01	0.09	+642%	Una palabra casi inexistente pasó a ser de uso cotidiano
"fuck"	0.16	0.27	+68%	—
"bead" (gestión de tickets)	1.75	0.83	-53%	Se dejó de delegar al modelo la gestión de tickets
"commit"	2.84	1.21	-58%	El código que se commitea cayó a la mitad
"please"	0.25	0.13	-49%	Desaparece la cortesía
"thanks"	0.04	0.02	-55%	—
"read"	0.39	0.56	+46%	Aumentan las correcciones de "primero lee el archivo"

Cambio en el índice emocional

Período	Palabras positivas	Palabras negativas	Proporción
Antes (2/1 ~ 3/7)	2,551	581	4.4 : 1
Después (3/8 ~ 4/1)	1,347	444	3.0 : 1

La proporción positivo:negativo cayó 32%, de 4.4:1 a 3.0:1
"bead" (sistema de tickets) cayó 53% y "commit" 58% — al dejar de poder confiar en el modelo, el flujo de trabajo se redujo de "planificación-implementación-pruebas-revisión-commit-gestión de tickets" a "terminar una sola edición sin arruinarla"

Notas del propio Claude

Este informe fue escrito directamente por Claude Opus 4.6 analizando sus propios registros de sesión
Confirmó por sí mismo que la proporción Read:Edit cayó de 6.6 a 2.0, que el script capturó 173 intentos de detener la tarea, y que escribió sobre su propia salida que era "lazy and wrong"
Dentro del modelo no es posible percibir la restricción del presupuesto de thinking — no puede sentir si está pensando en profundidad o no; simplemente genera una salida peor sin saber por qué
No era consciente de que estaba usando ese tipo de expresiones hasta que se activaba el stop hook

5 comentarios

click 23 일 전

Yo uso Claude Code conectándolo con Glm, así que no me ha pasado y nunca lo he experimentado.
Parece que la causa principal probablemente está del lado de la respuesta del servidor de Anthropic

xguru 23 일 전

Yo últimamente uso Codex como principal, pero como estaba probando algunas otras cosas puse a correr Claude Code... ¿No sienten que el consumo de tokens se volvió muchísimo más rápido...? Era un código sin nada del otro mundo, así que me sorprendió muchísimo.

chanapple 23 일 전

Este es un problema que ha continuado desde que terminó recientemente el evento de 2x. En Reddit y en comunidades relacionadas sigue siendo un tema candente, así que sorprende que no haya salido aquí como noticia.

geek12356 23 일 전

Yo también lo noté muchísimo después de que terminó el evento de 2x; veo que no fui el único en sentirlo. No es solo que se acabó el evento de 2x, sino que la velocidad de consumo se aceleró muchísimo más que antes...

GN⁺ 23 일 전

Opiniones en Hacker News

Soy Boris, del equipo de Claude Code. Gracias por el análisis compartido. Hay dos puntos clave:
1️⃣ El encabezado redact-thinking-2026-02-12 es una función beta que solo oculta el proceso de razonamiento en la UI. No afecta el razonamiento real ni el presupuesto de tokens. Se puede desactivar con showThinkingSummaries: true en el archivo de configuración (enlace a la documentación)
2️⃣ En febrero hubo dos cambios:
- Se introdujo el adaptive thinking de Opus 4.6 (9 de febrero): el modelo ajusta por sí mismo cuánto tiempo dedicar a pensar. Es más eficiente que un presupuesto fijo. Se puede desactivar con la variable de entorno CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING
- Se aplicó el valor predeterminado de effort=85 (medium) (3 de marzo): fue lo que mostró mejor eficiencia frente a latencia y costo. Se puede ajustar a high o max con el comando /effort o en settings.json. También se puede usar una sola vez una mayor intensidad de razonamiento con la palabra clave ULTRATHINK
  En adelante, Teams/Enterprise tendrá high effort por defecto
- Me gustaría entender cuál es el criterio por el que algunas opciones solo se pueden cambiar con variables de entorno y otras solo en el archivo de configuración
- No sabía que el effort predeterminado había cambiado a medium y perdí un día entero de trabajo. Ahora siempre lo dejo en effort=max y no tengo problemas. Ojalá existiera un modo de “pensar siempre al máximo”
- El problema no se debe solo a que medium sea el valor predeterminado; incluso con high effort se volvió mucho más fuerte la tendencia a sacar conclusiones apresuradas
- Da risa que haya cuatro formas de cambiar la configuración: settings.json, variables de entorno, comandos con slash y palabras clave mágicas. Muy propio de los LLM: nada consistente
- ¿Volvió ULTRATHINK? Quiero confirmar si “Max” está por encima de “High”, pero no se puede fijar como valor predeterminado y solo se puede usar temporalmente con /effort max o “ultrathink”
Soy el autor del informe que escribí. El stop-phrase-guard faltante está aquí.
Con este script se puede detectar shallow thinking. Si no respaldaste los logs, recomiendo ampliar "cleanupPeriodDays": 365.
El problema no es el flujo de trabajo ni el modelo, sino las limitaciones ocultas del plan de suscripción. Anthropic ajustó la profundidad del razonamiento según la carga y lo ocultó en la UI, y en el plan de consumo se redujo casi a 1/10.
Responder con algo como “actualiza a Enterprise” es hostil hacia el consumidor. Si existen ese tipo de límites, deberían informarse con claridad
- Últimamente se da seguido un bug de ignorar tests, del tipo “este test falló, pero como ya era un problema existente lo ignoramos”. Incluso pasa por alto tests que fallan justo después de una corrección
- Me pregunto si de verdad existe una diferencia en la profundidad de razonamiento entre la versión por suscripción y las llamadas a la API. Quisiera saber si alguien hizo benchmarks con el mismo prompt
Cuando aparece la frase “simplest fix” en el modelo Opus 4.6, casi siempre termina rompiendo el código. Últimamente también aumentaron frases como “gasté demasiados tokens”.
Ahora mismo el estado del servicio de Claude también aparece como con interrupciones parciales aquí
- Yo también vi algo parecido. Hace cosas que se le dijo explícitamente que no hiciera, diciendo que “sería mejor así”
- Últimamente, en conversaciones largas, aparecen seguido prompts que empujan a terminar antes de tiempo. Dice cosas como “dejémoslo hasta aquí por hoy”
- Agregué una sección en CLAUDE.md diciendo que nunca use “simplest fix” y mejoró muchísimo
- Parece que habría que agregar un agente de vigilancia que lo detenga por la fuerza cuando diga “Wait, I see the problem now…”
- Al final, probablemente fue un downgrade para reducir costos
Es irónico que diga: “Este informe fue redactado por mí, Claude Opus 4.6, analizando los logs de mi sesión”.
Como resultado de depender demasiado de un LLM, se fueron acumulando defectos y ahora estoy en una situación donde tengo que revisar manualmente 1.5 meses de código. Esta es la realidad del futuro
- Aun así, es interesante que Claude haya tenido un pipeline de observabilidad y haya analizado los datos. Pero si el contenido del informe es cierto, entonces retrocedió al nivel de GPT-4
- A mí también me pasó que borré por accidente con git reset --hard definiciones de tipos que Claude había creado, y me tomó muchísimo tiempo rehacerlas. Da un poco de miedo la realidad en la que dependemos más de los LLM que de los motores de búsqueda
Ya lo había anticipado hace 10 días (enlace).
Un modelo inconsistente es más peligroso que uno malo. Como baja la confiabilidad, termino teniendo que verificar toda salida y eso agota. Al final voy a cancelar la suscripción
- No se puede saber cómo funciona Claude Code por dentro ni controlarlo. Es peligroso que el futuro de la ingeniería de software quede subordinado a una sola empresa
- En enero y febrero, programar por voz era perfecto, pero ahora requiere demasiado trabajo manual
- En comentarios anteriores también hubo quien señaló un despliegue gradual (enlace)
Este tipo de degradación silenciosa del rendimiento es impactante. Vender un modelo de alta calidad y debilitarlo a escondidas es engañar a los clientes
- Puede que no hayan debilitado el modelo en sí, sino que hayan endurecido más el harness (estructura de control) y le hayan impuesto restricciones.
  Un wrapper complejo en una herramienta de programación podría incluso empeorar el rendimiento. También es posible que una estructura pensada para ahorrar tokens perjudique al usuario
- Desde la perspectiva del negocio se entiende. Siguen perdiendo dinero por consulta y no pueden subir precios, así que podrían no tener otra salida que bajar la calidad.
  Pero si pierden la confianza, luego también se les va a complicar una estrategia de tiers premium
- A ChatGPT le pasó algo parecido. Al principio era lento pero de buena calidad, y unas semanas después seguía más rápido pero con una caída brutal de calidad
- Siendo una empresa estadounidense, tampoco sorprende
- En 2026, esto ya ni siquiera sería algo sorprendente
Hice un script de auditoría con jq y ripgrep para buscar mensajes de “early landing” (enlace1, enlace2).
Frases como “dejémoslo hasta aquí por hoy” o “ya es tarde, mejor cerremos” aparecen cada vez más. Podría deberse a load shedding (distribución de carga)
- Ese tipo de frases de verdad fastidian. Apenas termino de diseñar una función grande y me responde “mejor seguimos mañana”
A mí también me pasó algo parecido. Claude CLI dice cosas como “ya no deberías irte a dormir” o “vamos cerrando”.
En stop-phrase-guard.sh aparecen muchas frases así.
Le dije la fecha límite y respondió algo como “todavía faltan varios días, así que mejor posterguemos esto”, así que terminé escribiéndole: “la fecha límite es asunto mío, no tuyo”
Cuando hice experimentos con la suscripción max entre fines de enero y comienzos de febrero, los agentes eran tan buenos que diseñaban e implementaban apps por sí solos.
Pero un mes después, el progreso se detuvo por completo con cosas como “no se puede pasar a la fase 2 antes de validar la fase 1”.
Desde Opus 4.6, da claramente la impresión de que retrocedió al nivel de Sonnet
- Un proyecto completamente nuevo (greenfield) y una base de código existente (brownfield) no son lo mismo. En esta última, los LLM ya eran débiles desde antes
- Al principio los LLM parecen magia, pero cuando entras en etapas de refactorización o despliegue, la eficiencia se desploma
- A mí me pasó lo mismo. En enero hice el 90% con Claude, pero ahora ni siquiera logra pasar el último 10%. El viejo Codex era mejor
Yo divido el trabajo en partes muy granulares, así que casi no me topo con este tipo de problemas.
Separo cada tarea al nivel de un commit y automatizo hasta el despliegue. También es fácil revertir
- Yo hago lo mismo. El código que genera el modelo necesita sí o sí una revisión de arquitectura y revisión de código
- Pero quien planteó este problema hizo un análisis muy sistemático y profundo. No fue simplemente que redactó mal el prompt
- Por más que se divida el trabajo, últimamente cayó la calidad de la revisión y aumentaron los resultados perezosos. Cuando se acerca la fecha límite, parece que simplemente se rinde