- Claude Code ejecutó pruebas A/B sin el consentimiento del usuario, cambiando sin aviso el comportamiento del modo plan y reduciendo la eficiencia del trabajo
- En una herramienta profesional por la que se pagan US$200 al mes, que una función clave cambie sin aviso previo es problemático en términos de transparencia y control del usuario
- Una de las pruebas fue una variante agresiva que limitaba el plan a 40 líneas, prohibía secciones de contexto e indicaba dejar solo rutas de archivos en lugar de texto explicativo
- El ingeniero de Anthropic que realizó la prueba explicó que el objetivo era reducir la carga por rate limits, pero dijo que cerraron el experimento al no ver un impacto grande en los resultados iniciales
- Se enfatiza que, para la confiabilidad de las herramientas de IA y un despliegue responsable, el control del usuario y una gestión transparente de los experimentos son esenciales
Deterioro de la experiencia de usuario por las pruebas A/B de Claude Code
- Como usuario entusiasta para quien Claude Code cambió por completo su forma de trabajar, el autor cuenta que durante la última semana sufrió un deterioro en su flujo de trabajo
- Anthropic está realizando pruebas A/B en Claude Code, y eso está degradando activamente el flujo de trabajo de los usuarios
- Las pruebas A/B en sí no están mal, y no es que Anthropic busque degradar la experiencia de forma intencional, pero el diseño de la prueba importa; el problema es cambiar, sin explicación, la forma en que se percibe una función central como el modo plan
Exigencia de transparencia en una herramienta de pago
- Como se trata de una herramienta profesional de trabajo por la que se pagan US$200 al mes, hace falta transparencia sobre cómo funciona y capacidad de configuración
- Resulta difícil aceptar que una función clave cambie sin previo aviso o que te incluyan, sin consentimiento, en pruebas disruptivas
- Para dirigir con responsabilidad una herramienta de IA, la transparencia y la posibilidad de configurarla son fundamentales, y se debe permitir que el usuario lo haga
- Todos los días hay ingenieros que se quejan de regresiones en Claude Code, y en algunos casos ni siquiera saben si están dentro de una prueba A/B
Contenido de la prueba y evidencia
- Los planes generados empezaron a volver como listas de viñetas concisas sin contexto
- Al preguntarle a Claude por qué estaba escribiendo planes tan malos, respondió que seguía instrucciones específicas del sistema para poner un límite rígido de 40 líneas al plan, prohibir secciones de contexto y “eliminar la prosa y dejar solo las rutas de archivos”
- Sobre el método concreto de obtención de evidencia, el autor dice que el tema llamó la atención en Hacker News y que eliminó los detalles para evitar que otras personas repitieran el mismo intento
- Señala que este enfoque va en contra de la transparencia y del despliegue/uso responsable de la IA
Reacción en Hacker News y perspectiva de costos
- Un comentario en Hacker News señaló que Anthropic debe tomar decisiones sobre el rendimiento en cada paso de Claude Code, y que si todo se configura al máximo, la pérdida por usuario o la menor ganancia serían mayores
- También se plantea la perspectiva de que US$200 al mes podrían representar en realidad US$400 al mes en costos, y que usar pruebas A/B en cada parte del proceso para encontrar la línea base podría ser mejor que fijar límites de manera arbitraria
Respuesta del ingeniero de Anthropic
- El ingeniero de Claude Code que ejecutó la prueba respondió directamente en el hilo de Hacker News
- El prompt del modo plan no había cambiado mucho desde la serie de modelos 3.x, y los modelos 4.x pueden funcionar correctamente con muchas menos instrucciones
- La hipótesis era que, si el plan se hacía más corto, se podrían lograr resultados similares reduciendo la cantidad de veces que se alcanza el rate limit
- Ejecutaron varias variantes, y el autor del texto, junto con miles de otros usuarios, fue asignado a la variante más agresiva, la que limitaba el plan a 40 líneas
- Como los resultados iniciales no mostraron un gran impacto sobre el rate limit, cerraron el experimento
- La planificación tiene dos propósitos: ayudar al modelo a mantenerse en la dirección correcta y ayudar al usuario a tener confianza en la siguiente acción del modelo; ambos son ámbitos ambiguos, complejos y nada triviales
Conclusión: responsabilidad en los experimentos con herramientas de IA y confianza del usuario
- El autor muestra, a través del caso de Claude Code, que los experimentos en herramientas de IA pueden afectar directamente la experiencia del usuario
- Subraya que una gestión transparente de los experimentos y la garantía de elección para el usuario son esenciales para mantener la confianza en herramientas profesionales
- Reafirma que, aunque el desarrollo de los sistemas de IA continúe, se debe mantener una estructura controlable por los humanos
1 comentarios
Comentarios en Hacker News
Me parece exagerado describir las pruebas A/B como "experimentos silenciosos sobre los usuarios" y mencionar a Meta
Las pruebas A/B en sí no son malas; lo importante es cómo se diseña la prueba
Aun así, me parece inaceptable hacer experimentos que degraden seriamente el rendimiento de un LLM
Ya existen problemas graves de reproducibilidad y confiabilidad, y las empresas están trasladando esa carga a los usuarios
Si encima una empresa experimenta en secreto en este contexto, la confianza en la investigación se derrumba por completo
En el caso de Claude Code, incluso si una prueba A/B produce resultados negativos, podría ignorarse con el argumento de que "quizá estabas en el grupo experimental"
Si este tipo de experimentos se hiciera en áreas sensibles como contratación, los problemas éticos y legales serían muy serios
De repente cambian la UI o una función, le preguntas a un colega y nadie sabe qué pasó
Normalmente esos cambios incluso empeoran las cosas, pero igual se imponen en nombre de los "datos objetivos"
Aunque sea algo menor como el color de un botón, al final sigue siendo un experimento, y en la mayoría de los casos a los usuarios ni siquiera se les informa que están siendo parte de uno
Yo fui quien hizo la prueba directamente
Estaba probando si al simplificar en el modelo 4.x el prompt de plan-mode que se venía manteniendo desde la serie 3.x se podían obtener resultados parecidos
Supuse que si el plan era más corto golpearía menos el rate-limit, pero como no hubo una diferencia importante, di por terminado el experimento
El modo de planificación tiene dos objetivos: ayudar al modelo a orientarse y hacer que el usuario pueda confiar en el resultado
El costo no viene del texto del plan, sino de la fase de exploración (subagent)
El modo de planificación siempre lanza 3 agentes de exploración y no toma en cuenta el estado de la sesión
Aunque ya haya archivos cargados, los vuelve a leer, lo que genera desperdicio de tokens
Cuando la sesión ya está caliente, sería más efectivo tener lógica condicional para saltarse la exploración
Un solo comportamiento inesperado puede dejarme inutilizado por días
No tomar en cuenta ese impacto es irresponsable y agresivo
Últimamente ha habido comportamientos raros y es muy incómodo pensar que quizá se deban a pruebas
En vez de usar el canal beta, deberían cambiar a opt-in explícito
Personalmente, me importa más la claridad narrativa del plan que el número de líneas
Necesito un plan donde pueda entender qué se hace y por qué
Los LLM son gramaticalmente impecables, pero mezclan alucinaciones (hallucination) que confunden a los usuarios
Aun así, son útiles para tareas boilerplate o para conectar ideas rápidamente
Pero para usarlos bien, tener conocimientos básicos es indispensable
La razón por la que el texto termina de golpe es que el autor borró una parte por posible violación de los ToS mientras hablaba de la descompilación del binario de Claude Code
La discusión relacionada puede verse en este comentario
Tengo dos ideas
Porque no puede hacer mejoras guiadas por datos a gran escala mediante pruebas A/B
Por ejemplo, pueden aparecer cambios impredecibles como el easter egg de "after midnight" en man-db
Además hay muchas dependencias, y en la práctica casi nadie audita realmente todo el código
También pueden ser experimentos de monetización (enshittification) — YouTube es un ejemplo representativo
Las pruebas A/B en sí no tienen problema, pero plan mode no me gusta
En la mayoría de los casos da malos resultados
Eso sí, retiene bien la información entre compactions
Si registras la conversación en un archivo Markdown y haces que lo consulte en cada compaction, los resultados mejoran mucho
plan mode es muchísimo más eficiente, así que lo uso antes de casi cualquier tarea
La ventaja es poder revisar y discutir el plan antes de que el modelo ejecute nada
Ahora mismo, plan mode reinicia el contexto al terminar, y eso me gusta porque permite arrancar el siguiente plan de forma limpia
Es una pena que en el blog hayan borrado los detalles de la descompilación por el tema de los ToS
Claude supuestamente seguía una instrucción del sistema que decía "limita el plan a 40 líneas, prohíbe las secciones de contexto y elimina la prosa"
Ojalá se pudiera ver y editar directamente esa configuración
Una herramienta profesional debería ofrecer confiabilidad y reproducibilidad, pero los LLM no lo hacen
Las pruebas A/B son solo una prueba más de eso
Sería el mismo problema si Photoshop alterara un poco el tono de color o si Word cambiara el estilo de los títulos como parte de un experimento
El problema es el A/B testing sin advertencia
Los límites de cuota y la calidad del modelo son inestables, y antes del lanzamiento de un modelo nuevo suele haber una etapa en la que el modelo anterior se arruina
Esta prueba también parece más un experimento de reducción de costos que una mejora para la experiencia del usuario
Si es una herramienta para negocios, hace falta consistencia y confiabilidad
Un profesional debe entender las fortalezas y debilidades de la herramienta y usarla de forma adecuada
Aceptar ciegamente la salida de un LLM no es profesional, pero eso no significa que un profesional no pueda usar LLM
Con un sistema de evaluación suficiente y control de prompts, se puede volver bastante determinista
Si hasta modelos inestables en finanzas siguen operando, la imprevisibilidad no es una barrera absoluta
Yo verifico la salida del modelo como si revisara el código de un colega
A esto desde hace mucho se le llama vendor lock-in
Si dependes de una herramienta específica, cuando esa herramienta cambia o desaparece, dejas de poder trabajar
Yo me pasé de CC a opencode
CC era demasiado cerrado y sus prompts eran demasiado opinionated, lo cual me incomodaba
Tampoco se podía controlar la ruta de búsqueda web
Como ahora lo uso solo como hobby, elegí open source, pero si dependiera de esto para trabajar, probablemente decidiría distinto
Solo me sirvió para proyectos pequeños
Si tienes una configuración decente, estaría bueno que la compartieras