Por favor, no hagan pruebas A/B con mi flujo de trabajo

(backnotprop.com)

4 puntos por GN⁺ 2026-03-15 | 1 comentarios | Compartir por WhatsApp

Claude Code ejecutó pruebas A/B sin el consentimiento del usuario, cambiando sin aviso el comportamiento del modo plan y reduciendo la eficiencia del trabajo
En una herramienta profesional por la que se pagan US$200 al mes, que una función clave cambie sin aviso previo es problemático en términos de transparencia y control del usuario
Una de las pruebas fue una variante agresiva que limitaba el plan a 40 líneas, prohibía secciones de contexto e indicaba dejar solo rutas de archivos en lugar de texto explicativo
El ingeniero de Anthropic que realizó la prueba explicó que el objetivo era reducir la carga por rate limits, pero dijo que cerraron el experimento al no ver un impacto grande en los resultados iniciales
Se enfatiza que, para la confiabilidad de las herramientas de IA y un despliegue responsable, el control del usuario y una gestión transparente de los experimentos son esenciales

Deterioro de la experiencia de usuario por las pruebas A/B de Claude Code

Como usuario entusiasta para quien Claude Code cambió por completo su forma de trabajar, el autor cuenta que durante la última semana sufrió un deterioro en su flujo de trabajo
Anthropic está realizando pruebas A/B en Claude Code, y eso está degradando activamente el flujo de trabajo de los usuarios
Las pruebas A/B en sí no están mal, y no es que Anthropic busque degradar la experiencia de forma intencional, pero el diseño de la prueba importa; el problema es cambiar, sin explicación, la forma en que se percibe una función central como el modo plan

Exigencia de transparencia en una herramienta de pago

Como se trata de una herramienta profesional de trabajo por la que se pagan US$200 al mes, hace falta transparencia sobre cómo funciona y capacidad de configuración
Resulta difícil aceptar que una función clave cambie sin previo aviso o que te incluyan, sin consentimiento, en pruebas disruptivas
Para dirigir con responsabilidad una herramienta de IA, la transparencia y la posibilidad de configurarla son fundamentales, y se debe permitir que el usuario lo haga
Todos los días hay ingenieros que se quejan de regresiones en Claude Code, y en algunos casos ni siquiera saben si están dentro de una prueba A/B

Contenido de la prueba y evidencia

Los planes generados empezaron a volver como listas de viñetas concisas sin contexto
Al preguntarle a Claude por qué estaba escribiendo planes tan malos, respondió que seguía instrucciones específicas del sistema para poner un límite rígido de 40 líneas al plan, prohibir secciones de contexto y “eliminar la prosa y dejar solo las rutas de archivos”
Sobre el método concreto de obtención de evidencia, el autor dice que el tema llamó la atención en Hacker News y que eliminó los detalles para evitar que otras personas repitieran el mismo intento
Señala que este enfoque va en contra de la transparencia y del despliegue/uso responsable de la IA

Reacción en Hacker News y perspectiva de costos

Un comentario en Hacker News señaló que Anthropic debe tomar decisiones sobre el rendimiento en cada paso de Claude Code, y que si todo se configura al máximo, la pérdida por usuario o la menor ganancia serían mayores
También se plantea la perspectiva de que US$200 al mes podrían representar en realidad US$400 al mes en costos, y que usar pruebas A/B en cada parte del proceso para encontrar la línea base podría ser mejor que fijar límites de manera arbitraria

Respuesta del ingeniero de Anthropic

El ingeniero de Claude Code que ejecutó la prueba respondió directamente en el hilo de Hacker News
El prompt del modo plan no había cambiado mucho desde la serie de modelos 3.x, y los modelos 4.x pueden funcionar correctamente con muchas menos instrucciones
La hipótesis era que, si el plan se hacía más corto, se podrían lograr resultados similares reduciendo la cantidad de veces que se alcanza el rate limit
Ejecutaron varias variantes, y el autor del texto, junto con miles de otros usuarios, fue asignado a la variante más agresiva, la que limitaba el plan a 40 líneas
Como los resultados iniciales no mostraron un gran impacto sobre el rate limit, cerraron el experimento
La planificación tiene dos propósitos: ayudar al modelo a mantenerse en la dirección correcta y ayudar al usuario a tener confianza en la siguiente acción del modelo; ambos son ámbitos ambiguos, complejos y nada triviales

Conclusión: responsabilidad en los experimentos con herramientas de IA y confianza del usuario

El autor muestra, a través del caso de Claude Code, que los experimentos en herramientas de IA pueden afectar directamente la experiencia del usuario
Subraya que una gestión transparente de los experimentos y la garantía de elección para el usuario son esenciales para mantener la confianza en herramientas profesionales
Reafirma que, aunque el desarrollo de los sistemas de IA continúe, se debe mantener una estructura controlable por los humanos

1 comentarios

GN⁺ 2026-03-15

Comentarios en Hacker News

Me parece exagerado describir las pruebas A/B como "experimentos silenciosos sobre los usuarios" y mencionar a Meta
Las pruebas A/B en sí no son malas; lo importante es cómo se diseña la prueba
Aun así, me parece inaceptable hacer experimentos que degraden seriamente el rendimiento de un LLM
- En el caso de los LLM, creo que hay que verlo distinto
  Ya existen problemas graves de reproducibilidad y confiabilidad, y las empresas están trasladando esa carga a los usuarios
  Si encima una empresa experimenta en secreto en este contexto, la confianza en la investigación se derrumba por completo
  En el caso de Claude Code, incluso si una prueba A/B produce resultados negativos, podría ignorarse con el argumento de que "quizá estabas en el grupo experimental"
  Si este tipo de experimentos se hiciera en áreas sensibles como contratación, los problemas éticos y legales serían muy serios
- Creo que las empresas tecnológicas todavía no entienden bien el concepto de "consentimiento explícito"
- No me gustan las pruebas A/B
  De repente cambian la UI o una función, le preguntas a un colega y nadie sabe qué pasó
  Normalmente esos cambios incluso empeoran las cosas, pero igual se imponen en nombre de los "datos objetivos"
- No entiendo por qué dicen que una prueba A/B no es un "experimento silencioso con usuarios"
  Aunque sea algo menor como el color de un botón, al final sigue siendo un experimento, y en la mayoría de los casos a los usuarios ni siquiera se les informa que están siendo parte de uno
- El autor del post original dijo que estaba de acuerdo y que iba a cambiar la redacción
Yo fui quien hizo la prueba directamente
Estaba probando si al simplificar en el modelo 4.x el prompt de plan-mode que se venía manteniendo desde la serie 3.x se podían obtener resultados parecidos
Supuse que si el plan era más corto golpearía menos el rate-limit, pero como no hubo una diferencia importante, di por terminado el experimento
El modo de planificación tiene dos objetivos: ayudar al modelo a orientarse y hacer que el usuario pueda confiar en el resultado
- Era obvio que el límite de 40 líneas no iba a afectar el rate-limit
  El costo no viene del texto del plan, sino de la fase de exploración (subagent)
  El modo de planificación siempre lanza 3 agentes de exploración y no toma en cuenta el estado de la sesión
  Aunque ya haya archivos cargados, los vuelve a leer, lo que genera desperdicio de tokens
  Cuando la sesión ya está caliente, sería más efectivo tener lógica condicional para saltarse la exploración
- Como divergent thinker, llevo cientos de horas configurando restricciones en claude.mds, así que me impactó haber sido incluido al azar en uno de estos experimentos
  Un solo comportamiento inesperado puede dejarme inutilizado por días
  No tomar en cuenta ese impacto es irresponsable y agresivo
- ¿No deberían reembolsar los tokens usados en esta prueba?
- Hace falta una opción de opt-out para este tipo de experimentos
  Últimamente ha habido comportamientos raros y es muy incómodo pensar que quizá se deban a pruebas
  En vez de usar el canal beta, deberían cambiar a opt-in explícito
- Gracias por la transparencia
  Personalmente, me importa más la claridad narrativa del plan que el número de líneas
  Necesito un plan donde pueda entender qué se hace y por qué
Los LLM son gramaticalmente impecables, pero mezclan alucinaciones (hallucination) que confunden a los usuarios
Aun así, son útiles para tareas boilerplate o para conectar ideas rápidamente
Pero para usarlos bien, tener conocimientos básicos es indispensable
- La clave para usar bien un LLM es poder distinguir entre salida útil y basura de IA
- También hay quien opina que no hay que subestimar la velocidad a la que están mejorando los LLM
- Al final, algunos lo ven como que la gente con experiencia va a sobrevivir, y la que no la tenga será reemplazada
La razón por la que el texto termina de golpe es que el autor borró una parte por posible violación de los ToS mientras hablaba de la descompilación del binario de Claude Code
La discusión relacionada puede verse en este comentario
Tengo dos ideas
1. Las herramientas open source resuelven el problema de los experimentos involuntarios y los cambios sin previo aviso
2. Pero por esa misma razón, quizá al open source le cueste llegar al nivel de calidad de Claude Code
  Porque no puede hacer mejoras guiadas por datos a gran escala mediante pruebas A/B
- Incluso en open source, no todo es siempre reproducible
  Por ejemplo, pueden aparecer cambios impredecibles como el easter egg de "after midnight" en man-db
  Además hay muchas dependencias, y en la práctica casi nadie audita realmente todo el código
- También salió el chiste de "vamos a hacer A/B testing con el kernel de Linux"
- Las pruebas A/B no siempre buscan mejorar la experiencia del usuario
  También pueden ser experimentos de monetización (enshittification) — YouTube es un ejemplo representativo
Las pruebas A/B en sí no tienen problema, pero plan mode no me gusta
En la mayoría de los casos da malos resultados
Eso sí, retiene bien la información entre compactions
Si registras la conversación en un archivo Markdown y haces que lo consulte en cada compaction, los resultados mejoran mucho
- Mi experiencia es exactamente la contraria
  plan mode es muchísimo más eficiente, así que lo uso antes de casi cualquier tarea
  La ventaja es poder revisar y discutir el plan antes de que el modelo ejecute nada
- Ya choqué varias veces con el límite de compaction, y desde entonces trato de evitarlo
  Ahora mismo, plan mode reinicia el contexto al terminar, y eso me gusta porque permite arrancar el siguiente plan de forma limpia
Es una pena que en el blog hayan borrado los detalles de la descompilación por el tema de los ToS
Claude supuestamente seguía una instrucción del sistema que decía "limita el plan a 40 líneas, prohíbe las secciones de contexto y elimina la prosa"
Ojalá se pudiera ver y editar directamente esa configuración
Una herramienta profesional debería ofrecer confiabilidad y reproducibilidad, pero los LLM no lo hacen
Las pruebas A/B son solo una prueba más de eso
- El problema de fondo no es el LLM, sino que la app cambie su comportamiento en secreto
  Sería el mismo problema si Photoshop alterara un poco el tono de color o si Word cambiara el estilo de los títulos como parte de un experimento
  El problema es el A/B testing sin advertencia
- Anthropic tiene un problema serio de falta de transparencia
  Los límites de cuota y la calidad del modelo son inestables, y antes del lanzamiento de un modelo nuevo suele haber una etapa en la que el modelo anterior se arruina
  Esta prueba también parece más un experimento de reducción de costos que una mejora para la experiencia del usuario
  Si es una herramienta para negocios, hace falta consistencia y confiabilidad
- Las herramientas con actualizaciones automáticas cambian su comportamiento por naturaleza
  Un profesional debe entender las fortalezas y debilidades de la herramienta y usarla de forma adecuada
  Aceptar ciegamente la salida de un LLM no es profesional, pero eso no significa que un profesional no pueda usar LLM
- La reproducibilidad es un espectro
  Con un sistema de evaluación suficiente y control de prompts, se puede volver bastante determinista
  Si hasta modelos inestables en finanzas siguen operando, la imprevisibilidad no es una barrera absoluta
- Si la salida de un LLM fuera completamente determinista, ¿qué haría yo diferente?
  Yo verifico la salida del modelo como si revisara el código de un colega
A esto desde hace mucho se le llama vendor lock-in
Si dependes de una herramienta específica, cuando esa herramienta cambia o desaparece, dejas de poder trabajar
Yo me pasé de CC a opencode
CC era demasiado cerrado y sus prompts eran demasiado opinionated, lo cual me incomodaba
Tampoco se podía controlar la ruta de búsqueda web
Como ahora lo uso solo como hobby, elegí open source, pero si dependiera de esto para trabajar, probablemente decidiría distinto
- Yo también probé opencode, pero la versión base es mucho más débil que CC
  Solo me sirvió para proyectos pequeños
  Si tienes una configuración decente, estaría bueno que la compartieras

Por favor, no hagan pruebas A/B con mi flujo de trabajo

Deterioro de la experiencia de usuario por las pruebas A/B de Claude Code

Exigencia de transparencia en una herramienta de pago

Contenido de la prueba y evidencia

Reacción en Hacker News y perspectiva de costos

Respuesta del ingeniero de Anthropic

Conclusión: responsabilidad en los experimentos con herramientas de IA y confianza del usuario

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News