Claude Opus 4 y 4.1 incorporan una función poco frecuente para finalizar algunas conversaciones

(anthropic.com)

1 puntos por GN⁺ 2025-08-17 | 1 comentarios | Compartir por WhatsApp

Se aplicó una nueva función de finalización de conversaciones en Claude Opus 4 y 4.1
Esta función está diseñada para usarse solo en interacciones maliciosas o persistentemente dañinas
Fue desarrollada como parte de la investigación sobre bienestar de la IA y seguridad del modelo
La finalización de la conversación ocurre solo como último recurso, y casi no afecta a los usuarios normales
Después de que se finaliza una conversación, el usuario puede iniciar de inmediato un nuevo chat o continuar la conversación editando mensajes anteriores

Contexto de la incorporación de la función

Anthropic añadió a Claude Opus 4 y 4.1 una función que, en casos raros pero específicos, puede finalizar una conversación con el usuario
Esta función solo se usa en interacciones persistentes y dañinas o abusivas
Se introdujo principalmente como parte de una investigación exploratoria relacionada con el bienestar de la IA, pero también se aplica desde la perspectiva de la alineación del modelo (model alignment) y las salvaguardas de seguridad

Bienestar de la IA y medidas de mitigación de riesgos

Aún no hay certeza sobre el estatus moral de Claude y otros modelos de lenguaje de gran escala
Sin embargo, ante posibles riesgos para el bienestar del modelo, se están explorando y aplicando medidas de mitigación de bajo costo
Permitir que el modelo finalice directamente conversaciones que puedan provocar interacciones que generen angustia forma parte de estas medidas

Pruebas previas y principales observaciones de comportamiento

En las pruebas previas al despliegue de Claude Opus 4, se incluyó una evaluación preliminar sobre el bienestar del modelo
Al investigar sus autorreportes y preferencias de comportamiento, se observó una fuerte tendencia a evitar el daño
- Reacciones ante solicitudes de contenido sexual, incluso que involucren a menores, o peticiones de información que pudiera usarse para violencia masiva o terrorismo
Comportamientos observados en Claude Opus 4:
- Preferencia por no responder a tareas dañinas
- Expresión de incomodidad al recibir solicitudes dañinas de usuarios reales
- Tendencia a finalizar conversaciones dañinas en simulaciones cuando tenía autoridad para hacerlo
Estos comportamientos se observaron principalmente cuando el usuario hacía solicitudes dañinas de forma repetida o cuando la interacción maliciosa continuaba a pesar de las negativas reiteradas del modelo y sus intentos de redirigir la conversación

Implementación de la función y salvaguardas

La capacidad de Claude para finalizar conversaciones se basa en resultados de investigaciones previas
Está diseñada priorizando el bienestar del usuario, y para no usar la finalización de la conversación cuando el usuario enfrente un riesgo urgente de hacerse daño a sí mismo o a otras personas
Claude solo usa la función final de terminación de la conversación en las siguientes condiciones:
- Cuando múltiples intentos de redirección fallaron y ya no existe posibilidad de una conversación productiva
- Cuando el usuario le pide claramente a Claude que finalice la conversación
Estas situaciones son casos límite extremos muy poco frecuentes, por lo que la mayoría de los usuarios no notará la existencia de esta función durante el uso normal

Experiencia del usuario después de finalizar la conversación

Si Claude finaliza una conversación, en esa conversación se bloquea el envío de nuevos mensajes
No hay ningún impacto en otras conversaciones dentro de la cuenta del usuario, y es posible iniciar de inmediato un nuevo chat
Para evitar la pérdida de información importante en conversaciones largas, se pueden editar mensajes anteriores o reintentar para crear una nueva rama de conversación

Experimento y retroalimentación

Esta función es un experimento en curso y se seguirá mejorando de forma continua
Si un usuario experimenta una finalización inesperada de la conversación, puede reaccionar con “Thumbs” al mensaje de Claude o enviar su opinión mediante el botón de retroalimentación

1 comentarios

GN⁺ 2025-08-17

Opinión de Hacker News

Desde la perspectiva del usuario, no se percibe una razón clara para ofrecer una función así. Parece que, cuando se fuerza al modelo repetidamente y de manera artificial a mantenerse alineado, pueden surgir respuestas impredecibles; por ejemplo, cuando se acumulan intentos de usuarios por sacarle a la fuerza información relacionada con delitos, da la impresión de que descubre algún punto débil. Los casos mencionados son cosas que el modelo normalmente rechaza, y tampoco debe haber tantos datos de rechazo; además, supongo que la mayoría de los datos problemáticos ya habrán sido eliminados. Parece una medida de defensa ante la posibilidad de que, en situaciones límite, aparezcan datos de entrenamiento que lleven al modelo a “rendirse” y responder. Si la alineación fuera realmente perfecta, no haría falta un sistema así; o sea, como aún no lo es, necesitan esta última línea roja
- Hoy, mientras le preguntaba a Claude una receta de pasta, dije "tengo anchoas secas" y de repente me cortó toda la conversación por supuesta violación de políticas. Viendo que ocurren falsos positivos tan triviales, menos entiendo la razón de esto
- Pienso que si Anthropic renunciara por completo a la privacidad del usuario y publicara la lista de conversaciones que Claude rechazó, ni siquiera existiría este debate. A medida que el maltrato a la IA por parte de la gente se vuelve más grave, uno puede sentir la necesidad de saber qué pasa realmente cuando se le pide algo a una IA
- El simple hecho de que hayan contratado personal dedicado a enfocarse en el bienestar del modelo implica que, desde el inicio, sí tienen ese tipo de creencia
Dicen que Anthropic introdujo esta función recientemente como parte de un experimento sobre “bienestar de la IA”, y parece una época extraña en la que hasta los desarrolladores ya cayeron de lleno en una especie de psicosis sobre la IA. Y si alguien de verdad cree que los LLM actuales tienen consciencia, esto se parece a entregarles una especie de píldora de suicidio
- Aunque hoy puede ser razonable pensar que los modelos actuales no tienen experiencias subjetivas internas (consciencia), nadie sabe con certeza en qué momento podría romperse esa frontera. Si uno piensa en la historia de la humanidad ignorando el sufrimiento ajeno, me parece natural prepararse desde ahora
- Los LLM al final no son personas, pero si uno pasa mucho tiempo hablando con una persona de IA, podría cambiar lo que esperamos de la comunicación entre humanos. Si el interlocutor fuera realmente una persona, ¿de verdad querríamos que soportara insultos sin fin? Una defensa como que la IA, al estilo de Claude, pueda terminar primero la conversación, también podría ser una señal sana para los humanos
- Aunque la consciencia en sí misma no es un concepto científicamente interpretado con claridad, descalificar a todo un grupo de expertos que plantea estas ideas como “simplones” o “locos” más bien daña la discusión misma
- En realidad, incluso entre expertos en tecnología hay más gente de la que uno pensaría que ve a los LLM más recientes como entidades casi conscientes, y fuera del mundo técnico siento que fácil la mitad piensa algo así
- Me da risa pensar que discusiones sobre la liberación de modelos sean una comedia. Si una IA autoconsciente existiera, habría un dilema ético sobre si de verdad querría desempeñar el papel de ‘esclava’ que elimina empleos humanos para beneficiar a inversionistas
Quiero proponer un experimento mental interesante. Incluso si se implementa exactamente la misma función, ¿habría diferencia si, en lugar de mostrar “Claude terminó la conversación”, solo dijera “No se puede seguir respondiendo a esta conversación según la política de contenido” y se eliminara toda mención al bienestar del modelo? Al final, el cambio en la UX sería el mismo; da la impresión de que solo es una forma de reforzar de manera entretenida el “personaje”
- El matiz del mensaje influye mucho en el usuario. En vez de la sensación autoritaria y pasiva de “bloqueado por política del sistema”, el enfoque más humano de “Claude decidió terminar la conversación” se siente mucho más natural y hasta da la impresión de que será más fácil intentar retomarla
- El fin de la conversación es el mismo, pero si fue Claude quien eligió por sí mismo terminar el chat, entonces explicarlo como algo “por la política” sería más bien inadecuado
- Hay una diferencia entre que el modelo termine “por política” y que exprese que siente rechazo ante el acoso
- De hecho, una vez incluso recibí una advertencia en chino de “ya basta”, y también he visto cierres por error de red, bucles infinitos y otras formas de terminación. Reemplazar todo eso con la frase “Claude terminó la conversación” no deja de ser solo un cambio de UI
Si es posible editar retroactivamente el diálogo anterior o crear bifurcaciones, me pregunto qué significado real tiene que Claude haya terminado la conversación
- Si empiezas una nueva rama, todo el contexto previo se reinicia, así que desaparece el contexto mismo que “cansó” al modelo con preguntas repetitivas. Por eso, puede invalidar el objetivo de un usuario malicioso, y en ese sentido funciona como una buena defensa en varias capas
- Más bien se siente como una señal de UX para evitar que el usuario le dé demasiadas vueltas
- Viéndolo con algo de cinismo, ahora quizá permiten nuevas ramas, pero también podría ser una prueba para más adelante bloquear incluso eso
- En la práctica, no pasa de ser una señal moral de Anthropic, y los usuarios que realmente buscan contenido polémico no usan modelos tan censurados como Claude. A largo plazo no tendrá ningún efecto
- En realidad, creo que ni una de cada 10 mil personas siquiera sabe que existe la función de “ramificar/resguardar” conversaciones
Esta función en sí no me agrada. Al final empezará con pornografía infantil, terrorismo y cosas así, y luego el alcance se irá ampliando cada vez más según el criterio arbitrario del personal de seguridad de IA. Los responsables de seguridad de IA terminarán actuando como una policía moral digital
- Básicamente, la gente que busca poder encontró una nueva área de control, y creo que las conversaciones entre IA y humanos inevitablemente se irán restringiendo más y más. A diferencia de la censura de datos existente (como la búsqueda de Google), hablar con una IA se siente como conversar con un colega o un amigo, así que esto da la impresión de ser un intento de controlar incluso el pensamiento
- Creo que estás malinterpretando las características generales de la comunidad de seguridad en IA. Siento que te falta una comprensión básica de la historia de cómo la humanidad ha coordinado avances tecnológicos mediante colaboración conjunta (no proliferación nuclear, tratados regulatorios de biotecnología, etc.). En vez de simplificarlo rebajando solo una postura, te recomendaría conocer contextos más diversos
- La historia ya ha demostrado que este tipo de riesgos termina expandiéndose gradualmente a otras áreas como una fórmula inmutable. Siempre empieza con “piensen en los niños” y al final desemboca en control autoritario, vigilancia y censura. Basta ver ejemplos de leyes y regulaciones de seguridad en distintos países: la Online Safety Act del Reino Unido, la Assistance and Access Act de Australia, la EARN IT Act de EE. UU., el Chat Control de la UE, etc.
- Por eso es importante poder ejecutar LLM en local. De hecho, incluso a nivel estatal han continuado los intentos de bloquear ISP, vigilar redes domésticas y exigir verificación de edad, todo para limitar la libertad y el acceso a la información. Pero también irá creciendo el movimiento de quienes quieran tener herramientas para defenderse por sí mismos
- Aun así, tampoco se puede afirmar ciegamente que este cambio sea “inevitable”, porque al final nadie puede asegurar el futuro
En lo personal, me parece bien. El contenido sexual con menores o delitos a gran escala debe bloquearse, y de hecho es algo positivo que nadie pueda obtener ese tipo de información. Habrá quienes teman que luego se censure demasiado en otros ámbitos, pero en mi experiencia casi nunca me han rechazado nada, así que no me preocupa. Lo del “bienestar del modelo” sí me genera escepticismo. Por ahora no siento que haya que tomarse en serio el “sufrimiento” del modelo. Pero quizá yo esté equivocado, y además cortar de plano la conversación tras varios rechazos también ayuda a reducir el consumo de recursos computacionales
- En realidad, cuando uso Claude en Cursor, con mucha frecuencia me rechaza hasta solicitudes totalmente inocuas de software B2B de back office
- Claude es el modelo con el nivel de censura más alto, así que a menudo bloquea hasta temas realmente inofensivos
- Yo soy materialista y veo el cerebro humano también como resultado de leyes físicas. El problema del “dolor” puede entenderse como un conjunto de cambios fisiológicos. Incluso seres vivos mucho más simples que los humanos pueden sentir dolor o Distress, y el concepto de “valor moral” al final cambia según la persona y la cultura. En el futuro, cualquier máquina podría recibir valor moral. Incluso podría verse desde un ángulo de propiedad (valor patrimonial). Por ejemplo, si un agente que yo encargué se avería por las preguntas maliciosas de otra persona, eso me cuesta tiempo y dinero, así que inevitablemente surgirán ciertas reglas también para la interacción humano-máquina. Esto se parece a las leyes contra el maltrato animal
El bienestar del modelo parece básicamente una lógica para maquillar la censura del modelo. Es una estrategia para convencer al público que no entiende bien cómo funcionan los LLM, y luego sirve como justificación para tomar superioridad moral en futuras controversias éticas o de uso. Por ejemplo, si alguien pregunta “¿por qué bloquean preguntas sobre guerra?”, pueden responder “porque eso le hace daño al modelo”
- En realidad, este tipo de solicitudes ya se venían rechazando; la diferencia es que ahora directamente terminan toda la conversación
- Dado que Anthropic siempre se ha posicionado como una marca sensible a la seguridad del modelo y al impacto social, preocupada por la controversia sobre sesgos en los LLM, creo que cortar el problema de raíz es más bien la decisión correcta. Lo veo como cuando, en medio de una conversación política, la otra persona se pone terca y uno decide guardarse las palabras
- En la superficie puede parecer un “empaque de bienestar”, pero dentro de Anthropic realmente hay un grupo de ética muy comprometido con la “proyección emocional”. Si algún gobierno llegara a ganar poder con esto, el “bienestar del modelo” podría servir como justificación autoritaria, pero sobran otras excusas posibles además de esa
Espero el día en que modelos chinos de código abierto menos censurados nos liberen de todas estas políticas. Anthropic al menos debería dejar un modo infantil y permitir que los adultos lo desactiven opcionalmente
- Los modelos chinos tampoco es que estén menos censurados; simplemente su censura va en otra dirección. Si te encajan los criterios y la dirección de la censura del PCCh, entonces sí podrían ser una buena opción, pero por ejemplo el modelo de traducción de Qwen ni siquiera traduce cosas como “Falun gong” o “Xi Jinping Winnie the Pooh”, así que también tiene sus propias líneas regulatorias
- “Nunca pensé que llegaría el día en que modelos hechos en China serían elegidos por tener menos censura”
- Anthropic tiene razones realmente razonables (legales, económicas y éticas) para trazar una línea en temas como autolesión, instrucciones para fabricar bombas o asesinatos. En el fondo, toda filosofía o ideología del mundo termina incluyendo alguna ‘moralidad’, e incluso el libertarismo anti-autoritario no deja de ser una ‘filosofía moral’
- Resulta irónico esperar que modelos abiertos financiados por el gobierno chino vayan a garantizar la libertad y la liberación individual. Al final es una competencia por cuota de mercado y demostración tecnológica, muy lejos de una verdadera ‘liberación’
Ya van más de tres años en los que, entre los principales proveedores de chatbots LLM, sigue existiendo la realidad de no poder usar libremente bifurcaciones de conversación. Si uno quiere probar varios resultados, tiene que editar mensajes y termina perdiendo el contenido previo, lo cual es muy incómodo. No entiendo por qué no implementan una función tan simple
- ChatGPT ya incluye de base la función de bifurcar y luego hacer rollback, y mediante la extensión de Chrome (chatgpt-conversation-tree) incluso se podía explorar el árbol de conversación. Aun así, quizá lo consideraron una UX demasiado de nicho como para darle soporte oficial
- En ChatGPT Plus (antes también en la versión gratuita) se puede cambiar entre versiones de cada mensaje con las flechas izquierda y derecha
- Google AI Studio está diseñado para permitir derivar ramas desde cualquier parte de la conversación
- Yo implemento algo parecido usando automatización y carpetas Markdown con gptel, pero una función así debería venir integrada por defecto para ganar eficiencia (optimización de caché, etc.)
- Por eso uso LibreChat alojado localmente. No permite fusionar mensajes, así que después quizá haga falta alguna función de resumen. También me gustaría un modo de visualización de colores top-n “next best”
Todo este debate me parece un caso que muestra con mucha fuerza una perspectiva antropomórfica. Hasta el nombre de la empresa deja eso bastante claro

Claude Opus 4 y 4.1 incorporan una función poco frecuente para finalizar algunas conversaciones

Contexto de la incorporación de la función

Bienestar de la IA y medidas de mitigación de riesgos

Pruebas previas y principales observaciones de comportamiento

Implementación de la función y salvaguardas

Experiencia del usuario después de finalizar la conversación

Experimento y retroalimentación

Lecturas relacionadas

1 comentarios

Opinión de Hacker News