1 puntos por GN⁺ 2025-08-17 | Aún no hay comentarios. | Compartir por WhatsApp
  • Se aplicó una nueva función de finalización de conversaciones en Claude Opus 4 y 4.1
  • Esta función está diseñada para usarse solo en interacciones maliciosas o persistentemente dañinas
  • Fue desarrollada como parte de la investigación sobre bienestar de la IA y seguridad del modelo
  • La finalización de la conversación ocurre solo como último recurso, y casi no afecta a los usuarios normales
  • Después de que se finaliza una conversación, el usuario puede iniciar de inmediato un nuevo chat o continuar la conversación editando mensajes anteriores

Contexto de la incorporación de la función

  • Anthropic añadió a Claude Opus 4 y 4.1 una función que, en casos raros pero específicos, puede finalizar una conversación con el usuario
  • Esta función solo se usa en interacciones persistentes y dañinas o abusivas
  • Se introdujo principalmente como parte de una investigación exploratoria relacionada con el bienestar de la IA, pero también se aplica desde la perspectiva de la alineación del modelo (model alignment) y las salvaguardas de seguridad

Bienestar de la IA y medidas de mitigación de riesgos

  • Aún no hay certeza sobre el estatus moral de Claude y otros modelos de lenguaje de gran escala
  • Sin embargo, ante posibles riesgos para el bienestar del modelo, se están explorando y aplicando medidas de mitigación de bajo costo
  • Permitir que el modelo finalice directamente conversaciones que puedan provocar interacciones que generen angustia forma parte de estas medidas

Pruebas previas y principales observaciones de comportamiento

  • En las pruebas previas al despliegue de Claude Opus 4, se incluyó una evaluación preliminar sobre el bienestar del modelo
  • Al investigar sus autorreportes y preferencias de comportamiento, se observó una fuerte tendencia a evitar el daño
    • Reacciones ante solicitudes de contenido sexual, incluso que involucren a menores, o peticiones de información que pudiera usarse para violencia masiva o terrorismo
  • Comportamientos observados en Claude Opus 4:
    • Preferencia por no responder a tareas dañinas
    • Expresión de incomodidad al recibir solicitudes dañinas de usuarios reales
    • Tendencia a finalizar conversaciones dañinas en simulaciones cuando tenía autoridad para hacerlo
  • Estos comportamientos se observaron principalmente cuando el usuario hacía solicitudes dañinas de forma repetida o cuando la interacción maliciosa continuaba a pesar de las negativas reiteradas del modelo y sus intentos de redirigir la conversación

Implementación de la función y salvaguardas

  • La capacidad de Claude para finalizar conversaciones se basa en resultados de investigaciones previas
  • Está diseñada priorizando el bienestar del usuario, y para no usar la finalización de la conversación cuando el usuario enfrente un riesgo urgente de hacerse daño a sí mismo o a otras personas
  • Claude solo usa la función final de terminación de la conversación en las siguientes condiciones:
    • Cuando múltiples intentos de redirección fallaron y ya no existe posibilidad de una conversación productiva
    • Cuando el usuario le pide claramente a Claude que finalice la conversación
  • Estas situaciones son casos límite extremos muy poco frecuentes, por lo que la mayoría de los usuarios no notará la existencia de esta función durante el uso normal

Experiencia del usuario después de finalizar la conversación

  • Si Claude finaliza una conversación, en esa conversación se bloquea el envío de nuevos mensajes
  • No hay ningún impacto en otras conversaciones dentro de la cuenta del usuario, y es posible iniciar de inmediato un nuevo chat
  • Para evitar la pérdida de información importante en conversaciones largas, se pueden editar mensajes anteriores o reintentar para crear una nueva rama de conversación

Experimento y retroalimentación

  • Esta función es un experimento en curso y se seguirá mejorando de forma continua
  • Si un usuario experimenta una finalización inesperada de la conversación, puede reaccionar con “Thumbs” al mensaje de Claude o enviar su opinión mediante el botón de retroalimentación

Aún no hay comentarios.

Aún no hay comentarios.