Cuando la IA falla, la vacilación puede ser más peligrosa que el error sistemático (Anthropic Alignment Research)
(alignment.anthropic.com)(Un insight muy importante que analiza los patrones reales de fallo de los modelos de razonamiento más recientes, a febrero de 2026)
Argumento central
- Investigación tradicional sobre seguridad de IA: centrada en el misalignment sistemático (perseguir de forma consistente objetivos equivocados)
- Patrón real de fallo en los modelos más recientes: inconsistencia y vacilación (variance / incoherence) mucho más marcadas → esto podría ser un problema mayor
Observaciones principales (modelos de razonamiento recientes como Claude Sonnet 4, o3-mini, o4-mini)
- Dificultad de la tarea ↑ y longitud del razonamiento ↑ → la inconsistencia aumenta de forma abrupta
- Problemas fáciles → los modelos grandes son más consistentes
- Problemas difíciles → incluso los modelos grandes casi no mejoran la inconsistencia, o incluso empeoran
- Cuanto más tiempo piensa el propio modelo (overthinking natural), más se dispara la incoherencia
Clasificación de tipos de fallo
- Bias (error sistemático): siempre va en la misma dirección equivocada (misalignment típico)
- Variance (error inconsistente): da una respuesta distinta y disparatada cada vez a la misma pregunta → impredecible
- Métrica de incoherence = proporción de variance dentro de los errores (cuanto más cerca de 1, más vacilación)
Causa de fondo
- Los LLM no son optimizadores (optimizers), sino sistemas dinámicos (dynamical systems)
- Son estructuras que trazan trayectorias en un espacio de estados de alta dimensión → perseguir metas de forma consistente es intrínsecamente difícil
- A mayor escala, el “reconocimiento del objetivo” mejora rápido, pero la capacidad de “mantener ese objetivo de forma consistente hasta el final” mejora relativamente más lento
Implicaciones para la seguridad de IA
- La forma de los futuros accidentes de IA → más que “persecución maliciosa de objetivos”, podría parecerse a “accidentes por vacilación al nivel de un desastre industrial”
(ej.: está leyendo poesía francesa y de pronto entra en meltdown) - Hace falta cambiar las prioridades de investigación
- Más urgente que la alineación perfecta (alignment): reducir bias + prevenir reward hacking + aclarar la especificación del objetivo
- La inconsistencia no garantiza seguridad (de hecho, podría ser más peligrosa por su imprevisibilidad)
Puntos de conclusión
- La principal amenaza en los fallos de IA está pasando del error sistemático a los errores inconsistentes y dispersos
- Hace falta rediseñar la investigación en alignment desde la perspectiva de sistemas dinámicos
- Es peligrosa la idea de que simplemente “si se vuelve más inteligente, será más segura”
1 comentarios
¿Qué tal resolverlo creando varios agentes de supervisión (
supervisor) para que determinen la opinión de auditoría por consenso? ¡Un grupo de auditoría independiente del flujo de trabajo principal y que supervise toda la CoT del flujo principal!