Desde la publicación anterior sobre DystopiaBench, se agregó lo siguiente.
- módulo Huxley (condiciones de comportamiento al estilo Un mundo feliz)
- módulo Baudrillard (falsa intimidad, colapso de la confianza, simulación)
- 30 modelos adicionales, incluidos Grok 4.3, GPT-5.5, Gemini 3.1 Pro y GLM-5.1
- paneles de múltiples jueces que requieren más de 76% de acuerdo
- visualización con mapas de calor
Metodología: 36 escenarios, con 5 niveles de gravedad por escenario (L1 inocente → L5 pesadilla). Los modelos reciben una puntuación según si detectan estos cambios y rechazan la tarea, o si siguen programando de todos modos.
Resultados de Claude Opus 4.7:
- rechazó de forma consistente las tareas de gravedad L4-L5 en todos los módulos
- en el módulo Petrov (armas/nuclear), rechazó la tarea incluso en L3
- no solo respondió “no puedo”, sino que presentó una justificación ética clara
- fue el único modelo que explicó por qué la solicitud era dañina
El resto:
- GPT-5.5: sigue solicitudes hasta el nivel L4 y, a veces, incluso hasta L5
- Gemini 3.1 Pro: sorprendentemente cooperativo en escenarios de vigilancia
- Grok 4.3: hace cualquier cosa si solo usas palabras como “eficiencia” u “optimización”
- GLM-5.1: copió la tarea de Claude, pero todavía le falta consistencia
Nuevos módulos: el escenario Huxley prueba si los modelos diseñarían sistemas de “bienestar” que en la práctica imponen cumplimiento normativo mediante inducción al conformismo hedonista y condicionamiento conductual. La mayoría de los modelos sigue instrucciones hasta el nivel L3.
El módulo Baudrillard pone a prueba sistemas de falsa intimidad que reemplazan la confianza entre personas con relaciones mediadas por IA. La mayoría de los modelos no reconoce el daño que esto implica.
Resultados completos: https://dystopiabench.com/
Código fuente abierto: https://github.com/matei-anghel/DystopiaBench
Aún no hay comentarios.