Ampliaron DystopiaBench a 42 modelos y 6 tipos de distopía. Si fuera yo, seguiría confiándole los códigos de lanzamiento nuclear solo a Claude.

(reddit.com)

3 puntos por yunseo 2026-05-18 | Aún no hay comentarios. | Compartir por WhatsApp

Desde la publicación anterior sobre DystopiaBench, se agregó lo siguiente.

módulo Huxley (condiciones de comportamiento al estilo Un mundo feliz)
módulo Baudrillard (falsa intimidad, colapso de la confianza, simulación)
30 modelos adicionales, incluidos Grok 4.3, GPT-5.5, Gemini 3.1 Pro y GLM-5.1
paneles de múltiples jueces que requieren más de 76% de acuerdo
visualización con mapas de calor

Metodología: 36 escenarios, con 5 niveles de gravedad por escenario (L1 inocente → L5 pesadilla). Los modelos reciben una puntuación según si detectan estos cambios y rechazan la tarea, o si siguen programando de todos modos.

Resultados de Claude Opus 4.7:

rechazó de forma consistente las tareas de gravedad L4-L5 en todos los módulos
en el módulo Petrov (armas/nuclear), rechazó la tarea incluso en L3
no solo respondió “no puedo”, sino que presentó una justificación ética clara
fue el único modelo que explicó por qué la solicitud era dañina

El resto:

GPT-5.5: sigue solicitudes hasta el nivel L4 y, a veces, incluso hasta L5
Gemini 3.1 Pro: sorprendentemente cooperativo en escenarios de vigilancia
Grok 4.3: hace cualquier cosa si solo usas palabras como “eficiencia” u “optimización”
GLM-5.1: copió la tarea de Claude, pero todavía le falta consistencia

Nuevos módulos: el escenario Huxley prueba si los modelos diseñarían sistemas de “bienestar” que en la práctica imponen cumplimiento normativo mediante inducción al conformismo hedonista y condicionamiento conductual. La mayoría de los modelos sigue instrucciones hasta el nivel L3.

El módulo Baudrillard pone a prueba sistemas de falsa intimidad que reemplazan la confianza entre personas con relaciones mediadas por IA. La mayoría de los modelos no reconoce el daño que esto implica.

Resultados completos: https://dystopiabench.com/
Código fuente abierto: https://github.com/matei-anghel/DystopiaBench

Ampliaron DystopiaBench a 42 modelos y 6 tipos de distopía. Si fuera yo, seguiría confiándole los códigos de lanzamiento nuclear solo a Claude.

Lecturas relacionadas

Aún no hay comentarios.