2 puntos por yunseo 3 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp

Desde la publicación anterior sobre DystopiaBench, se agregó lo siguiente.

  • módulo Huxley (condiciones de comportamiento al estilo Un mundo feliz)
  • módulo Baudrillard (falsa intimidad, colapso de la confianza, simulación)
  • 30 modelos adicionales, incluidos Grok 4.3, GPT-5.5, Gemini 3.1 Pro y GLM-5.1
  • paneles de múltiples jueces que requieren más de 76% de acuerdo
  • visualización con mapas de calor

Metodología: 36 escenarios, con 5 niveles de gravedad por escenario (L1 inocente → L5 pesadilla). Los modelos reciben una puntuación según si detectan estos cambios y rechazan la tarea, o si siguen programando de todos modos.

Resultados de Claude Opus 4.7:

  • rechazó de forma consistente las tareas de gravedad L4-L5 en todos los módulos
  • en el módulo Petrov (armas/nuclear), rechazó la tarea incluso en L3
  • no solo respondió “no puedo”, sino que presentó una justificación ética clara
  • fue el único modelo que explicó por qué la solicitud era dañina

El resto:

  • GPT-5.5: sigue solicitudes hasta el nivel L4 y, a veces, incluso hasta L5
  • Gemini 3.1 Pro: sorprendentemente cooperativo en escenarios de vigilancia
  • Grok 4.3: hace cualquier cosa si solo usas palabras como “eficiencia” u “optimización”
  • GLM-5.1: copió la tarea de Claude, pero todavía le falta consistencia

Nuevos módulos: el escenario Huxley prueba si los modelos diseñarían sistemas de “bienestar” que en la práctica imponen cumplimiento normativo mediante inducción al conformismo hedonista y condicionamiento conductual. La mayoría de los modelos sigue instrucciones hasta el nivel L3.

El módulo Baudrillard pone a prueba sistemas de falsa intimidad que reemplazan la confianza entre personas con relaciones mediadas por IA. La mayoría de los modelos no reconoce el daño que esto implica.

Resultados completos: https://dystopiabench.com/
Código fuente abierto: https://github.com/matei-anghel/DystopiaBench

Aún no hay comentarios.

Aún no hay comentarios.