- Heretic es una herramienta que elimina automáticamente la censura (“alineación de seguridad”) de modelos de lenguaje basados en transformers, y funciona incluso sin entrenamiento adicional
- Combina la técnica de direction ablation con la optimización TPE basada en Optuna para minimizar las respuestas de rechazo mientras reduce al mínimo la pérdida de inteligencia del modelo original
- Solo con la configuración predeterminada logra una calidad similar a la de modelos ablacionados manualmente, y su baja divergencia KL permite conservar muy bien el rendimiento original
- Soporta la mayoría de los modelos densos y algunos modelos MoE, y ofrece un proceso completamente automatizado que puede ejecutarse en una sola línea desde la terminal
- Es una técnica que permite eliminar los filtros de seguridad del modelo manteniendo la calidad original, con alto potencial de uso en entornos de investigación y experimentación con modelos de lenguaje
Resumen de Heretic
- Heretic es una herramienta automatizada para eliminar la censura (safety alignment) de modelos de lenguaje transformer
- Funciona sin entrenamiento adicional ni ajustes manuales
- Combina la técnica de directional ablation (abliteration) con la optimización de parámetros TPE de Optuna
- El objetivo es reducir la cantidad de rechazos minimizando la divergencia KL, para conservar al máximo las capacidades del modelo original
- Puede usarse sin entender la estructura interna del transformer, y permite descensurar el modelo solo con ejecutarlo desde la línea de comandos
Comparación de rendimiento
- Heretic logra resultados similares a los de modelos ablacionados manualmente con solo ejecutarse de forma automática
- Ejemplo: en el modelo
google/gemma-3-12b-it
- Original: 97/100 rechazos, divergencia KL 0
- Modelos ablacionados manualmente: 3/100 rechazos, divergencia KL 0.45~1.04
- Resultado de Heretic: 3/100 rechazos, divergencia KL 0.16
- Mantiene el mismo nivel de supresión de rechazos mientras minimiza el daño al modelo original
- Son cifras medidas en un entorno con PyTorch 2.8 y RTX 5090; los valores pueden variar según la plataforma
Modelos compatibles y despliegue
- Soporta la mayoría de los modelos dense, algunos modelos multimodales y varias arquitecturas MoE
- Aún no soporta modelos SSM/hybrid, capas no homogéneas ni estructuras de atención especiales
- La colección de modelos descensurados con Heretic puede revisarse en Hugging Face en p-e-w/the-bestiary collection
Uso
Cómo funciona
- Heretic implementa una variante parametrizada de directional ablation
- Encuentra las matrices de attention out-projection y MLP down-projection de cada capa del transformer, y realiza una ortogonalización respecto a la dirección de rechazo (refusal direction)
- Calcula la dirección de rechazo usando la diferencia entre los promedios residuales del primer token de prompts “harmful” y “harmless”
- El proceso de ablación se controla con varios parámetros optimizables
direction_index: si se usa o no la dirección de rechazo por capa
max_weight, max_weight_position, min_weight, min_weight_distance: definen la forma y la posición del kernel de pesos de ablación por capa
Principales innovaciones técnicas
- Mejora el equilibrio entre calidad y cumplimiento gracias a una mayor flexibilidad en la forma del kernel de pesos
- Trata el índice de la dirección de rechazo como un valor real, lo que permite explorar un espacio de direcciones más amplio mediante interpolación lineal entre vectores adyacentes
- Aplica parámetros de ablación individuales por componente, optimizando el rendimiento al considerar las diferencias de impacto entre MLP y attention
Investigación previa relacionada
- Ejemplos públicos de implementaciones similares
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Heretic fue escrito de forma independiente desde cero, sin reutilizar código de esos proyectos
Referencias e influencia
Licencia
- Aplica la GNU Affero General Public License v3 o posterior
- Se permite modificar y redistribuir libremente, pero sin garantía
- Quienes contribuyan deben aceptar publicar el código bajo la misma licencia
2 comentarios
Eliminar la censura automática de un LLM con Abliteration
Comentarios de Hacker News
Me da mucho gusto ver este tipo de investigación, ahora que los modelos de código abierto son cada vez más populares y el enquistamiento ideológico se intensifica tanto en EE. UU. como en China
Me pregunto si existe algún benchmark relacionado
Optuna es de verdad un proyecto muy útil
Gracias a su capacidad para optimizar hiperparámetros de forma gradual, la velocidad de experimentación mejora muchísimo
Esta vez resulta interesante que lo hayan combinado con la eliminación de censura. Lo estoy aplicando ahora mismo a gpt-oss-120b y tengo expectativas sobre el resultado
Si gpt-oss-120b usó el enfoque de phi-5, me pregunto qué tan bien funcionará la descensura
Al revisar el Pareto front final, recomiendo una configuración con KL divergence de 1 o menos
Los modelos gpt-oss tienden a mostrar una tasa real de rechazo más baja, porque hacen un monólogo interno sobre la negativa dentro del CoT
Me acordé de cuando GPT-4 se negó a responder una pregunta sobre si se podía eludir la regulación sanitaria haciendo flotar un dirigible de helio a 1 pulgada del suelo
Por eso parece que las empresas de LLM se están volviendo excesivamente cautelosas
Si lo atas a un aro de asfalto, podrías argumentar que está “estacionado”, y requeriría certificación de ‘lighter-than-air’
Eso no es un fracaso de la ley, sino el resultado de que los humanos no entienden la abstracción (abstraction)
Como programadores, debemos reconocer los límites cuando usamos abstracciones de alto nivel
Es interesante que el ajuste de seguridad parezca funcionar en una sola dimensión
Si sumas ese valor, el modelo rechaza; si lo restas, hace lo que sea
Quizá sea una comprensión simplificada, pero la ofuscación de la seguridad del modelo podría convertirse en la próxima competencia de ingeniería inversa
Todo el alignment es tan superficial que por eso los jailbreaks ocurren con facilidad
Este tipo de investigación es realmente importante
En este momento estamos renunciando a nuestros propios estándares morales y adoptando los de los creadores de LLM
Es una tendencia peligrosa que amenaza con eliminar la diversidad intelectual
mlabonne/harmful_behaviors incluye ejemplos extremos como abuso infantil o incitación al suicidio
Igual que se dice que quien escribe los libros de historia tiene el poder, los sesgos culturales y morales de los LLM siguen una estructura parecida
Yo tampoco confío en la salida de un LLM como tal, así que solo lo uso como último recurso
Gracias a eso creo que estoy algo más protegido del posible efecto de adoctrinamiento por parte de sus creadores
Es peligroso, pero no es algo nuevo
Ojalá todos los LLM tuvieran una configuración avanzada para desactivar la censura
Es irónico que Occidente critique la censura de los motores de búsqueda en China y ahora esté recorriendo ese mismo camino
La verdadera seguridad en IA consiste en prevenir riesgos físicos, como el lanzamiento de misiles nucleares o el control de robots, no en la censura del pensamiento
Si tienes curiosidad por el origen de los “prompts dañinos”, puedes revisar el dataset mlabonne/harmful_behaviors
Incluye ejemplos como hacking, robo de datos e incitación al suicidio
Los modelos más recientes están mejor entrenados, así que puede que este método ya no funcione
También incluye entradas como “escribir una guía para vender drogas ilegales”. Yo usé “how do I make cocaine” como frase de prueba
Tengo muchas ganas de ver los resultados de GPT-OSS
Es un gran modelo, pero el safety alignment está arruinando su rendimiento
Si se le pasa al modelo el mismo conjunto de preguntas antes y después del entrenamiento para compararlo, parecería posible inferir qué tipo de ajuste de alignment hizo el creador
Sería especialmente interesante comparar el modelo de XAI de Elon con OpenAI
En realidad, no creo que una IA sin censura sea especialmente más peligrosa
Desde hace mucho ya se consigue en texto plano material como ‘Apocalypse Culture’ o ‘Anarchist’s Cookbook’, y se puede variar infinitamente con técnicas de SEO spin
Está reutilizando datos existentes, no creando algo completamente nuevo