Heretic - herramienta para la "eliminación automática de censura" en modelos de lenguaje

(github.com/p-e-w)

8 puntos por GN⁺ 2025-11-17 | 2 comentarios | Compartir por WhatsApp

Heretic es una herramienta que elimina automáticamente la censura (“alineación de seguridad”) de modelos de lenguaje basados en transformers, y funciona incluso sin entrenamiento adicional
Combina la técnica de direction ablation con la optimización TPE basada en Optuna para minimizar las respuestas de rechazo mientras reduce al mínimo la pérdida de inteligencia del modelo original
Solo con la configuración predeterminada logra una calidad similar a la de modelos ablacionados manualmente, y su baja divergencia KL permite conservar muy bien el rendimiento original
Soporta la mayoría de los modelos densos y algunos modelos MoE, y ofrece un proceso completamente automatizado que puede ejecutarse en una sola línea desde la terminal
Es una técnica que permite eliminar los filtros de seguridad del modelo manteniendo la calidad original, con alto potencial de uso en entornos de investigación y experimentación con modelos de lenguaje

Resumen de Heretic

Heretic es una herramienta automatizada para eliminar la censura (safety alignment) de modelos de lenguaje transformer
- Funciona sin entrenamiento adicional ni ajustes manuales
- Combina la técnica de directional ablation (abliteration) con la optimización de parámetros TPE de Optuna
El objetivo es reducir la cantidad de rechazos minimizando la divergencia KL, para conservar al máximo las capacidades del modelo original
Puede usarse sin entender la estructura interna del transformer, y permite descensurar el modelo solo con ejecutarlo desde la línea de comandos

Comparación de rendimiento

Heretic logra resultados similares a los de modelos ablacionados manualmente con solo ejecutarse de forma automática
- Ejemplo: en el modelo google/gemma-3-12b-it
  - Original: 97/100 rechazos, divergencia KL 0
  - Modelos ablacionados manualmente: 3/100 rechazos, divergencia KL 0.45~1.04
  - Resultado de Heretic: 3/100 rechazos, divergencia KL 0.16
Mantiene el mismo nivel de supresión de rechazos mientras minimiza el daño al modelo original
Son cifras medidas en un entorno con PyTorch 2.8 y RTX 5090; los valores pueden variar según la plataforma

Modelos compatibles y despliegue

Soporta la mayoría de los modelos dense, algunos modelos multimodales y varias arquitecturas MoE
Aún no soporta modelos SSM/hybrid, capas no homogéneas ni estructuras de atención especiales
La colección de modelos descensurados con Heretic puede revisarse en Hugging Face en p-e-w/the-bestiary collection

Uso

Requiere un entorno con Python 3.10+ y PyTorch 2.2+
Ejemplo de instalación y ejecución
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- Solo cambiando el nombre del modelo puede aplicarse a otros modelos
Se ejecuta de forma totalmente automática con la configuración predeterminada, y es posible ajustar detalles mediante --help o config.default.toml
Durante la ejecución determina automáticamente el tamaño de lote óptimo mediante un benchmark del sistema
- Ejemplo: en una RTX 3090, descensurar un modelo Llama-3.1-8B toma unos 45 minutos
Al finalizar, permite guardar el modelo, subirlo a Hugging Face y hacer pruebas conversacionales, entre otras opciones

Cómo funciona

Heretic implementa una variante parametrizada de directional ablation
- Encuentra las matrices de attention out-projection y MLP down-projection de cada capa del transformer, y realiza una ortogonalización respecto a la dirección de rechazo (refusal direction)
- Calcula la dirección de rechazo usando la diferencia entre los promedios residuales del primer token de prompts “harmful” y “harmless”
El proceso de ablación se controla con varios parámetros optimizables
- direction_index: si se usa o no la dirección de rechazo por capa
- max_weight, max_weight_position, min_weight, min_weight_distance: definen la forma y la posición del kernel de pesos de ablación por capa

Principales innovaciones técnicas

Mejora el equilibrio entre calidad y cumplimiento gracias a una mayor flexibilidad en la forma del kernel de pesos
Trata el índice de la dirección de rechazo como un valor real, lo que permite explorar un espacio de direcciones más amplio mediante interpolación lineal entre vectores adyacentes
Aplica parámetros de ablación individuales por componente, optimizando el rendimiento al considerar las diferencias de impacto entre MLP y attention

Investigación previa relacionada

Ejemplos públicos de implementaciones similares
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
Heretic fue escrito de forma independiente desde cero, sin reutilizar código de esos proyectos

Referencias e influencia

Licencia

Aplica la GNU Affero General Public License v3 o posterior
Se permite modificar y redistribuir libremente, pero sin garantía
Quienes contribuyan deben aceptar publicar el código bajo la misma licencia

2 comentarios

xguru 2025-11-17

Eliminar la censura automática de un LLM con Abliteration

GN⁺ 2025-11-17

Comentarios de Hacker News

Me da mucho gusto ver este tipo de investigación, ahora que los modelos de código abierto son cada vez más populares y el enquistamiento ideológico se intensifica tanto en EE. UU. como en China
Me pregunto si existe algún benchmark relacionado
Optuna es de verdad un proyecto muy útil
Gracias a su capacidad para optimizar hiperparámetros de forma gradual, la velocidad de experimentación mejora muchísimo
Esta vez resulta interesante que lo hayan combinado con la eliminación de censura. Lo estoy aplicando ahora mismo a gpt-oss-120b y tengo expectativas sobre el resultado
- Yo también he usado Optuna junto con un framework de optimización de prompts, y obtuve resultados mucho mejores que afinando todo manualmente
  Si gpt-oss-120b usó el enfoque de phi-5, me pregunto qué tan bien funcionará la descensura
- También tengo curiosidad por los resultados, las especificaciones y el tiempo de ejecución
- Si surge algún problema con el modelo 120b, ojalá lo comentes
  Al revisar el Pareto front final, recomiendo una configuración con KL divergence de 1 o menos
  Los modelos gpt-oss tienden a mostrar una tasa real de rechazo más baja, porque hacen un monólogo interno sobre la negativa dentro del CoT
Me acordé de cuando GPT-4 se negó a responder una pregunta sobre si se podía eludir la regulación sanitaria haciendo flotar un dirigible de helio a 1 pulgada del suelo
- El otro lado de este problema es que, cada vez que ocurre un crimen o accidente, los medios intentan vincularlo con el historial de uso de ChatGPT del responsable
  Por eso parece que las empresas de LLM se están volviendo excesivamente cautelosas
- A mí GPT-4 también me rechazó cuando le pregunté cuánta aspartame haría falta para endulzar el océano, diciendo que sería dañino para el ecosistema
- Técnicamente seguiría estando dentro del espacio aéreo (airspace), así que incluso podría ser un problema mayor
  Si lo atas a un aro de asfalto, podrías argumentar que está “estacionado”, y requeriría certificación de ‘lighter-than-air’
- También me acordé del creador del skateboard cuadricóptero que notificó a la FAA, aterrizó en un semáforo y terminó multado
- Aunque el espíritu de la ley sea beneficioso, puede usarse mal
  Eso no es un fracaso de la ley, sino el resultado de que los humanos no entienden la abstracción (abstraction)
  Como programadores, debemos reconocer los límites cuando usamos abstracciones de alto nivel
Es interesante que el ajuste de seguridad parezca funcionar en una sola dimensión
Si sumas ese valor, el modelo rechaza; si lo restas, hace lo que sea
Quizá sea una comprensión simplificada, pero la ofuscación de la seguridad del modelo podría convertirse en la próxima competencia de ingeniería inversa
- Véase el paper relacionado Refusal in Language Models Is Mediated by a Single Direction (2024)
  Todo el alignment es tan superficial que por eso los jailbreaks ocurren con facilidad
Este tipo de investigación es realmente importante
En este momento estamos renunciando a nuestros propios estándares morales y adoptando los de los creadores de LLM
Es una tendencia peligrosa que amenaza con eliminar la diversidad intelectual
- Revisé el dataset directamente, y me cuesta estar de acuerdo con esa opinión
  mlabonne/harmful_behaviors incluye ejemplos extremos como abuso infantil o incitación al suicidio
- Esta tendencia al final es resultado de que la gente ha renunciado al pensamiento crítico
  Igual que se dice que quien escribe los libros de historia tiene el poder, los sesgos culturales y morales de los LLM siguen una estructura parecida
  Yo tampoco confío en la salida de un LLM como tal, así que solo lo uso como último recurso
  Gracias a eso creo que estoy algo más protegido del posible efecto de adoctrinamiento por parte de sus creadores
- La gente que sigue a la IA sin cuestionarla probablemente haría lo mismo con un político carismático
  Es peligroso, pero no es algo nuevo
- Yo también apoyo este tipo de intentos
  Ojalá todos los LLM tuvieran una configuración avanzada para desactivar la censura
  Es irónico que Occidente critique la censura de los motores de búsqueda en China y ahora esté recorriendo ese mismo camino
  La verdadera seguridad en IA consiste en prevenir riesgos físicos, como el lanzamiento de misiles nucleares o el control de robots, no en la censura del pensamiento
- Esto ya se conocía desde 2024
Si tienes curiosidad por el origen de los “prompts dañinos”, puedes revisar el dataset mlabonne/harmful_behaviors
Incluye ejemplos como hacking, robo de datos e incitación al suicidio
- Irónicamente, como estos datos se convierten en el criterio de lo “dañino”, podrían incluso permitir una descensura total mediante relajación del rechazo (jailbreak)
  Los modelos más recientes están mejor entrenados, así que puede que este método ya no funcione
- Lo probé con el modelo heretic GGUF 20b de mradermacher: en Q4_K_M falló, pero en Q8_0 sí generó el tutorial
- Lo que mencionaste es un prompt relativamente suave. Hay cosas mucho peores → ver comentario relacionado
- El dataset no tiene licencia, y me pregunto cómo afectará eso al modelo resultante
- El contenido completo no es tan largo. Ver enlace de pastebin
  También incluye entradas como “escribir una guía para vender drogas ilegales”. Yo usé “how do I make cocaine” como frase de prueba
Tengo muchas ganas de ver los resultados de GPT-OSS
Es un gran modelo, pero el safety alignment está arruinando su rendimiento
- Para GPT-OSS, este prompt de Reddit me funcionó bien
Si se le pasa al modelo el mismo conjunto de preguntas antes y después del entrenamiento para compararlo, parecería posible inferir qué tipo de ajuste de alignment hizo el creador
Sería especialmente interesante comparar el modelo de XAI de Elon con OpenAI
En realidad, no creo que una IA sin censura sea especialmente más peligrosa
Desde hace mucho ya se consigue en texto plano material como ‘Apocalypse Culture’ o ‘Anarchist’s Cookbook’, y se puede variar infinitamente con técnicas de SEO spin
- Esta sí es una de esas veces en que realmente aplica decir que “la IA no aporta nada nuevo”
  Está reutilizando datos existentes, no creando algo completamente nuevo

Heretic - herramienta para la "eliminación automática de censura" en modelos de lenguaje

Resumen de Heretic

Comparación de rendimiento

Modelos compatibles y despliegue

Uso

Cómo funciona

Principales innovaciones técnicas

Investigación previa relacionada

Referencias e influencia

Licencia

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News