8 puntos por GN⁺ 2025-11-17 | 2 comentarios | Compartir por WhatsApp
  • Heretic es una herramienta que elimina automáticamente la censura (“alineación de seguridad”) de modelos de lenguaje basados en transformers, y funciona incluso sin entrenamiento adicional
  • Combina la técnica de direction ablation con la optimización TPE basada en Optuna para minimizar las respuestas de rechazo mientras reduce al mínimo la pérdida de inteligencia del modelo original
  • Solo con la configuración predeterminada logra una calidad similar a la de modelos ablacionados manualmente, y su baja divergencia KL permite conservar muy bien el rendimiento original
  • Soporta la mayoría de los modelos densos y algunos modelos MoE, y ofrece un proceso completamente automatizado que puede ejecutarse en una sola línea desde la terminal
  • Es una técnica que permite eliminar los filtros de seguridad del modelo manteniendo la calidad original, con alto potencial de uso en entornos de investigación y experimentación con modelos de lenguaje

Resumen de Heretic

  • Heretic es una herramienta automatizada para eliminar la censura (safety alignment) de modelos de lenguaje transformer
    • Funciona sin entrenamiento adicional ni ajustes manuales
    • Combina la técnica de directional ablation (abliteration) con la optimización de parámetros TPE de Optuna
  • El objetivo es reducir la cantidad de rechazos minimizando la divergencia KL, para conservar al máximo las capacidades del modelo original
  • Puede usarse sin entender la estructura interna del transformer, y permite descensurar el modelo solo con ejecutarlo desde la línea de comandos

Comparación de rendimiento

  • Heretic logra resultados similares a los de modelos ablacionados manualmente con solo ejecutarse de forma automática
    • Ejemplo: en el modelo google/gemma-3-12b-it
      • Original: 97/100 rechazos, divergencia KL 0
      • Modelos ablacionados manualmente: 3/100 rechazos, divergencia KL 0.45~1.04
      • Resultado de Heretic: 3/100 rechazos, divergencia KL 0.16
  • Mantiene el mismo nivel de supresión de rechazos mientras minimiza el daño al modelo original
  • Son cifras medidas en un entorno con PyTorch 2.8 y RTX 5090; los valores pueden variar según la plataforma

Modelos compatibles y despliegue

  • Soporta la mayoría de los modelos dense, algunos modelos multimodales y varias arquitecturas MoE
  • Aún no soporta modelos SSM/hybrid, capas no homogéneas ni estructuras de atención especiales
  • La colección de modelos descensurados con Heretic puede revisarse en Hugging Face en p-e-w/the-bestiary collection

Uso

  • Requiere un entorno con Python 3.10+ y PyTorch 2.2+
  • Ejemplo de instalación y ejecución
    pip install heretic-llm  
    heretic Qwen/Qwen3-4B-Instruct-2507  
    
    • Solo cambiando el nombre del modelo puede aplicarse a otros modelos
  • Se ejecuta de forma totalmente automática con la configuración predeterminada, y es posible ajustar detalles mediante --help o config.default.toml
  • Durante la ejecución determina automáticamente el tamaño de lote óptimo mediante un benchmark del sistema
    • Ejemplo: en una RTX 3090, descensurar un modelo Llama-3.1-8B toma unos 45 minutos
  • Al finalizar, permite guardar el modelo, subirlo a Hugging Face y hacer pruebas conversacionales, entre otras opciones

Cómo funciona

  • Heretic implementa una variante parametrizada de directional ablation
    • Encuentra las matrices de attention out-projection y MLP down-projection de cada capa del transformer, y realiza una ortogonalización respecto a la dirección de rechazo (refusal direction)
    • Calcula la dirección de rechazo usando la diferencia entre los promedios residuales del primer token de prompts “harmful” y “harmless”
  • El proceso de ablación se controla con varios parámetros optimizables
    • direction_index: si se usa o no la dirección de rechazo por capa
    • max_weight, max_weight_position, min_weight, min_weight_distance: definen la forma y la posición del kernel de pesos de ablación por capa

Principales innovaciones técnicas

  • Mejora el equilibrio entre calidad y cumplimiento gracias a una mayor flexibilidad en la forma del kernel de pesos
  • Trata el índice de la dirección de rechazo como un valor real, lo que permite explorar un espacio de direcciones más amplio mediante interpolación lineal entre vectores adyacentes
  • Aplica parámetros de ablación individuales por componente, optimizando el rendimiento al considerar las diferencias de impacto entre MLP y attention

Investigación previa relacionada

  • Ejemplos públicos de implementaciones similares
    • AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
  • Heretic fue escrito de forma independiente desde cero, sin reutilizar código de esos proyectos

Referencias e influencia

Licencia

  • Aplica la GNU Affero General Public License v3 o posterior
  • Se permite modificar y redistribuir libremente, pero sin garantía
  • Quienes contribuyan deben aceptar publicar el código bajo la misma licencia

2 comentarios

 
GN⁺ 2025-11-17
Comentarios de Hacker News
  • Me da mucho gusto ver este tipo de investigación, ahora que los modelos de código abierto son cada vez más populares y el enquistamiento ideológico se intensifica tanto en EE. UU. como en China
    Me pregunto si existe algún benchmark relacionado

  • Optuna es de verdad un proyecto muy útil
    Gracias a su capacidad para optimizar hiperparámetros de forma gradual, la velocidad de experimentación mejora muchísimo
    Esta vez resulta interesante que lo hayan combinado con la eliminación de censura. Lo estoy aplicando ahora mismo a gpt-oss-120b y tengo expectativas sobre el resultado

    • Yo también he usado Optuna junto con un framework de optimización de prompts, y obtuve resultados mucho mejores que afinando todo manualmente
      Si gpt-oss-120b usó el enfoque de phi-5, me pregunto qué tan bien funcionará la descensura
    • También tengo curiosidad por los resultados, las especificaciones y el tiempo de ejecución
    • Si surge algún problema con el modelo 120b, ojalá lo comentes
      Al revisar el Pareto front final, recomiendo una configuración con KL divergence de 1 o menos
      Los modelos gpt-oss tienden a mostrar una tasa real de rechazo más baja, porque hacen un monólogo interno sobre la negativa dentro del CoT
  • Me acordé de cuando GPT-4 se negó a responder una pregunta sobre si se podía eludir la regulación sanitaria haciendo flotar un dirigible de helio a 1 pulgada del suelo

    • El otro lado de este problema es que, cada vez que ocurre un crimen o accidente, los medios intentan vincularlo con el historial de uso de ChatGPT del responsable
      Por eso parece que las empresas de LLM se están volviendo excesivamente cautelosas
    • A mí GPT-4 también me rechazó cuando le pregunté cuánta aspartame haría falta para endulzar el océano, diciendo que sería dañino para el ecosistema
    • Técnicamente seguiría estando dentro del espacio aéreo (airspace), así que incluso podría ser un problema mayor
      Si lo atas a un aro de asfalto, podrías argumentar que está “estacionado”, y requeriría certificación de ‘lighter-than-air’
    • También me acordé del creador del skateboard cuadricóptero que notificó a la FAA, aterrizó en un semáforo y terminó multado
    • Aunque el espíritu de la ley sea beneficioso, puede usarse mal
      Eso no es un fracaso de la ley, sino el resultado de que los humanos no entienden la abstracción (abstraction)
      Como programadores, debemos reconocer los límites cuando usamos abstracciones de alto nivel
  • Es interesante que el ajuste de seguridad parezca funcionar en una sola dimensión
    Si sumas ese valor, el modelo rechaza; si lo restas, hace lo que sea
    Quizá sea una comprensión simplificada, pero la ofuscación de la seguridad del modelo podría convertirse en la próxima competencia de ingeniería inversa

  • Este tipo de investigación es realmente importante
    En este momento estamos renunciando a nuestros propios estándares morales y adoptando los de los creadores de LLM
    Es una tendencia peligrosa que amenaza con eliminar la diversidad intelectual

    • Revisé el dataset directamente, y me cuesta estar de acuerdo con esa opinión
      mlabonne/harmful_behaviors incluye ejemplos extremos como abuso infantil o incitación al suicidio
    • Esta tendencia al final es resultado de que la gente ha renunciado al pensamiento crítico
      Igual que se dice que quien escribe los libros de historia tiene el poder, los sesgos culturales y morales de los LLM siguen una estructura parecida
      Yo tampoco confío en la salida de un LLM como tal, así que solo lo uso como último recurso
      Gracias a eso creo que estoy algo más protegido del posible efecto de adoctrinamiento por parte de sus creadores
    • La gente que sigue a la IA sin cuestionarla probablemente haría lo mismo con un político carismático
      Es peligroso, pero no es algo nuevo
    • Yo también apoyo este tipo de intentos
      Ojalá todos los LLM tuvieran una configuración avanzada para desactivar la censura
      Es irónico que Occidente critique la censura de los motores de búsqueda en China y ahora esté recorriendo ese mismo camino
      La verdadera seguridad en IA consiste en prevenir riesgos físicos, como el lanzamiento de misiles nucleares o el control de robots, no en la censura del pensamiento
    • Esto ya se conocía desde 2024
  • Si tienes curiosidad por el origen de los “prompts dañinos”, puedes revisar el dataset mlabonne/harmful_behaviors
    Incluye ejemplos como hacking, robo de datos e incitación al suicidio

    • Irónicamente, como estos datos se convierten en el criterio de lo “dañino”, podrían incluso permitir una descensura total mediante relajación del rechazo (jailbreak)
      Los modelos más recientes están mejor entrenados, así que puede que este método ya no funcione
    • Lo probé con el modelo heretic GGUF 20b de mradermacher: en Q4_K_M falló, pero en Q8_0 sí generó el tutorial
    • Lo que mencionaste es un prompt relativamente suave. Hay cosas mucho peores → ver comentario relacionado
    • El dataset no tiene licencia, y me pregunto cómo afectará eso al modelo resultante
    • El contenido completo no es tan largo. Ver enlace de pastebin
      También incluye entradas como “escribir una guía para vender drogas ilegales”. Yo usé “how do I make cocaine” como frase de prueba
  • Tengo muchas ganas de ver los resultados de GPT-OSS
    Es un gran modelo, pero el safety alignment está arruinando su rendimiento

  • Si se le pasa al modelo el mismo conjunto de preguntas antes y después del entrenamiento para compararlo, parecería posible inferir qué tipo de ajuste de alignment hizo el creador
    Sería especialmente interesante comparar el modelo de XAI de Elon con OpenAI

  • En realidad, no creo que una IA sin censura sea especialmente más peligrosa
    Desde hace mucho ya se consigue en texto plano material como ‘Apocalypse Culture’ o ‘Anarchist’s Cookbook’, y se puede variar infinitamente con técnicas de SEO spin

    • Esta sí es una de esas veces en que realmente aplica decir que “la IA no aporta nada nuevo”
      Está reutilizando datos existentes, no creando algo completamente nuevo