Extracción de conceptos de GPT-4

(openai.com)

2 puntos por GN⁺ 2024-06-07 | 1 comentarios | Compartir por WhatsApp

OpenAI presentó un método escalable para comprender mejor el interior de los modelos de lenguaje, descomponiendo las representaciones de GPT‑4 en 16 millones de características
La herramienta clave es un autoencoder disperso, un enfoque que busca vincular los pocos patrones de activación que influyen en la salida con conceptos comprensibles para las personas
El nuevo método mostró un escalado más predecible que las técnicas existentes, y se usó para entrenar varios autoencoders sobre activaciones de GPT‑2 small y GPT‑4
Las limitaciones también son claras: muchas características aún son difíciles de interpretar, y las activaciones de GPT‑4 pasadas por un autoencoder disperso solo alcanzan el nivel de rendimiento de un modelo con aproximadamente 10 veces menos cómputo de entrenamiento
El paper, el código y la herramienta de visualización de características publicados sirven como base para investigaciones futuras; a corto plazo, planean comprobar si son útiles para el monitoreo y direccionamiento del comportamiento de los modelos de lenguaje

Por qué es difícil interpretar el interior de las redes neuronales

Los métodos actuales para comprender la actividad neuronal dentro de los modelos de lenguaje no están suficientemente establecidos
Los artefactos como los autos pueden diseñarse, evaluarse y repararse a partir de las especificaciones de sus partes, pero las redes neuronales no son componentes diseñados directamente, sino el resultado de algoritmos de aprendizaje
Por eso, las redes neuronales no se descomponen fácilmente en partes identificables, y es difícil abordar la seguridad de la IA como se infiere la seguridad de un auto
Para interpretar una red neuronal, primero hay que encontrar unidades constitutivas útiles que puedan explicar los cálculos neuronales

Enfoque con autoencoders dispersos

Las activaciones internas de los modelos de lenguaje se encienden en patrones difíciles de predecir y parecen representar varios conceptos al mismo tiempo
Las activaciones aparecen de forma densa, con muchos elementos activándose juntos para cada entrada
En los conceptos del mundo real, solo una pequeña parte del total suele ser relevante en un contexto específico, por lo que la dispersión es importante
Un autoencoder disperso es un método para identificar un pequeño número de características importantes para generar una salida específica
- Se espera una estructura similar a los pocos conceptos que una persona mantiene en mente al razonar sobre una situación
- Incluso sin recompensar directamente la interpretabilidad, las características muestran patrones de activación dispersos que encajan de forma natural con conceptos fáciles de entender para las personas
Como los grandes modelos de lenguaje representan una enorme cantidad de conceptos, para cubrir suficientemente los conceptos de un modelo de frontera los autoencoders también deben ser muy grandes

Características a gran escala encontradas en GPT‑4

OpenAI desarrolló una metodología que permite escalar autoencoders dispersos en modelos de IA de frontera hasta una escala de decenas de millones de características
Esta metodología muestra mejores retornos de escalado que las técnicas existentes y tiene propiedades de escalado suaves y predecibles
También introdujo varias métricas nuevas para evaluar la calidad de las características
Con esta receta, entrenaron distintos autoencoders sobre activaciones de GPT‑2 small y GPT‑4
- Para GPT‑4 entrenaron un autoencoder de 16 millones de características
La interpretabilidad de las características se verificó visualizando documentos en los que se activa una característica específica
- Los ejemplos incluyen características relacionadas con defectos humanos, aumentos de precios, X e Y, registros de entrenamiento, preguntas retóricas, anillos algebraicos y dopamina
- En GPT‑4 también se identificó una característica relacionada con “expresiones de que las cosas, especialmente los humanos, son flawed”
Se pueden explorar más características en la herramienta de visualización de características

Limitaciones que aún quedan

Aunque se espera que la interpretabilidad pueda aumentar la confiabilidad y la capacidad de direccionamiento de los modelos, el trabajo actual sigue en una etapa inicial
Muchas de las características descubiertas siguen siendo difíciles de interpretar
- A veces se activan sin un patrón claro
- A veces aparecen activaciones falsas no relacionadas con el concepto que normalmente parecen codificar
- Todavía no hay una buena forma de comprobar la validez de las interpretaciones
Los autoencoders dispersos no capturan todo el comportamiento del modelo original
- Al pasar las activaciones de GPT‑4 por un autoencoder disperso, se obtiene un rendimiento equivalente al de un modelo entrenado con aproximadamente 10 veces menos cómputo de entrenamiento
- Para mapear por completo los conceptos de un LLM de frontera, podría ser necesario escalar hasta miles de millones o billones de características
- Incluso con técnicas de escalado mejoradas, esa escala sigue siendo un desafío
Un autoencoder disperso puede encontrar características en un punto dentro del modelo, pero eso es solo un paso hacia la interpretación del modelo completo
- Cómo calcula el modelo esa característica
- Cómo se usa esa característica en partes posteriores del modelo
- Para entender ambas cuestiones se necesita mucho más trabajo

Materiales publicados y próximos pasos

OpenAI publicó un paper con los experimentos y métodos
Proporciona el conjunto completo de autoencoders para GPT‑2 small y el código para usarlos
También publicó una herramienta de visualización de características para explorar a qué podrían corresponder las características de GPT‑2 y GPT‑4
A corto plazo, planea probar en modelos de frontera si las características encontradas son prácticamente útiles para el monitoreo y direccionamiento del comportamiento de los modelos de lenguaje
A largo plazo, el objetivo es que la interpretabilidad ofrezca una nueva forma de razonar sobre la seguridad y la robustez de los modelos, y que aumente mucho la confianza mediante garantías sobre el comportamiento de modelos de IA potentes

1 comentarios

GN⁺ 2024-06-07

Opiniones de Hacker News

Uno de los primeros ejemplos es GPT-4 feature: ends of phrases related to price increases, pero 2 de las 5 respuestas no parecen tener nada que ver con aumentos de precios.
Por ejemplo, incluye una oración sobre una caída en el precio del petróleo crudo y una oración de una factura de lavandería donde se menciona el precio de un contrato.
Siento que estoy entendiendo algo mal, pero me pregunto por qué eligieron justo estos ejemplos cuando seguramente había muchos posibles.
- Hay que fijarse en que la mayoría de los ejemplos no tienen contador resaltado en verde.
  El resaltado verde aparece en frases como small losses. KEEPING SCORE: The Dow Jones industrial average rose..., y el resto de las oraciones parece estar ahí para contrastar qué tan específico es el patrón al que responde esta neurona.
Es realmente genial y se siente como un avance hacia esa búsqueda semántica profunda que estaba esperando.
Me gustan los ejemplos de filtrar documentos por el concepto de “aumento de precios” o de buscarlos por conceptos de más alto nivel como “pregunta retórica”.
Me pregunto cómo se compararía con entrenar o ajustar finamente un modelo con ejemplos de preguntas retóricas para que las encuentre en documentos.
Como en vez de ingresar un prompt y generar una respuesta solo se observan las activaciones de la red neuronal, podría ser más rápido o más preciso.
- Exa está intentando algo así.
  He encontrado algunos resultados interesantes con este enfoque, pero todavía no siento que sea lo suficientemente bueno.
  https://exa.ai/search?c=all
Es interesante y me recuerda a un trabajo similar que Anthropic hizo con Claude 3 Sonnet.
[0] https://transformer-circuits.pub/2024/scaling-monosemanticit...
- La página web parece insinuar con bastante fuerza que OpenAI inventó los autoencoders dispersos para este proyecto.
  Es bastante extraño que no lo citen en la página web y dejen las referencias enterradas dentro del paper.
- El método es el mismo; se parece más a que OpenAI aplicó la investigación de Anthropic a sus propios modelos.
- Se decía que entrenar esto requirió recursos de cómputo de un nivel casi similar al de entrenar el modelo original.
Es interesante que estos resultados salgan menos de 3 semanas después de “Mapping the Mind of a Large Language Model” de Anthropic.
Estos intentos son realmente prometedores y, aunque todavía se oye a menudo que “no sabemos en absoluto cómo funcionan los LLM o el deep learning”, al ver investigaciones como esta, eso parece más bien una generalización excesiva.
Me pregunto si lo publicaron con cierta prisa en respuesta al anuncio de Anthropic y a la salida de Jan Leike de OpenAI.
El enlace al paper tampoco lleva a Arxiv y la profundidad del análisis parece mucho menor, aunque podría no tener relación.
- En el propio artículo se repiten frases como “actualmente no sabemos cómo interpretar la actividad neuronal dentro de los modelos de lenguaje”, “a diferencia de la mayoría de las creaciones humanas, no entendemos bien el funcionamiento interno de las redes neuronales” y “la red no se entiende bien y no puede descomponerse fácilmente en partes identificables”.
  La razón por la que la gente dice que actualmente no sabemos por qué los modelos producen esas salidas es que, como el artículo lo dice claramente, en realidad todavía no lo sabemos.
- Ya tenían planeado publicar el paper en estas fechas, independientemente de los otros acontecimientos mencionados.
  Creo que sigue siendo, en general, correcto decir que todavía sabemos muy poco sobre cómo funcionan los LLM.
  Los autoencoders dispersos quizá algún día cambien eso, pero todavía falta mucho camino.
- Creo que este tipo de investigación más bien refuerza que nuestra comprensión del funcionamiento interno todavía es muy limitada.
  El post del blog también repite que este trabajo está en una etapa inicial y tiene muchas limitaciones.
- Me da flojera buscar la fuente, pero en Twitter alguien encontró que el primer commit fue hace 6 meses.
  Probablemente todos estaban inmersos en el mismo ambiente de San Francisco, y esta tendencia ya se había extendido por toda la industria.
- El hecho de que el título del paper insinúe que los LLM tienen mente no me parece una señal muy buena por parte de los autores.
  También sigue habiendo palabras vacías sobre “seguridad”.
  Sería bueno que mostraran el trabajo de una forma reproducible, pero como publicidad no está mal.
En otro ejemplo, parece que clasificaron como contenido sexual un documento que parecía una explicación científica sobre anatomía reproductiva.
El enlace al concepto está aquí [advertencia de contenido]: https://openaipublic.blob.core.windows.net/sparse-autoencode...
DocID: 191632
Me pregunto en qué se diferencia o mejora este enfoque frente a aplicar algo como SHAP[0][1] a un modelo.
La frase inicial, “actualmente no sabemos cómo interpretar la actividad neuronal dentro de los modelos de lenguaje”, me parece simplemente incorrecta.
[0] https://github.com/shap/shap
[1] https://en.wikipedia.org/wiki/Shapley_value#In_machine_learn...
- Creo que SHAP es algo bastante distinto.
  El análisis de Shapley es, en esencia, una metodología de teoría de juegos y es agnóstico al modelo; solo analiza cuánto contribuye cada parte individual de la entrada a una predicción específica, no cómo funciona internamente el modelo para producir la salida.
  Si tienes una caja negra invocable, puedes calcular valores de Shapley o aproximaciones, pero eso no explica cómo ni por qué el modelo funciona internamente.
¿Alguien puede explicar fácilmente por qué esto es importante? No hace falta que sea a nivel de un niño de 5 años, pero me interesa en términos básicos.
- En la IA basada en LLM hay muchas “características”, y estas se parecen en cierto grado a “conceptos”.
  Por ejemplo, pueden abarcar desde el concepto del apóstrofo dentro de la palabra don't hasta el patrón de que, en el contexto de la historia temprana de Estados Unidos, después de "George Wash" normalmente viene "ington".
  Dentro de la red neuronal de un LLM, estas cosas se mapean a rutas parecidas a circuitos de software.
  Como no entendemos bien cómo se generan estas características dentro del LLM, qué circuitos se activan al producir una salida ni por qué sigue esos circuitos, es difícil depurar esta parte y también mejorar el modelo.
  Si los LLM/IA avanzan lo suficiente, vamos a querer identificar si nos engañan intencionalmente, pero hoy no podemos hacerlo.
  Por eso, el campo que intenta entender qué ocurre realmente dentro de la red neuronal durante el proceso de crear y producir conceptos se llama interpretabilidad.
  OpenAI, DeepMind y Anthropic han encontrado formas de mirar dentro de los circuitos internos de los LLM y revelar algunas características.
  Después de hacerle una pregunta al modelo, observan qué partes de los circuitos internos se “encienden” y, como paso de verificación, eliminan circuitos para confirmar si esa característica se usa menos en la respuesta.
  Los gráficos y las palabras resaltadas son representaciones visuales de conceptos en los que se puede tener bastante confianza.
  Por ejemplo, el concepto de “AND” que conecta dos partes de una oración resalta la palabra “AND”.
  Si te interesa la interpretabilidad, creo que Neel Nanda es la mejor fuente.
  Dicho eso, su enfoque es distinto de la metodología de OpenAI tratada en este artículo: https://www.neelnanda.io/mechanistic-interpretability
- Los conceptos de alto nivel almacenados dentro de modelos grandes, como los modelos de difusión o los transformers, normalmente son difíciles de separar entre sí, y el modelo es casi una caja negra.
  Se está investigando mucho para mirar qué sabe el modelo, y esto es otro avance en esa dirección.
  Permite separar los conceptos con más facilidad.
  Con esto se abre la posibilidad de analizar el conocimiento dentro del modelo y de agregar, eliminar o cambiar la importancia de conceptos específicos afectando menos a conceptos no relacionados.
  Aun así, la precisión que puede lograrse con esta técnica en particular siempre es cuestionable, y algunos conceptos están tan cerca entre sí que son difíciles de separar, así que no será perfecta.
- Según la propia respuesta de ChatGPT, este artículo trata sobre cómo los investigadores usan autoencoders dispersos para identificar e interpretar características clave dentro de modelos de lenguaje complejos como GPT-4, haciendo que su funcionamiento interno sea más comprensible.
  Estos avances ayudan a mejorar la seguridad y confiabilidad de la IA al dividir el proceso de toma de decisiones del modelo en partes más simples e interpretables por humanos.
- En general, es una réplica del trabajo que hizo Anthropic, así que no hay nada fundamentalmente nuevo.
  Lo que hicieron aquí fue encontrar patrones dentro de GPT-4 que corresponden a ciertos conceptos identificables.
  Este trabajo parece haber sido realizado por el equipo de seguridad de OpenAI, en gran parte desmantelado, y también aparecen los nombres de los colíderes que se fueron recientemente, Ilya y Jan Leike.
  Nominalmente, el objetivo es la seguridad: permitir reforzar o suprimir la activación de ciertos conceptos durante la ejecución del modelo.
  Un ejemplo es la demostración de Anthropic en la que hizo que el modelo se obsesionara con el Golden Gate Bridge: https://www.anthropic.com/news/golden-gate-claude
  Este tipo de trabajo parece tener posibles usos funcionales no solo para seguridad, sino también porque permite controlar el modelo de ciertas maneras.
¿Esto significa que podría convertirse en una buena práctica publicar junto con una red neuronal un autoencoder entrenado sobre ella para explicar sus salidas?
Sería útil que todos los modelos públicos de Hugging Face tuvieran un accesorio de este tipo.
- Ese encoder probablemente estaría vinculado a un modelo específico.
¿Esto es como una fMRI para redes neuronales?
Sería como poder ver qué áreas se encienden según el tema.
También me pregunto si se podría agregar una red neuronal evaluadora que evalúe automáticamente las áreas activadas.
Parece posible, igual que cuando una IA reconstruyó lo que un paciente estaba viendo solo a partir de escaneos fMRI.
Una de las funciones que se esperan de este tipo de investigación es identificar hotspots usados durante la inferencia.
Como en una máquina virtual, quizá estas partes podrían cachearse total o parcialmente para reducir el tiempo de respuesta y también los ciclos de cómputo necesarios.

Extracción de conceptos de GPT-4

Por qué es difícil interpretar el interior de las redes neuronales

Enfoque con autoencoders dispersos

Características a gran escala encontradas en GPT‑4

Limitaciones que aún quedan

Materiales publicados y próximos pasos

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News