Descomponiendo los modelos de lenguaje en componentes comprensibles

(anthropic.com)

1 puntos por GN⁺ 2023-10-09 | 1 comentarios | Compartir por WhatsApp

Anthropic aborda una forma de dividir el interior de una red neuronal en unidades comprensibles al encontrar features más fáciles de interpretar que las neuronas individuales en modelos de lenguaje Transformer pequeños
Una sola neurona puede activarse a la vez en contextos no relacionados, como citas académicas, conversación en inglés, solicitudes HTTP o texto en coreano, por lo que es difícil vincularla de forma estable con el comportamiento del modelo
La investigación descompone una capa de 512 neuronas en más de 4,000 features, revelando por separado propiedades como secuencias de ADN, estilo legal, solicitudes HTTP, texto en hebreo y tablas de información nutricional
En evaluaciones humanas a ciegas y en métricas de interpretabilidad automática basadas en LLM, las features resultaron más fáciles de interpretar que las neuronas, y al activar artificialmente una feature específica, el comportamiento del modelo también cambió de forma predecible
Si las features aprendidas son en general universales incluso entre distintos modelos, ampliar este enfoque a frontier models más grandes se vuelve un reto más cercano a la ingeniería que a la ciencia

Por qué es difícil interpretar una red neuronal

Las redes neuronales no se programan con reglas escritas directamente por personas, sino que aprenden a partir de datos, y durante el entrenamiento se actualizan entre millones y decenas de miles de millones de parámetros
Es posible seguir el cálculo matemático de una red ya entrenada
- Cada neurona realiza operaciones aritméticas simples
- Pero no está claro por qué esas operaciones producen el comportamiento observado
Esta opacidad dificulta diagnosticar modos de fallo, encontrar cómo corregirlos y certificar la seguridad del modelo

Las neuronas individuales no son una unidad de interpretación estable

La neurociencia también enfrenta un problema similar al intentar entender la base biológica del comportamiento humano, pero en redes neuronales artificiales es mucho más fácil hacer experimentos
- Se puede registrar al mismo tiempo la activación de todas las neuronas
- Es posible intervenir para silenciar o estimular neuronas
- Se puede probar la respuesta de la red ante posibles entradas
Sin embargo, las neuronas individuales no tienen una relación consistente con el comportamiento de la red
- Una neurona individual de un modelo de lenguaje pequeño se activa en múltiples contextos no relacionados, como citas académicas, conversación en inglés, solicitudes HTTP y texto en coreano
- Una neurona individual de un modelo clásico de visión responde tanto a caras de gato como al frente de un automóvil
Incluso la misma activación neuronal puede tener significados distintos según el contexto

Un enfoque para descomponer el modelo en features

El artículo Towards Monosemanticity: Decomposing Language Models With Dictionary Learning plantea que existe una mejor unidad de análisis que las neuronas individuales
Esa unidad, llamada feature, corresponde a un patrón de activaciones neuronales, es decir, una combinación lineal
Anthropic construyó un mecanismo para encontrar estas features en un modelo Transformer pequeño
Este enfoque abre una vía para dividir redes neuronales complejas en partes comprensibles y se apoya en trabajos previos de neurociencia, machine learning y estadística orientados a interpretar sistemas de alta dimensión

Descomponer 512 neuronas en más de 4,000 features

En un modelo de lenguaje Transformer, una capa con 512 neuronas se descompuso en más de 4,000 features
Las features descompuestas representan por separado propiedades distintas
- secuencias de ADN
- lenguaje legal
- solicitudes HTTP
- texto en hebreo
- tablas de información nutricional
La mayoría de estas propiedades del modelo no se hacen visibles al observar solo las activaciones de neuronas individuales

Verificación de interpretabilidad

Evaluadores humanos a ciegas puntuaron la interpretabilidad de features y neuronas
- Las features obtuvieron puntuaciones mucho más altas que las neuronas
También se usó una evaluación de interpretabilidad automática con LLM
- Un modelo de lenguaje grande genera una breve explicación sobre una feature de un modelo pequeño
- Otro modelo puntúa qué tan bien puede predecir la activación de esa feature usando solo esa explicación
- También en esta evaluación las features obtuvieron mejores resultados que las neuronas
En consecuencia, aumenta la evidencia de que la activación de las features y sus efectos posteriores sobre el comportamiento del modelo pueden interpretarse de forma consistente

Control del modelo usando features

Las features también ofrecen una forma de dirigir el modelo de manera específica
Si se activa artificialmente una feature concreta, el comportamiento del modelo cambia de manera predecible
Por lo tanto, las features no son solo una unidad de observación, sino que pueden tratarse como componentes internos que influyen en el comportamiento del modelo

Universalidad y ajuste de resolución

Las features aprendidas son en general universales entre distintos modelos
- Lo aprendido al estudiar las features de un modelo puede generalizarse a otros modelos
Ajustar la cantidad de features que se aprenden permite cambiar la resolución con la que se observa el modelo
- Una descomposición con un conjunto pequeño de features ofrece una vista gruesa y fácil de entender
- Una descomposición con un conjunto grande de features revela propiedades más sutiles desde una perspectiva más fina
La explicación relacionada se conecta con experimentos de cambio de resolución

Seguridad en IA y el siguiente reto

Este trabajo es resultado de la inversión de Anthropic en investigación de interpretabilidad mecanicista, una de sus líneas de investigación a largo plazo para la seguridad en IA
Que las neuronas individuales no sean interpretables había sido un gran obstáculo para comprender mecánicamente los modelos de lenguaje
Descomponer grupos de neuronas en features interpretables podría permitir superar ese obstáculo
A largo plazo, esto podría conectarse con la posibilidad de monitorear y dirigir el comportamiento del modelo desde su interior, elevando la seguridad y confiabilidad necesarias para su adopción empresarial y social
El siguiente reto es ampliar a frontier models mucho más grandes y complejos el método que funcionó en modelos pequeños
- Consideran que el siguiente gran obstáculo para interpretar modelos de lenguaje grandes es, por primera vez, más un problema de ingeniería que de ciencia
Más detalles están disponibles en Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

1 comentarios

GN⁺ 2023-10-09

Comentarios de Hacker News

Me encontré con un artículo útil que lo compara con otro paper muy reciente, y parece respaldar en la práctica algunos de los hallazgos clave. Probablemente sea una comparación escrita por el autor de ese otro paper: https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
Justo estaba haciendo casi exactamente esto como proyecto paralelo. Empezó por pura curiosidad y, aunque no es exactamente lo mismo, estoy refinando un algoritmo que toma varias salidas cuidadosamente calibradas de un LLM específico e infiere el conjunto de parámetros que probablemente haya detrás
Esperaba que aparecieran agrupaciones de parámetros parecidas a las observadas. Informalmente llamo a este problema “ingeniería inversa de LLM”, y por supuesto no es fácil de resolver. Aun así, no es completamente imposible, y hasta ahora encontré aproximaciones bastante buenas
También es interesante la hipótesis hacia el final del manuscrito enlazado: “algunas características podrían ser en realidad variedades de características de alta dimensión, y el dictionary learning podría estar aproximándolas”. En el sentido de que hay algo que se comporta como un espacio continuo y suave, así que uno puede definir variedades según haga falta, me parece correcto. Dejando de lado el rigor, creo que eso es efectivamente lo que está ocurriendo y que es el marco adecuado para abordar el problema
La revelación sorprendente que se puede obtener aquí es cuál es la contraparte conceptual de las funciones de transición que conectan distintas variedades dentro de este espacio de LLM. Al verla, te va a explotar la cabeza no porque sea compleja, sino porque es excepcionalmente simple
- ¿Podrías explicar con más detalle qué quieres decir exactamente con “función de transición” aquí?
- Me da curiosidad con qué enfoque empezaste esto. También quiero aprender más sobre cómo funcionan los LLM
- ¿Lo dices en el sentido de que es jerárquico? ¿O estoy entendiendo todo mal?
Esto parece un gran avance en la investigación de alineación. Hasta ahora, el gran problema era que los LLM eran masas de números difíciles de interpretar, y sabíamos muy poco de lo que pasaba por dentro
Si esta técnica escala a modelos más grandes, Anthropic habrá corregido bastante ese problema. Se puede averiguar qué hacen realmente distintos grupos de neuronas y usar eso para controlar el comportamiento de los LLM. Podría ayudar a evitar una IA desalineada de forma accidental
- A mí me suena más como una buena pista para la poda
- Me habría gustado que explicaran más la parte de “las características aprendidas son en gran medida universales entre distintos modelos, de modo que las lecciones obtenidas al estudiar las características de un modelo pueden generalizarse a otros”
  ¿Significa que encontraron los mismos detectores de características al entrenar con los mismos datos? ¿O significa otra cosa? Claramente dice algo, pero no queda claro exactamente qué
Me pregunto qué pasaría si se pusieran componentes programados manualmente dentro de una red neuronal. Componentes simples como detectar secuencias de ADN parecerían posibles de insertar configurando los pesos directamente
Del mismo modo, se le podrían dar componentes matemáticos a una red neuronal. Durante el entrenamiento, ¿la red descubriría y aprovecharía esos componentes predefinidos, o los ignoraría y crearía su propia manera de detectar secuencias de ADN?
- Si quieres investigar más, la historia y el uso de esta idea se llama ingeniería de características
  La tokenización también es una forma de esto. Porque transforma los datos de antemano para que el modelo no tenga que aprender por sí solo patrones que sabemos que son importantes
- Se puede programar manualmente un Transformer: https://srush.github.io/raspy/
  Aunque no sé si eso se puede integrar dentro de un modelo. Como estas cosas no son polisémicas, ocupan mucho más “espacio” que las neuronas aprendidas, así que creo que al final podría faltar espacio
- También podría verse como agregar una transformación especulativa de la entrada como parte de la entrada de alguna capa y dejar que la red decida si usar esa transformación o no. Es parecido a las capas convolucionales de una CNN, pero mucho más específico de un dominio
  Aunque no sé cuánta investigación hay sobre este tipo de capas raras
- En algunos casos de uso donde la precisión es muy importante, también se podría optar por código escrito a mano para los cálculos. Así se puede confiar en la eficiencia de un método creado por humanos en vez de delegar una tarea específica a un LLM
  Pero todavía no está claro si esto se integraría directamente en la red o si sería una herramienta que el LLM puede usar. Curiosamente, esto se parece a la elección entre potenciar el cerebro humano con algo como Neuralink o simplemente darle una calculadora
Espero que este tipo de investigación lleve a crear modelos mucho más pequeños y eficientes, pero también ajustables con precisión y steerable
Si se puede ver qué hace cada parte, en teoría se podría encontrar una forma de construir solo el conjunto de características deseado. O quizá ajustar características con capacidad redundante
Al estudiar las características, tal vez se llegue al punto de poder destilar el conocimiento en algo cercano a un grafo de conocimiento muy rico y finamente definido
- Anthropic probablemente esté haciendo equilibrismo multidimensional. Quiere seguridad en IA, y probablemente también quiera evitar que cualquiera tenga modelos potentes
  Pero si sus resultados de investigación son absorbidos por Meta o por varios grupos de Discord, los LLM peludos de hoy se convierten en competidores potentes y todo el mundo obtiene acceso a ese poder. No tengo una convicción fuerte sobre qué es mejor, pero me inclino un poco hacia los modelos abiertos
  Después de todo, a la gente común como nosotros ya se nos permite usar computadoras, CPUs modernas e internet. Pasan cosas malas como fraudes, e incluso cosas peores, pero creo que es mejor que limitar lo que la gente puede hacer
Un solo modelo gigante no es la forma en que funciona el cerebro. Tampoco es la forma en que funciona un organigrama
El hecho de que los LLM muestren esta capacidad con la densidad computacional actual me parece una señal fuerte de que la tarea de crear trabajadores del conocimiento productivos ya entró en una zona de potencial excedente
La pieza faltante no es el avance de los LLM, sino la gestión de LLM. Lo central es hacer que un organigrama de LLM internamente adversarial me reporte y construir confianza dentro de él
- La forma en que funcionan estos sistemas se siente tremendamente ineficiente
  No reevaluamos un modelo de astrofísica cada vez que leemos un libro de cocina
Me pregunto qué tan polisémica es cada neurona del cerebro humano. Lo que realmente querríamos, y quizá lo que tiene el cerebro humano, parece ser una red neuronal monosemántica de alta información: una red basada en características, conceptos y patrones macro
Incluso si hay neuronas polisémicas, probablemente compartan información similar o igual dentro de la característica a la que pertenecen, logrando eficiencia espacial y computacional. En cambio, en estos modelos Transformer, parece que se superponen un millón de cerebros humanos sobre la misma red y de algún modo se promedian todas las características del conjunto de entrenamiento para convertirlas en neuronas únicas. Naturalmente, eso produce un “cerebro” mucho más grande
El paper dice que las neuronas monosemánticas dentro de la red no funcionan bien, pero mi intuición es que quizá son demasiado “de alta precisión” y no codifican suficiente información a nivel de característica. Las características son de baja dimensión, y las neuronas monosemánticas de alta dimensión podrían codificar muy poca información. Dicho esto, pienso esto con poco conocimiento sobre el cerebro humano, así que podría haber muchas más similitudes que desconozco
Esto me parece realmente genial. Parece que todos los LLM convergen alrededor de estas características comunes
Como no experto, entiendo que un modelo entrenado describe las transiciones de un símbolo al siguiente como probabilidades entre nodos. Ese grafo tiene estructura. Si no tuviera estructura, entrenarlo sería imposible desde el principio
Pero esa estructura es como una hoja de papel donde las definiciones de cada nodo están pintadas una sobre otra con tintas de distintos colores. Este trabajo y los papers padre y hermanos mencionados en el artículo de LessWrong parecen estar separando componentes de grafos de distintos colores dentro de esa sopa de números de punto flotante

Descomponiendo los modelos de lenguaje en componentes comprensibles

Por qué es difícil interpretar una red neuronal

Las neuronas individuales no son una unidad de interpretación estable

Un enfoque para descomponer el modelo en features

Descomponer 512 neuronas en más de 4,000 features

Verificación de interpretabilidad

Control del modelo usando features

Universalidad y ajuste de resolución

Seguridad en IA y el siguiente reto

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News