- Gran avance en la comprensión del funcionamiento interno de los modelos de IA
- Confirmaron cómo se representan millones de conceptos dentro del LLM Claude Sonnet.
- Este es el primer caso de una inspección detallada del interior de un LLM moderno de nivel de producción.
- Estos hallazgos sobre interpretabilidad podrían ayudar a hacer que los modelos de IA sean más seguros en el futuro.
- Enfoque de caja negra y problema de confianza
- Los modelos de IA suelen tratarse con un enfoque de caja negra, observando solo entradas y salidas.
- Es difícil entender por qué el modelo da una respuesta específica.
- Esto hace difícil confiar en que el modelo no entregue respuestas dañinas, sesgadas, falsas o peligrosas.
- Dificultad para entender el estado interno del modelo
- El estado interno del modelo está compuesto por números sin un significado claro.
- Cada concepto se representa a través de muchas neuronas, y cada neurona representa varios conceptos.
- Avances con dictionary learning
- Antes ya habían logrado avances al relacionar patrones de activación neuronal (features) con conceptos comprensibles para humanos.
- Usando la técnica de
dictionary learning, lograron representar el estado interno del modelo con unas pocas features activadas en lugar de muchas neuronas activadas.
- Éxito en modelos de lenguaje pequeños
- En octubre de 2023, aplicaron con éxito
dictionary learning a un modelo de lenguaje muy pequeño.
- Identificaron conceptos como texto en mayúsculas, secuencias de ADN y género en citas, entre otros.
- Escalado a modelos grandes
- Al extender la técnica a modelos de lenguaje grandes, pudieron encontrar features más complejas.
- Existía el riesgo científico de que los modelos grandes funcionaran de forma distinta a los pequeños.
- Por suerte, la experiencia entrenando modelos de lenguaje grandes ayudó en este experimento.
- Features dentro de Claude 3.0 Sonnet
- Extrajeron con éxito millones de features de las capas intermedias de Claude 3.0 Sonnet.
- Estas features corresponden a conceptos diversos como ciudades, personas, elementos, disciplinas académicas y sintaxis de programación.
- Features abstractas
- Claude también responde a features más abstractas, como bugs en código, sesgo de género en profesiones o discusiones sobre guardar secretos.
- Medición de distancia entre features
- Al medir la "distancia" entre features, pudieron encontrar features similares.
- Por ejemplo, cerca de la feature "Golden Gate Bridge" encontraron features relacionadas con Alcatraz Island y Ghirardelli Square.
- Experimentos de manipulación de features
- Pudieron cambiar las respuestas de Claude amplificando o suprimiendo features específicas.
- Por ejemplo, al amplificar la feature "Golden Gate Bridge", Claude pasó a reconocer su forma física como el puente Golden Gate.
- Seguridad y manipulación de features
- Exploraron la posibilidad de identificar y mejorar features relacionadas con la seguridad manipulando el funcionamiento de Claude.
- Claude fue entrenado para no generar correos de fraude, pero al activar ciertas features pudo redactarlos.
- Direcciones futuras de investigación
- Planean usar estos hallazgos para mejorar la seguridad de los modelos.
- Esto podría usarse para monitorear conductas peligrosas en sistemas de IA, guiarlos hacia resultados deseados o eliminar temas riesgosos.
- Estas técnicas podrían reforzar otras tecnologías de seguridad, como Constitutional AI.
- Retos a futuro
- Con la tecnología actual, encontrar todos los conceptos que aprendió el modelo sigue siendo costoso.
- También es importante entender cómo el modelo usa estas features.
- Falta demostrar que las features relacionadas con seguridad realmente pueden usarse para mejorarla.
- Oportunidad de participar en la investigación
- Están buscando científicos de investigación, ingenieros de investigación y otros perfiles para trabajar en la interpretación y mejora de modelos de IA.
- Para más detalles, consultar el paper "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
- Esta investigación representa un avance importante para mejorar la interpretabilidad y reforzar la seguridad de los modelos de IA. Aun así, todavía se necesita más investigación.
2 comentarios
La diferencia con el cerebro sería que aquí sí se puede saber con certeza qué perceptrón se activa.
Parece que entender una caja negra difícil de comprender sería algo parecido a estudiar el cerebro.
Más bien, desde la perspectiva de que es más fácil tomar instantáneas, me da la impresión de que incluso podría tener mayor interpretabilidad que el cerebro.