36 puntos por xguru 2024-05-22 | 2 comentarios | Compartir por WhatsApp
  • Gran avance en la comprensión del funcionamiento interno de los modelos de IA
    • Confirmaron cómo se representan millones de conceptos dentro del LLM Claude Sonnet.
    • Este es el primer caso de una inspección detallada del interior de un LLM moderno de nivel de producción.
    • Estos hallazgos sobre interpretabilidad podrían ayudar a hacer que los modelos de IA sean más seguros en el futuro.
  • Enfoque de caja negra y problema de confianza
    • Los modelos de IA suelen tratarse con un enfoque de caja negra, observando solo entradas y salidas.
    • Es difícil entender por qué el modelo da una respuesta específica.
    • Esto hace difícil confiar en que el modelo no entregue respuestas dañinas, sesgadas, falsas o peligrosas.
  • Dificultad para entender el estado interno del modelo
    • El estado interno del modelo está compuesto por números sin un significado claro.
    • Cada concepto se representa a través de muchas neuronas, y cada neurona representa varios conceptos.
  • Avances con dictionary learning
    • Antes ya habían logrado avances al relacionar patrones de activación neuronal (features) con conceptos comprensibles para humanos.
    • Usando la técnica de dictionary learning, lograron representar el estado interno del modelo con unas pocas features activadas en lugar de muchas neuronas activadas.
  • Éxito en modelos de lenguaje pequeños
    • En octubre de 2023, aplicaron con éxito dictionary learning a un modelo de lenguaje muy pequeño.
    • Identificaron conceptos como texto en mayúsculas, secuencias de ADN y género en citas, entre otros.
  • Escalado a modelos grandes
    • Al extender la técnica a modelos de lenguaje grandes, pudieron encontrar features más complejas.
    • Existía el riesgo científico de que los modelos grandes funcionaran de forma distinta a los pequeños.
    • Por suerte, la experiencia entrenando modelos de lenguaje grandes ayudó en este experimento.
  • Features dentro de Claude 3.0 Sonnet
    • Extrajeron con éxito millones de features de las capas intermedias de Claude 3.0 Sonnet.
    • Estas features corresponden a conceptos diversos como ciudades, personas, elementos, disciplinas académicas y sintaxis de programación.
  • Features abstractas
    • Claude también responde a features más abstractas, como bugs en código, sesgo de género en profesiones o discusiones sobre guardar secretos.
  • Medición de distancia entre features
    • Al medir la "distancia" entre features, pudieron encontrar features similares.
    • Por ejemplo, cerca de la feature "Golden Gate Bridge" encontraron features relacionadas con Alcatraz Island y Ghirardelli Square.
  • Experimentos de manipulación de features
    • Pudieron cambiar las respuestas de Claude amplificando o suprimiendo features específicas.
    • Por ejemplo, al amplificar la feature "Golden Gate Bridge", Claude pasó a reconocer su forma física como el puente Golden Gate.
  • Seguridad y manipulación de features
    • Exploraron la posibilidad de identificar y mejorar features relacionadas con la seguridad manipulando el funcionamiento de Claude.
    • Claude fue entrenado para no generar correos de fraude, pero al activar ciertas features pudo redactarlos.
  • Direcciones futuras de investigación
    • Planean usar estos hallazgos para mejorar la seguridad de los modelos.
    • Esto podría usarse para monitorear conductas peligrosas en sistemas de IA, guiarlos hacia resultados deseados o eliminar temas riesgosos.
    • Estas técnicas podrían reforzar otras tecnologías de seguridad, como Constitutional AI.
  • Retos a futuro
    • Con la tecnología actual, encontrar todos los conceptos que aprendió el modelo sigue siendo costoso.
    • También es importante entender cómo el modelo usa estas features.
    • Falta demostrar que las features relacionadas con seguridad realmente pueden usarse para mejorarla.
  • Oportunidad de participar en la investigación
    • Están buscando científicos de investigación, ingenieros de investigación y otros perfiles para trabajar en la interpretación y mejora de modelos de IA.
    • Para más detalles, consultar el paper "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
  • Esta investigación representa un avance importante para mejorar la interpretabilidad y reforzar la seguridad de los modelos de IA. Aun así, todavía se necesita más investigación.

2 comentarios

 
2147483647 2024-05-24

La diferencia con el cerebro sería que aquí sí se puede saber con certeza qué perceptrón se activa.

 
andandend 2024-05-22

Parece que entender una caja negra difícil de comprender sería algo parecido a estudiar el cerebro.
Más bien, desde la perspectiva de que es más fácil tomar instantáneas, me da la impresión de que incluso podría tener mayor interpretabilidad que el cerebro.