• OpenAI está intentando comprender la actividad neuronal dentro de los modelos de lenguaje al introducir un nuevo método escalable para descomponer las representaciones internas de GPT-4 en 16 millones de patrones interpretables.
• Las redes neuronales son difíciles de interpretar porque no fueron diseñadas directamente y carecen de partes identificables, lo que dificulta razonar sobre la seguridad de la IA.
• Usan autoencoders dispersos para identificar "características" relevantes en la red neuronal, que representan conceptos más fáciles de entender para los humanos.
• El equipo de investigación desarrolló una metodología avanzada para escalar los autoencoders dispersos a decenas de millones de características en modelos de IA de última generación, demostrando un escalado fluido y predecible.
• Muestran la interpretabilidad de las características mediante visualizaciones que enseñan la activación de documentos para características específicas.
• Ejemplos de características interpretables incluyen frases relacionadas con defectos humanos, tendencias de aumento de precios, frases con la forma "X y Y", registros de entrenamiento de machine learning, preguntas retóricas o exaltadas, anillos algebraicos y receptores de adenosina y dopamina.
• Aunque el equipo está entusiasmado por el potencial de la interpretabilidad para mejorar la confiabilidad y la capacidad de alineación de los modelos, también reconoce limitaciones, como la dificultad para interpretar muchas de las características descubiertas y la necesidad de mejores métodos de validación.
2 comentarios
https://github.com/openai/sparse_autoencoder
https://openaipublic.blob.core.windows.net/sparse-autoencoder/…