1 puntos por GN⁺ 2023-10-09 | Aún no hay comentarios. | Compartir por WhatsApp
  • Este artículo analiza la complejidad de entrenar sobre datos y de entender redes neuronales en lugar de reglas, lo que lleva a actualizar millones o incluso miles de millones de parámetros.
  • El desafío es comprender por qué las operaciones matemáticas de cada neurona producen el comportamiento observado, lo que dificulta diagnosticar y corregir modos de fallo, así como certificar la seguridad del modelo.
  • El artículo traza paralelos entre comprender las redes neuronales artificiales y comprender las bases biológicas del comportamiento humano.
  • Los autores señalan que las neuronas individuales no tienen una relación consistente con el comportamiento de la red, y que una sola neurona se activa en muchos contextos no relacionados.
  • El artículo "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning" propone que existe una mejor unidad de análisis que las neuronas individuales, a la que llama características, y que corresponde a patrones de activación neuronal.
  • Los autores descomponen una capa compuesta por 512 neuronas en más de 4000 características que representan cosas tan diversas como secuencias de ADN, lenguaje legal, solicitudes HTTP, texto en hebreo y declaraciones nutricionales.
  • Se encontró que estas características son mucho más interpretables que las neuronas del modelo, según evaluaciones humanas a ciegas.
  • Los autores también usan un enfoque de "interpretación automática", en el que un modelo de lenguaje grande genera descripciones breves de las características de un modelo más pequeño, y estas obtienen puntajes más altos que las neuronas.
  • Las características ofrecen una forma orientada a objetivos de ajustar el modelo, y las activaciones artificiales provocan cambios predecibles en el comportamiento del modelo.
  • Las características aprendidas son en gran medida universales entre distintos modelos, lo que sugiere que las lecciones obtenidas al estudiar características en un modelo pueden generalizarse a otros.
  • Los autores ven este trabajo como un paso importante hacia la comprensión de los mecanismos de los modelos de lenguaje, lo que podría permitir monitorear y ajustar el comportamiento del modelo desde dentro para mejorar su seguridad y confiabilidad.
  • El siguiente desafío es escalar este enfoque desde el modelo pequeño en el que se demostró hacia modelos más grandes y complejos; el principal obstáculo actual es la ingeniería, no la ciencia.

Aún no hay comentarios.

Aún no hay comentarios.